Обучение генеративной нейросети

Концепция

В основу идеи данного проекта легла попытка воссоздать стиль французского живописца Клода Моне, одного из основоположников импрессионизма. Его произведения всегда завораживали меня своей воздушностью и техникой, поэтому именно его стиль написания картин и лег в основу концепции.

К. Моне «Belle Île» / К. Моне из серии „Кувшинки“

Однако, помимо характерной техники, важной чертой творчества Моне и других импрессионистов было умение передавать впечатление.

Сможет ли алгоритм нейросети не просто скопировать технику штрихов, но и запечатлеть хрупкие моменты жизни и природы?

Исходный размер 1500x1500

К. Моне из серии «Тополя»

На примерах работ Клода Моне я обучила нейросеть Stable Diffusion XL, чтобы проверить это. Получится ли с помощью инструментов искусственного интеллекта передать всю воздушность и мягкость техники Моне, его знаковые образы и то, как художник чувствовал мир вокруг — вот главный вопрос и задача этого проекта.

Подготовка к работе

Для обучения я отобрала пейзажи Клода Моне, так как именно эти работы для меня являются самыми любимыми. Также, на мой взгляд, именно они лучше всего передают технику художник и его способность запечатлеть момент.

Исходный размер 3189x1559

Примеры отобранных картин К. Моне

В число выбранных работ вошли такие знаковые произведения как: «Вестминстерский дворец», «Японский мостик», «Дорожка в саду Моне в Живерни», несколько «Кувшинок» из серии «Нимфеи» и многие другие.

Мне было важно, чтобы генерируемые изображения передавали основные черты стиля Клода Моне:

1. Отказ от черного, цветные тени;

2. Рассеянный свет, часто пастельный;

3. Небольшие дробные мазки, легкая небрежность;

4. Оптический эффект смешения с расстояния;

5. Изображение спокойствия, тишины в пейзажах.

Процесс обучения

Перед началом работы я проверила доступность GPU, установила ее как среду выполнения и установила дополнительные библиотеки и функции (torch, glob, accelerate, diffusers и др.)

Я выбрала 17 картин Клода Моне в квадратном формате (1:1) и загрузила их в папку на Google Drive. Внутри блокнота в Google Collab я дала разрешение на доступ к конкретной папке с изображениями.

Исходный размер 2394x750

К. Моне из серии «Тополя» / К. Моне из серии «Кувшинки» / К. Моне «Здание Парламента, грозовое небо»

Для извлечения описания каждой картины, я дополнительно установила модель BLIPP, которая сгенерировала краткую подпись к каждому изображению, которая включала ключевые слова о стиле, палитре и образах.

Затем эти подписи были дополнены единым стилевым префиксом, чтобы во время обучения модель связывала текстовый маркер с визуальными особенностями импрессионизма. Все подписи я собрала в единый файл metadata.jsonl, на основе которого в дальнейшем обучала модель.

Исходный размер 1024x1024

painting in Monet style, alley with poplar trees, night time, blue mist, atmospheric perspective

В качестве базовой модели я использовала Stable Diffusion XL, дополнив ее VAE для стабилизации кодировки изображений, так как без него первоначально код выдавал ошибку. Также я использовала LoRA и DreamBooth для оптимизации генерации и экономии памяти. Для обучения указала файл с краткими описаниями и папку с изображениями, а так же основные параметры: разрешение, количество шагов, триггер активации стиля и другие.

Затем я автоматически создала папку с LoRA-весами и сохранила их в нее. Итоговый результат я опубликовала на платформе Hugging Face в публичном репозитории с прилагающимся README, чтобы обученную модель можно было использовать в будущем.

painting in Monet style, poplar trees along river Epte, autumn colors, atmospheric perspective / painting in Monet style, Venice Grand Canal, water reflections, misty atmosphere

После завершения обучения я протестировала работоспособность и сгенерировала для начала 4 изображения, прописав в для них промты со стилевым маркером «painting in Monet style». Я загрузила базовую SDXL, применила к ней мои LoRA-веса и получила изображения, которые мне понравились.

Далее я сгенерировала еще несколько, чтобы получить серию из 15 изображений.

Исходный размер 1024x1024

painting in Monet style, rose garden in full bloom, golden hour glow, textured paint

painting in Monet style, water lilies pond at night, soft reflections, blue haze, impressionist brushstrokes / painting in Monet style, cliff at Étretat, Normandy coast, ocean waves, soft palette, loo

В процессе работы я столкнулась с непредвиденной проблемой, на второй день работы Google Collab не подключился к GPU из-за лимитов использования бесплатной версии. Мне пришлось временно переписать код, сместив нагрузку генерации на CPU и уменьшив размер изображений, количество шагов и качество. Однако таким способом генерация одного изображения занимала очень долгое время, а результат был плохого качества. Поэтому в итоге я вырезала эту часть тестирования и просто подождала, пока лимит ля бесплатной версии восстановится и сгенерировал а все изображения с помощью GPU.

Анализ результатов

К. Моне «Дорожка в саду Моне в Живерни» / painting in Monet style, garden in full bloom near house, grean leaves, soft shadows, textured brushstrokes

На мой взгляд, обученная модель смогла достаточно близко воспроизвести стиль оригинальных работ Клода Моне. Нейросеть хорошо научилась создавать мягкие, воздушные пейзажи, использовать мягкий рассеянный свет и цветные тени. Более того, она смогла достаточно качественно воспроизводить главную особенность техники: работы созданы отдельными мазками, которые при рассмотрении с расстояния создают оптический эффект смешения.

Также, нейросеть смогла достаточно качественно уловить впечатления моментов и природное спокойствие. Любопытно также то, что модель также старалась воспроизвести характерную подпись Клода Моне, хотя она получалась нечитаемой.

Исходный размер 1024x1024

painting in Monet style, Grand Canal Venice, shimmering water, pastel reflections

Хотя небольшие различия также присутствуют, мазки на картинах Моне все же немного более текстурные. Также, в некоторых генерация нейросеть начинает повторять объекты, и это выдает то, что изображение создано с помощью искусственного интеллекта.

К. Моне из серии «Кувшинки» / painting in Monet style, water lilies pond at sunset, soft impressionist brushstrokes

Итог

Несмотря не некоторые замечания, я считаю, что мне удалось обучить нейросеть создавать пейзажи в стиле Клода Моне и запечатлевать характерное ощущение тишины и спокойствия от его работ.

Исходный размер 4825x2368

Итоговые генерации

Вывод

Нейросеть хорошо научилась воссоздавать главные черты художественного стиля и техники Моне, его палитру, а также передавать воздушность и мягкость его работ. Итоговая серия показала, что модель может не только близко воспроизводить знаковые образы, такие как кувшинки и японский мост, но и создавать новые сюжеты по необходимым промтам.

Однако, я считаю, что настоящее искусство и творчество таких знаковых художников, как Клода Моне, нельзя заменить нейросетями. Несмотря на успешное обучение, генеративная модель является скорее любопытным инструментом и помощником для поиска вдохновения, нежели полноценным творцом.

Исходный размер 1024x1024

painting in Monet style, poppy field in summer, vibrant colors, loose brushwork

Блокнот с кодом

Исходный размер 2394x750

Примеры итоговых генераций

Применение генеративных моделей

Изображения сгенерированы с помощью модели Stable Diffusion XL.

В ходе работы был также использован DeepSeek для написания промтов для генерации изображений. А также Qwen.AI для исправления ошибок в коде и поиска решений, когда я не могла справиться своими силами.

Обучение генеративной нейросети — Claude Mone