Сравнение лучших ИИ моделей для редактирования изображений

Генерация изображений является одним из самых популярных способов использования ИИ с момента его появления, о чем мы подробно писали в этом блоге. На примере моделей, таких как Flux и Hi-Dream, мы наблюдали невероятный приток ресурсов в разработку тонкой настройки, и полученные художественные работы из этих источников просто поражают. Существует огромное количество возможностей, которые предоставляют модели текст-в-изображение — они позволяют каждому воплотить свои фантазии в реальность.

Но эти модели не идеальны. Часто изображение, которое в остальном было бы идеальным, портится из-за небольших недостатков или ошибок. Например, известно, что модели для создания изображений раньше испытывали трудности с конечностями, особенно с руками, что делало очень легко распознавать изображения, созданные ИИ, в природе. В наши дни это в значительной степени исправлено в новых моделях, но необходимость исправлять эти мелкие ошибки всё ещё существует. Чтобы это сделать, нужно обладать навыками работы с программами для редактирования фотографий, такими как Photoshop или GIMP. Именно здесь на помощь приходят новые модели для редактирования изображений.

Модели редактирования изображений — это текст-к-изображению/изображение-к-изображению модели, которые используют текстовые инструкции для внесения изменений в существующее изображение. Эти изменения могут быть незначительными, например, добавить мужчине усы, или значительными, например, полностью изменить стиль фото. Это дает каждому пользователю возможность корректировать свои изображения, сгенерированные ИИ, по мере необходимости.

В этом обзоре мы рассмотрим некоторые из лучших доступных инструментов для редактирования изображений с открытым и закрытым исходным кодом, попытаемся качественно и количественно оценить их различия, обсудим их сильные и слабые стороны, а также кратко покажем, как ими пользоваться.

Основные выводы

Разные модели редактирования изображений с помощью ИИ хорошо работают в различных условиях
Нано Банан самый простой в использовании и с ним легко начать.
Qwen Image Edit 2509 — это самая универсальная и мощная модель для редактирования изображений.

Как мы оцениваем возможности модели?

Для оценки этих моделей мы проведём серию тестов по редактированию изображений, чтобы качественно оценить их возможности. Эти тесты предполагают использование одних и тех же изображений и инструкций к запросам для внесения комплексных изменений и редактирования изображения. Затем мы посмотрим на результаты и дадим наше субъективное мнение о том, насколько хорошо модель справилась.

OmniGen2 & UMO

Первой моделью редактирования изображений, которую мы хотим представить, является OmniGen2 от исследовательской команды OmniGen, а также ее последующее прикладное использование в UMO, Единой системе многоличной оптимизации Bytedance. OmniGen2 была первой открытой моделью такого типа, и ее возможности более ограничены по сравнению с другими моделями, которые мы собираемся представить сегодня. Тем не менее, OmniGen2 демонстрирует высокие способности в редактировании изображений по инструкциям, редактировании изображения на основе текстовых вводов и генерации в контексте, позволяя обрабатывать и гибко комбинировать разнообразные вводные данные; включая людей, эталонные объекты и сцены; для создания новых и последовательных визуальных результатов. OmniGen2 имеет два отдельных пути декодирования для текстовых и графических модальностей, используя непересекающиеся параметры и разделенный токенизатор изображений. Этот подход позволяет значительно улучшить производительность по сравнению с их предыдущей работой, OmniGen 1.

UMO был разработан исследователями ByteDance для улучшения возможностей существующих моделей редактирования изображений. UMO был применён к нескольким моделям, включая их собственную модель UNO. OmniGen2 UMO повышает функциональность OmniGen2 во всех аспектах. Широкие эксперименты показывают, что UMO не только значительно улучшает согласованность идентичности, но и снижает путаницу идентичности при нескольких методах настройки изображений, устанавливая в то время новый, на момент публикации, рекорд среди методов с открытым исходным кодом по сохранению идентичности. Мы всегда рекомендуем использовать UMO вместо OmniGen2 в одиночку и будем тестировать UMO OmniGen2 в этом обзоре.

Флюкс Контекст

Flux Kontext стал следующим набором моделей для редактирования изображений, доступных с открытым исходным кодом. От Black Forest Labs эти модели сразу же стали феноменом после выпуска, многие пользователи впервые взаимодействовали с моделями редактирования изображений с помощью их инструментов и платформы. Модели выпускались в трех версиях: Max, Pro и dev.

FLUX.1 Kontext [dev] — это трансформер с прямым потоком и 12 миллиардами параметров, способный редактировать изображения на основе текстовых инструкций. «Модель обеспечивает итеративное редактирование, отлично сохраняет персонажей в различных сценах и окружающей среде, а также допускает как точные локальные, так и глобальные правки.» (Источник) На практике это невероятный инструмент для редактирования изображений, позволяющий выполнять сложные изменения лишь с помощью текстовых подсказок.

Qwen Редактирование изображений & Qwen Редактирование изображений 2509

Qwen Image Edit основывается на достигнутом прогрессе методов редактирования изображений на основе диффузии, которые стали пионерами в практике сочетания семантического и визуального контроля для более гибких рабочих процессов редактирования. Фундаментальная модель Qwen-Image с 20 миллиардами параметров привносит свою уникальную точность текста в пространство редактирования.

Для этого Qwen-Image-Edit направляет входное изображение одновременно в Qwen2.5-VL (для семантической привязки) и в кодировщик VAE (для сохранения согласованности внешнего вида), достигая высококачественного редактирования, которое балансирует между смыслом и стилем. Такое соответствие существующим исследовательским традициям обеспечивает, что Qwen Image Edit наследует сильные стороны предыдущих инноваций, при этом достигая лучших результатов в точном управлении текстом и изображением.

Qwen Image Edit 2509 — это обновлённая версия модели, превосходящая возможности Qwen Image Edit во всех заметных аспектах. Мы всегда рекомендуем использовать версию 2509 вместо оригинальной и будем тестировать её в этом обзоре. Особенно стоит отметить, что Qwen Image Edit 2509 значительно улучшен в работе с редактированием нескольких изображений одновременно, позволяя пользователям отправлять несколько изображений для совместного редактирования за один раз.

Gemini Flash 2.5 также известен как Nano Banana

Возможности редактирования изображений Gemini 2.5 Flash, с кодовым названием Nano Banana, являются контрольной группой для этого обзора. Nano Banana — это модель редактирования изображений, которая превосходно справляется со всеми задачами и показателями, и занимает лидирующие позиции в рейтингах моделей для редактирования изображений. Более того, она работает в облаке Google, что позволяет нам воспользоваться их передовыми разработками.

В конечном итоге эта закрытая модель можно справедливо назвать самым мощным инструментом для редактирования изображений после Photoshop. Таким образом, мы используем её в качестве эталона для сравнения со всеми другими моделями. Мы ожидаем, что Nano Banana превзойдёт конкурентов с открытым исходным кодом по всем параметрам, но при этом будет хорошо служить ориентиром для правильного поведения модели.

Качественная оценка моделей редактирования изображений

Теперь мы переходим к разделу обзора этой статьи. В этом разделе мы попытаемся качественно оценить возможности различных выбранных моделей. Для этого мы создали 5 изображений с помощью Hunyuan Image 3.0 на аппаратуре 8xH100 GPU Droplet. Все изображения были сгенерированы с 50 шагами, разрешением 1024×1024 и случайным семенем. Затем мы собираемся применить 5 редактирований изображений к каждому из 5 сгенерированных изображений, используя каждую из моделей редактирования изображений. Это создаст 5 примеров для каждой модели с одинаковым заданием на редактирование изображения для целей сравнения.

Подсказки

Чтобы начать, мы создали 4 подсказки для генерации изображений, которые сильно различаются по жанрам, темам, реалистичности, художественному стилю, содержанию и объектам. Мы разработали эти подсказки самостоятельно, частично вдохновляясь предыдущими работами и техническим отчетом Hunyuan Image 3.0, а затем улучшили их с помощью функции улучшения подсказок Hunyuan Image 2.1. Эти усовершенствованные подсказки приведены ниже:

Стиль: пропагандистский плакат, выполненный от руки, середина XX века, напоминает классические иллюстрации Роквелла
Сцена: исследователь на чужой планете на фоне ярких и странных джунглей
Главный герой:
- Исследователь в громоздком ретрофутуристическом космическом костюме
Серебристая, мягкая ткань с выступающей гофрированной трубкой
Большой сферический стеклянный шлем, показывающий решительное выражение лица
Держит лучевое оружие с металлическим стволом и видимым экраном

Окружающая среда:

Плотные инопланетные джунгли доминируют в среднем плане

Высокие, стройные деревья с темно-фиолетовыми стволами

Густые, закручивающиеся розовые лозы, покрывающие навесы

Большие, зазубренные оранжевые кристаллические структуры с едва заметным свечением

Дальний план: силуэты древних, разрушенных руин, покрытых лианами и разбросанным хламом

Подпись: изысканная рукописная подпись внизу: «Исследуйте Ригел-4!» жирным, стилизованным шрифтом

Стиль: чистый, красочный, высоко креативный цифровой иллюстрация
Фон: простой, нейтральный фон
Основная сцена: большой алфавитный пазл, буквы от А до Я расположены по горизонтали
Письмо с деталями:
- A: динамичная, текущая вода, полупрозрачные синие потоки, белая пена на концах
B: ревущий огонь, яркие оранжевые и жёлтые языки пламени, тёмно-красные дымовые следы
C: пышная зелёная трава, детальные стебли, чётко и аккуратно скошенная
D: блок тёмного шоколада, гладкая блестящая поверхность, надрезанные линии
E: свежий хлеб, светло-золотистая корка, пористая мякоть
F: пучок зелёных листьев с тонкими прожилками
G: крупный мраморный зелёный камень с закрученными тёмно- и светло-зелёными узорами
H: ярко-желтая банан, стоящая вертикально, коричневые семечки на кончике
I: высокая стройная свеча в стеклянной банке, зажженный фитиль
J: коллекция разноцветных круглых леденцов
K: мёд, стекающая золотисто-янтарная жидкость
L: одно большое красное яблоко, гладкая блестящая кожура
M: стопка аккуратно сложенных белых полотенец
N: пара чёрных домино, соединённых тонкой гибкой линией
O: идеально круглый белый маршмеллоу, мягкий и поддающийся сжатию
P: классическая красно-бело-полосатая бумажная трубка
Q: одна яркая оранжевая звезда с желтым центром
R: красный долька яблока рядом с маленьким зелёным горошком
S: длинная извивающаяся лента из шелка цвета радуги
T: стандартная книга в твёрдом переплёте, тёмно-коричневая обложка
U: золотисто-желтый кекс с белой глазурью, которая стекает
V: Рамка с вырезом в форме буквы V, обнажающая сплошной красный блок фрукта
W: четыре прямых коричневых кренделя
X: яркая красно-бело-клетчатая ткань в стиле гингем
Y: один большой бледно-желтый желток
Z: прямой металлический серебристый ключ

Стиль: высококачественная, яркая фотография
Расположение: ярко освещённый, ультрасовременный ресторан
Главные персонажи:
- Мужчина: в умном тёмном костюме, поднимает элегантный бокал вина
Женщина: стильная шелковая блузка, тепло улыбается, поднимает бокал вина для тоста

Стол: круглый стол из темного дерева, одна высокая свеча, отбрасывающая теплое мерцающее сияние

Атмосфера: радостная, праздничная

Фон: видно через панорамные окна от пола до потолка

Группа клоунов, исполняющая неуклюжий, но комичный танцевальный номер

Движения преувеличены: акробатические сальто, неуклюжие вращения, забавные выражения лица

Полированный бетонный пол

Интерьер ресторана: минималистичный, стены ярко-белые, обширный прозрачный вид на представление снаружи

Стиль: традиционные китайские тушевые и акварельные рукописи, плавные мазки кистью, монохромная или ограниченная цветовая палитра
Главный герой:
- Игривый мультяшный обезьян
Светло-коричневый мех
Длинный хватательный хвост, изгибающийся вверх
Озорное выражение: широко блестящие глаза, широкая улыбка
Маленькие руки цепляются за шероховатую кору, одна нога согнута в середине пробежки

Дерево:

Большой, искривлённый, древний, крепкий ствол

Искажённый ствол, изображённый тёмными выразительными каллиграфическими линиями различной толщины

Ветки с жирными мазками и более тонкими линиями для деталей

Стилизиованные листья в оттенках нефритового зелёного и глубокого изумрудного

Фон: мягкая кремово-белая или светлая пергаментная текстура, напоминающая состаренную бумагу

Подробности фона: едва различимые туманные горы на расстоянии, бледные разбавленные чернильные заливки

Далее давайте обсудим план редактирования подсказок. Их необходимо адаптировать для каждого изображения, чтобы они работали эффективно, так как многие изменения не имели бы смысла при универсальном применении. По этой причине каждый набор подсказок для редактирования изображений будет создаваться специально для каждого изображения. Эти подсказки будут разнообразными и направлены на охват различных типов редактирования, включая перенос стиля, модификацию объектов, добавление объектов, удаление объектов и манипуляции с субъектом. В следующем разделе мы перечислим изменения под каждым примером.

Сравнение возможностей моделей редактирования изображений

Изображение 1

Наши подсказки для редактирования перечислены ниже:

Сделайте изображение в стиле «Звёздной ночи» Ван Гога
добавьте мужчине усы
удалите надпись и окраску логотипа в нижней части изображения

Как мы можем видеть из приведённой выше диаграммы, каждый из различных моделей, по-видимому, превосходит в разных областях. Например, Qwen и Nano Banana значительно опережают другие в примере переноса стиля. Они сохраняют оригинальное изображение, одновременно прямо перенесая стиль на изображение. Umo и Flux Kontext отставали от других по сохранению тонких особенностей оригинального изображения, а UMO, похоже, даже не понял запрос.

Нано Банан и Квен снова отлично справились с заданием номер 2, добавив усы. UMO и Kontext вновь кажутся немного менее эффективными, так как усы видны за пределами шлема.

Для третьего запроса очевидным лидером стал Nano Banana. Qwen, похоже, не понял, что также нужно удалить фон логотипа из запроса, а UMO хоть и понял задачу, но не смог расширить фоновые элементы. Kontext и Nano Banana успешно справились с задачей, но нам больше нравится детализация изображения Nano Banana, добавленная там, где удалены логотип и надписи.

В целом, Nano Banana выделялся в этой серии задач, но Qwen и Kontext были довольно хороши в большинстве сценариев.

Изображение 2

Наши подсказки для редактирования перечислены ниже:

Сделайте изображение так, чтобы оно выглядело как нарисованное для японского аниме.
Удалите огненную букву B с изображения
Замените букву Z в правом нижнем углу на символ числа «1»

Как мы можем видеть из примера, эта серия подсказок была немного сложнее, так как требовала от моделей не только понимания текста, но и внесения исправлений. В первом примере все трое достаточно хорошо справились с изменением стиля на аниме. Qwen, по-видимому, стилистически ближе всего к настоящему аниме, но это субъективно.

Для задания 2 явным победителем стал Flux Kontext. Он полностью понял точное задание и точно внес исправление, не затрагивая остальную часть изображения. Qwen справился почти так же хорошо, но также убрал букву «A» рядом с назначенной «B». Nano Banana удалил целую строку букв, что свидетельствует о том, что он может быть не таким продвинутым в чтении и письме. UMO просто заменил «B» на другую форму «B», что показывает, что он понял задачу, но всё же не смог её выполнить.

Для запроса 3 все три модели — Kontext, Qwen и Nano Banana — справились легко. Это могло быть связано с тем, что мы включили дополнительные инструкции по нахождению объекта для редактирования на изображении, но они всё равно справились. UMO полностью потерпела неудачу.

Изображение 3

Наши подсказки для редактирования перечислены ниже:

Сделайте сцену и персонажей так, чтобы они выглядели как из популярного американского мультфильма с персонажами желтой кожи
Удалите клоунов на заднем плане
Нанесите драматичный макияж грустного клоуна на мужчину на переднем плане

Смотря на первый запрос, Qwen Image Edit явно выделялся. Другие модели, казалось, понимали задачу, но все они не смогли добиться результата. Nano Banana слишком реалистичен для мультфильмов, а UMO, похоже, пропустил повсеместный пример мультфильма — Симпсоны, на который он мог бы ориентироваться. Единственная модель, которая приближается к Qwen, здесь — Kontext, который, похоже, понимает задачу и успешно внес необходимые изменения.

Для второго задания нам особенно понравились результаты работы Qwen Image Edit по сравнению с другими. Остальные справились с удалением объектов на заднем плане, но они не заполнили пространство реалистичной заменой, как это сделал Qwen. Замененные столы делают изображение более реалистичным.

Для запроса 3, Nano Banana и Qwen Image Edit, по-видимому, лучше справились с внесением изменений. Nano Banana, вероятно, является победителем здесь, так как он не изменил выражение лица женщины на переднем плане, в отличие от Qwen Image Edit. UMO и Kontext внесли изменения правильно, но также изменили другого человека на изображении. Поскольку мы указали редактировать только черты мужчины, эти результаты показывают меньшую способность понимания текста по сравнению с Qwen и Nano Banana.

Изображение 4

Наши подсказки для редактирования перечислены ниже:

Превратите сцену в реалистичное фотографическое изображение, снятое камерой
Дайте обезьяне цилиндр, монокль и нарядный костюм
Переверните обезьяну так, чтобы она ползла вниз по дереву, вниз головой

Наконец-то мы переходим к первому запросу для Изображения 4. В этом примере, снова, Qwen Image Edit 2509 безусловно лучше всех остальных. Он успешно полностью и правдоподобно изменил стиль изображения. Остальные же так не сделали, хотя Flux Kontext, по крайней мере, казалось, понимал задачу и пытался её выполнить.

Для подсказки 2 победителем здесь является Qwen Image Edit. Новая одежда, добавленная на обезьяну, выглядит наиболее реалистично и наиболее точно соответствует подсказке в редакциях Qwen, за ними с небольшим отставанием следуют результаты Nano Banana. Flux Kontext справился неплохо, но вместо монокля надел обезьяне очки. UMO полностью не справился с тем, чтобы оставить обезьяну на дереве.

Как мы можем видеть по третьему запросу, Qwen и Nano Banana явно лучше других вариантов редактирования. Оба успешно показали обезьяну в перевернутом положении. Особенно нам нравится пример Qwen, где обезьяна теперь висит на ветке. Что касается UMO, мы подозреваем, что модель не поняла, что нужно делать, и просто решила убрать объект. Для Flux Kontext никаких изменений не было сделано.

Общие результаты

Исходя из этих результатов, по нашему субъективному мнению, Qwen Image Edit 2509 является лучшим и самым универсальным инструментом для редактирования изображений на базе ИИ. Он не только самый функциональный, но и возможность использовать его одновременно с несколькими изображениями делает его ещё более ценным по сравнению с другими инструментами, рассмотренными в этом обзоре. Его также можно донастраивать с помощью инструментов, таких как AI-Toolkit, а сама возможность кастомизации моделей делает его в многих случаях лучшим вариантом, чем Nano Banana. Мы рекомендуем Qwen Image Edit 2509 для всех задач по редактированию изображений.

Попробуйте Qwen Image Edit 2509 сегодня на Linux-Console.net Gradient GPU Droplet!

Спасибо, что учитесь вместе с сообществом Linux-Console.net.

Сравнение лучших ИИ моделей для редактирования изображений

Сравнение лучших ИИ моделей для редактирования изображений

Основные выводы

Как мы оцениваем возможности модели?

OmniGen2 & UMO

Флюкс Контекст

Qwen Редактирование изображений & Qwen Редактирование изображений 2509

Gemini Flash 2.5 также известен как Nano Banana

Качественная оценка моделей редактирования изображений

Подсказки

Сравнение возможностей моделей редактирования изображений

Изображение 1

Изображение 2

Изображение 3

Изображение 4

Общие результаты

Комментарии

Добавить комментарий Отменить ответ

Другие статьи: