Wenxin ERNIE-ViLG, крупнейшая в мире китайская кросс-модальная генеративная модель, уже здесь!

Недавно была обнародована панорама промышленной модели расширения знаний Baidu «Wenxin», а недавно кросс-модальная модель генерации ERNIE-ViLG открыла портал опыта на официальном сайте Baidu Wenxin и опубликовала документ.

Ссылка на опыт:Warm.Baidu.com/Тепло/А вы…

Ссылка на бумагу:АР Вест V.org/PDF/2112.15…

Сообщается, что Wenxin ERNIE-ViLG имеет шкалу параметров 10 миллиардов, что на сегодняшний день является крупнейшей китайской кросс-модальной моделью генерации в мире.Эта модель является первой, в которой используется авторегрессионный алгоритм для унифицированного моделирования генерации изображений и генерации текста для улучшить кросс-модальную семантику модели, возможность выравнивания, значительно улучшить эффект генерации изображений и текста.

Давайте сначала испытаем способность ERNIE-ViLG «создавать образы».

Для текстовых изображений Wenxin ERNIE-ViLG может автоматически создавать изображения в соответствии с текстом, введенным пользователем.Сгенерированные изображения не только соответствуют текстовому описанию, но и достигают очень реалистичного эффекта.

Уведомление! Следующие изображения созданы заново, а не исходные изображения, которые можно искать напрямую.

Wenxin ERNIE-ViLG может не только создавать отдельные объекты, такие как здания и животные:

Также можно создавать сложные сцены с несколькими объектами:

Можно даже открыть свой мозг по введенному пользователем тексту:

Для древних стихов с неограниченным воображением Wenxin ERNIE-ViLG также может создавать соответствующие изображения и настраивать их в соответствии с различными стилями изображения:

стиль масляной живописи

Китайский стиль живописиакварельный стиль

Кроме того, вы также можете дополнить картинку по текстовой подсказке:

При преобразовании изображения в текст Wenxin ERNIE-ViLG может понимать изображение и лаконично описывать его содержание:

Мало того, Wenxin ERNIE-ViLG также может ответить на сопутствующие вопросы в зависимости от сцены на картинке:

В настоящее время демо-версия Wenxin ERNIE-ViLG для преобразования текста в изображение на официальном веб-сайте Baidu Wenxin может использоваться для рисования изображений на основе древних стихов для улучшения визуального смысла стихов.

В чем секрет технологии искусственного интеллекта за этими возможностями?

Кросс-модальное поколение: Очень сложная «сложная задача» в области ИИ

Кросс-модальная генерация относится к преобразованию одной модальности (текста, изображения, речи) в другую модальность при сохранении семантической согласованности между модальностями.

Генерация изображения и текста — одна из задач кросс-модальной генерации. В качестве примера возьмем сгенерированные текстом изображения, текстовое описание которых носит весьма общий характер, а создание изображений из текста требует рассмотрения большого количества деталей, не отраженных в тексте, что чрезвычайно сложно. Например, стих «Погружая Утиного Пророка в весеннюю реку» описывает только два объекта реки, утку и весенний сезон, но не описывает конкретно цвет утки, цветы персика на берегу реки, и позиционные отношения между объектами на картинке.

Спринг-Ривер Сантехник Дак Пророк

В последние годы методы, основанные на генеративно-состязательных сетях (GAN), достигли хороших результатов в задачах преобразования текста в изображение в ограниченных полях, таких как лица и пейзажи; DALL-E использует крупномасштабную авторегрессионную генеративную модель для создания изображений в изображениях. , Между сегментами устанавливается отношение прямой зависимости, так что он обладает способностью моделирования генерации разнообразия и достигает ярких результатов в создании более разнообразного и более сложного преобразования текста в изображение с открытым доменом.

Модель Baidu Wenxin ERNIE-ViLG также предлагает унифицированную кросс-модальную двунаправленную модель генерации, которая использует режим авторегрессионной генерации для унифицированного моделирования задач генерации изображений и генерации текста, чтобы лучше фиксировать семантическое соответствие между модальностями. графика и текст. В авторитетном общедоступном наборе данных MS-COCO текстовых изображений Wenxin ERNIE-ViLG индекс оценки качества изображения FID (Fréchet Inception Distance) намного превосходит DALL-E OpenAI и другие подобные модели и обновляет большинство задач описания изображения. хороший эффект. Кроме того, Wenxin ERNIE-ViLG также добился лучших результатов в генеративных визуальных задачах с ответами на вопросы благодаря своей сильной способности к кросс-модальному пониманию.

Интерпретация принципа технологии ERNIE-ViLG компании Wenxin: Графическая двунаправленная генерация унифицированного моделирования

Baidu Wenxin ERNIE-ViLG использует преобразователь совместного использования параметров кодировщика-декодера в качестве базовой сети авторегрессионной генерации и одновременно изучает две задачи: генерация текста и изображения.

Основываясь на технологии векторного квантования изображений, ERNIE-ViLG выражает изображения в виде дискретных последовательностей, так что текст и изображения могут быть смоделированы с помощью авторегрессионной генерации единой последовательности. Когда текст генерирует изображения, вход модели Wenxin ERNIE-ViLG представляет собой последовательность текстовых маркеров, а выход — последовательность маркеров изображения; когда изображения генерируют текст, текстовое содержимое прогнозируется в соответствии с входной последовательностью изображений. Генеративные задачи в обоих направлениях используют одну и ту же модель Transformer. Как визуальные, так и лингвистические модальности генерируют один и тот же шаблон при одних и тех же параметрах модели, что может помочь модели установить лучшее кросс-модальное семантическое согласование.

Wenxin ERNIE-ViLG Графическая двунаправленная унифицированная среда моделирования

Существующие модели изображений для генерации текста, основанные на дискретном представлении изображений, в основном используют двухэтапное обучение, двухэтапное независимое обучение визуальной последовательности генерации текста и реконструкцию изображения в соответствии с визуальной последовательностью. к модели реконструкции для восстановления изображения, предоставляя более семантически богатые функции для реконструированной модели; для генеративной модели она может одновременно получать свой собственный абстрактный сигнал наблюдения и исходный сигнал наблюдения от модели реконструкции, есть Помогает лучше изучить представления изображения.

Wenxin ERNIE-ViLG создал крупномасштабный набор данных кросс-модального выравнивания, содержащий 145 миллионов высококачественных пар текст-изображение на китайском языке, и обучил модель с 10 миллиардами параметров на этом наборе данных на основе платформы глубокого обучения Baidu Fei Pao и сгенерировал текст. в генерации текста.Производительность модели оценивается в кросс-модальных задачах генерации, таких как изображения и описания изображений.

Синтез текста в изображение эффект задачи

Способность Wenxin ERNIE-ViLG генерировать изображения из текста подтверждена в общедоступном наборе данных MS-COCO. В индикаторе оценки используется FID (чем ниже значение индикатора, тем лучше эффект). Как в методах нулевого выстрела, так и в методах точной настройки Wenxin ERNIE-ViLG добился наилучших результатов, и эффект намного превосходит такие модели, как DALL. -E, выпущенный OpenAI.

Влияние Wenxin ERNIE-ViLG на набор данных MS-COCO

Подпись к изображению эффект задачи

Что касается возможности генерировать текст из изображений, Wenxin ERNIE-ViLG добился наилучших результатов в COCO-CN и AIC-ICC, двух общедоступных китайских наборах данных для создания подписей к изображениям.

Влияние Wenxin ERNIE-ViLG на набор данных AIC-ICC

Генеративный VQA эффект задачи

Что касается генеративных визуальных ответов на вопросы, Wenxin ERNIE-ViLG также продемонстрировал хорошие результаты. Генеративный визуальный ответ на вопрос требует, чтобы модель генерировала ответы на основе содержимого изображения и соответствующих вопросов.Модель должна иметь глубокое понимание визуального содержания и межмодальное семантическое выравнивание, а также генерировать короткие тексты ответов, что чрезвычайно сложно. Wenxin ERNIE-ViLG достигает наилучших результатов в наборе данных FMIQA с процентом прохождения теста Тьюринга 78,5%, что на 14 процентных пунктов лучше, чем текущий современный метод.

Влияние Wenxin ERNIE-ViLG на набор данных FMIQA

Одна из важных целей искусственного интеллекта — наделить машины кросс-модальными генеративными возможностями. В областях создания произведений искусства, виртуальной реальности, редактирования изображений, дизайна с помощью ИИ, виртуального цифрового человека и других областях кросс-модальная модель, такая как Wenxin ERNIE-ViLG, имеет широкий спектр перспектив применения, а также предоставляет неограниченные возможности для творчества. будущее развитие этих месторождений и, возможно. Wenxin ERNIE-ViLG, важный участник панорамы крупных моделей Baidu, также представляет твердые шаги Baidu Wenxin в области кросс-модальных крупных моделей и продолжает продвигать независимые технологические инновации и ускоренное развитие промышленных приложений в Китае.

нажмите "здесь" Вы можете быстро испытать Wenxin ERNIE-ViLG~