Ctrip's Image Интеллектуальная строительная дорога

искусственный интеллект
об авторе  

Ли Сян, руководитель отдела технологий обработки изображений, группы информационных наук, отдела анализа данных, Ctrip, занимается исследованиями и применением компьютерного зрения и машинного обучения, а в настоящее время занимается анализом изображений отелей.Он публикуется на научных конференциях и в международных журналах, в том числе ICCV и CVPR Опубликовано более 10 статей.

Являясь лидером индустрии OTA, Ctrip имеет сотни миллионов изображений отелей из миллионов отелей по всему миру, и количество изображений отелей растет со скоростью сотни тысяч каждый день. Перед лицом массивных изображений отелей, как выполнить интеллектуальную обработку и добычу, значительно сократить ручное вмешательство в изображения и как реализовать интеллектуальное приложение, повысить скорость, точность и полноту информации об отеле для пользователей, а также повысить удовлетворенность пользователей, эти стали безотлагательными решениями проблемы.

 

По сравнению с модельными инновациями, проводимыми академическими кругами, мы уделяем больше внимания эффекту технической практики в сценариях посадки и стремимся решать практические бизнес-задачи простым и эффективным способом. Чтобы решить вышеуказанные проблемы, мы провели серию исследований и исследований в области интеллекта изображений отелей от 0 до 1. Общая архитектура текущей аналитики изображения отеля показана на рисунке ниже.

 

Среди них, благодаря интеллектуальной обработке изображений и добыче, он может значительно сэкономить на ручной обработке изображений и добыче богатой информации об изображениях.На этой основе, благодаря интеллектуальному приложению изображений, он может еще больше эффективно создавать огромную ценность для пользователей и отелей. Далее мы сконцентрируемся на этих двух частях, начиная с ряда конкретных практик, и поделимся схемой построения интеллектуального имиджа отелей Ctrip от 0 до 1.

 

1. Интеллектуальная обработка и анализ изображений

Интеллектуальная обработка и интеллектуальный анализ изображений являются основой интеллектуального анализа изображений отеля, включая предварительный просмотр изображений, улучшение качества изображений и интеллектуальный анализ информации об изображениях.

 

1

Предварительный просмотр изображения

Предварительный просмотр изображений – это первый шаг в интеллектуальном анализе изображений всего отеля. Он направлен на то, чтобы помочь людям эффективно выполнять просмотр массивных изображений с помощью ряда технологий обработки изображений и сократить трудозатраты. В настоящее время он включает автоматическую дедупликацию изображений. похожие изображения, водяные знаки/реклама Предварительное обнаружение визуально видимых несоответствующих изображений и т. д. Некоторые из этих практик описаны ниже.

 

Дедупликация похожих изображений

 

Сходство/сходство между изображениями отелей в основном проявляется в 1) деформации размеров, 2) неполном кадрировании, 3) изменении цвета, 4) изменении поворота, 3) изменении цвета.

 

Дедупликация похожих изображений обычно делится на два основных этапа: 1) извлечение выражения признака изображения и 2) вычисление сходства между изображениями. Для извлечения выражений признаков изображения общие созданные вручную признаки включают цвет, текстуру, HOG, SIFT, SURF и т. д. Кроме того, также часто используется глубокое выражение признаков, основанное на глубоком обучении. Для расчета подобия между изображениями распространенные методы измерения расстояния без учителя включают евклидово расстояние, манхэттенское расстояние и косинусное расстояние; распространенные методы измерения расстояния с учителем включают LMNN, KISSME, LFDA и MFA. Однако эти методы вычисляют сходство на основе признаков с плавающей запятой, а скорость вычислений, как правило, низкая, поэтому метод хэш-обучения используется для преобразования признаков изображения в двоичные коды, а затем используется расстояние Хэмминга для быстрого вычисления сходство, которое больше соответствует требованиям к скорости обработки изображений.

 

Для одинаковых/похожих изображений отеля большинство глобальных функций (таких как цвет, текстура и HOG) не могут хорошо решить проблемы обрезки изображения и изменения поворота; некоторые локальные функции (такие как SIFT и SURF) Эффект экспрессии хороший, но скорость вычислений слишком низкая из-за сложности выделения признаков.

 

Ввиду недостатков вышеупомянутых методов выделения признаков мы принимаем алгоритм быстрого выделения и описания признаков ORB в качестве выражения признаков изображения и используем расстояние Хэмминга для завершения вычисления сходства. Функция ORB имеет следующие преимущества: 1) Высокая скорость извлечения признаков; 2) В большинстве случаев эффект дедупликации может быть равен SIFT/SURF; 3) Извлекаемые признаки находятся непосредственно в виде двоичного кодирования, без использование методов хэш-обучения.Сходство можно быстро рассчитать, непосредственно используя расстояние Хэмминга.

 

В реальных приложениях мы дополнительно оптимизируем его, чтобы компенсировать отсутствие масштабной инвариантности функций ORB, а также уменьшить влияние таких факторов, как деформация и размытие на функции ORB.При обеспечении производительности это улучшает дедупликацию изображений.Точность.

 

Обнаружение водяных знаков изображения

 

Визуальная заметность водяных знаков на изображениях очень низкая, они характеризуются небольшой площадью, светлым цветом и высокой прозрачностью.

 

Мы преобразуем задачу обнаружения водяных знаков изображения в специальную задачу обнаружения одного объекта. Модель деформируемой детали (DPM) была популярным методом обнаружения объектов до появления глубокого обучения. После появления глубокого обучения мейнстримом стал ряд методов обнаружения целей, основанных на глубоких сверточных нейронных сетях, представленных R-CNN, SPPNet, FastR-CNN, FasterR-CNN, SSD, YOLO/YOLO2 и т. д.

 

Для поддержки надежной сети обнаружения целей требуется большой объем данных меток, однако сбор и маркировка крупномасштабного набора данных обнаружения целей водяных знаков — очень трудоемкая и трудоемкая задача. Чтобы решить эту проблему, мы разработали систему производства наборов данных для автоматической генерации и автоматической маркировки обучающих данных, а также создали диверсифицированный крупномасштабный набор данных для обнаружения целей с водяными знаками с меньшим участием человека.

 

В этом наборе данных мы дополнительно сравниваем три основных метода обнаружения объектов FasterR-CNN, SSD и YOLO2. Благодаря всесторонней оценке производительности и эффектов мы решили улучшить YOLO2, чтобы сделать его более подходящим для задачи обнаружения водяных знаков с одной целью, чтобы реализовать окончательный детектор изображений с водяными знаками. На основе этого детектора мы можем добиться идеального обнаружения сотен распространенных водяных знаков в наборе данных, а также показать хороший эффект обнаружения водяных знаков, которых нет в наборе данных.

 

2

  Улучшение качества изображения

 

Улучшение качества изображения направлено на улучшение качества изображений отелей и дальнейшее снижение стоимости ручной обработки изображений с помощью ряда технологий обработки изображений, в настоящее время включая удаление размытия изображения, увеличение небольшого изображения и интеллектуальное улучшение изображения. Далее в основном рассказывается о некоторых наших методах увеличения эскизов отелей.

 

Отель маленькое изображение увеличено

 

Если в отеле есть изображение с низким разрешением, оно обычно преобразуется в изображение с высоким разрешением и отображается для пользователя, чтобы пользователь мог получить больше деталей изображения и лучше понять, что происходит в отеле. Однако, если изображение с низким разрешением увеличить напрямую, изображение будет выглядеть размытым, и детали изображения будет трудно восстановить.

 

Чтобы изображения с низким разрешением после увеличения становились более четкими, мы вводим технологию сверхвысокого разрешения изображения. Простейшим методом сверхвысокого разрешения изображения является интерполяция изображения, но на интерполированном изображении легко образуются зубчатые края, а эффект восстановления деталей оставляет желать лучшего. Традиционные методы сверхвысокого разрешения изображения обычно реализуются путем разреженного представления и изучения словаря и используют большое количество пар образцов с высоким и низким разрешением в качестве предварительной информации для восстановления деталей изображения.Обычные методы включают SR, ANR, SF и A+. С развитием глубокого обучения изучение функции сквозного отображения от изображений с низким разрешением к изображениям с высоким разрешением с помощью полностью сверточных нейронных сетей стало основным методом, среди которых SRCNN, DRCN, VDSR, SRResNet, SRGAN и Типичными методами являются SRDenseNet.

 

В реальной сцене увеличения небольшого изображения мы выбираем VDSR для построения сети сверхвысокого разрешения, структура показана на рисунке выше. В частности, мы объединяем несколько кратных образцов изображений для гибридного обучения, чтобы модель могла одновременно адаптироваться к нескольким различным кратным сверхразрешениям.

 

Тем не менее, мы все еще сталкиваемся с некоторыми проблемами в практических приложениях: 1) Функция потерь, используемая сетью сверхвысокого разрешения, обычно представляет собой минимальную среднеквадратичную ошибку (MSE), что делает результат реконструкции высоким отношением сигнал/шум, но не хватает информации о высоких частотах, что приводит к чрезмерно гладкой текстуре изображения. 2) Реальные изображения отелей с низким разрешением часто имеют сжатие с потерями, а само изображение имеет блочный эффект. Использование сети со сверхвысоким разрешением напрямую для восстановления деталей сделает эффект блочного изображения более серьезным.

 

Чтобы еще больше улучшить эффект сверхразрешения изображения на основе VDSR, мы внесли ряд улучшений для вышеуказанных проблем, которые не только гарантируют, что изображения, выдаваемые сетью, будут более естественными, но и значительно уменьшат влияние эффекта блока. Используя приведенную выше модель, можно эффективно добиться реконструкции изображений с низким разрешением с высоким разрешением, значительно улучшить качество изображения отеля и значительно снизить затраты на ручную обработку изображений.

3

Добыча информации об изображении

Интеллектуальный анализ информации об изображениях направлен на автоматическое и быстрое извлечение богатого содержимого, содержащегося в изображениях, с помощью ряда технологий обработки изображений, создание информационного файла для каждого изображения отеля и создание прочной основы для следующего шага приложений интеллектуального анализа изображений, включая классификацию содержимого изображений. , обнаружение нескольких целей изображения и оценка качества изображения и т. д. Некоторые из этих практик кратко описаны ниже.

 

Классификация содержимого изображения

 

Изображения отелей — это интуитивно понятное отображение информации обо всех аспектах отеля.Поскольку нам нужно помочь пользователям найти изображения, которые они хотят просматривать, как можно быстрее и проще, классификация изображений отелей особенно важна.

 

С появлением глубокого обучения, особенно появлением сверточных нейронных сетей, глубокая сверточная нейронная сеть обучается напрямую, используя большое количество помеченных образцов изображений отеля, таких как широко используемые AlexNet, VGGNet, ResNet, DenseNet и ряд Сеть на основе Inception и т. д. может реализовать классификацию изображений отелей. Однако вручную маркировать большое количество обучающих выборок очень дорого, и если обучающих выборок недостаточно, сеть будет переобучать. Чтобы добиться хороших результатов классификации при аннотировании небольшого количества изображений отелей, мы используем эффективные возможности обучения с передачей глубоких сетей для точной настройки весов сети, которые были предварительно обучены на крупномасштабных наборах данных.

 

В практических приложениях мы не использовали наиболее широко используемый набор данных ImageNet, потому что содержание изображений в этом наборе данных слишком отличается от изображений отеля, что влияет на эффект обучения с передачей по сети. Чтобы максимально улучшить переносимость сети, мы используем предварительно обученную сеть VGGNet на наборе данных изображения естественной сцены, который наиболее близок к содержимому изображения отеля в качестве исходной настройки. Между тем, мы дополнительно дополняем аннотированный небольшой набор данных изображений отеля с горизонтальным отражением, случайным кадрированием и цветовым сглаживанием.

 

Основываясь на вышеуказанных методах, мы реализовали точное различение более десяти категорий контента изображения отеля, которое готово для будущих приложений интеллектуального анализа изображений.

 

Оценка качества изображения

 

В предыдущем разделе мы представили извлечение информации о категории изображений с помощью модели классификации изображений отеля. Затем нам нужно дополнительно оценить качество всех изображений отеля и рассчитать показатель качества для каждого изображения отеля, чтобы охарактеризовать его качество.

 

Сначала мы выбрали объективный показатель резкости в качестве стандарта оценки качества изображения, однако обнаружили, что использование только резкости в качестве стандарта оценки качества изображения было недостаточным, и было много изображений с высоким разрешением, но плохим содержанием. Поэтому мы предпочитаем иметь возможность оценить качество изображения с эстетической точки зрения.

 

Красота изображения является очень субъективным понятием, и трудно иметь единый стандарт для количественной оценки.Чтобы максимально точно определить количественную оценку красоты изображения, мы выбираем метод глубокого обучения для достижения оценки красоты. В частности, мы преобразуем проблему регрессии вычисления оценки в проблему классификации оценки того, красивое изображение или нет. Чтобы преобразовать результат суждения модели в эстетическую оценку, мы выводим вероятность того, что изображение оценивается как красивый в последнем слое модели, как оценка красоты изображения. Этот метод может интуитивно преобразовывать вывод бинарного классификатора в результат оценки.

 

На практике мы снова сталкиваемся с той же проблемой, не имея большого количества обучающих изображений с метками «хорошо/плохо». Благодаря нашему успеху в использовании мощных возможностей обучения переносу сверточных нейронных сетей в классификации изображений отелей, мы решили продолжить этот подход. Поскольку эстетика изображений отеля зависит от многих аспектов, таких как содержание, цвет и композиция, мы больше не полагаемся на набор данных изображения сцены с одним контентом, такой как классификация изображений отеля, а будем использовать всеобъемлющий набор данных ImageNet и набор данных изображения сцены. Смешайте предварительное обучение модели ResNet и постарайтесь, чтобы как можно больше изображений участвовало в изучении модели ResNet с большим количеством слоев, чтобы более глубокая сеть могла запоминать больше содержимого изображения и лучше понимать взаимосвязь между различными областями в изображении. -глубина, с тем чтобы еще больше улучшить миграционную способность сети при оценке эстетики.

 

В процессе маркировки набора данных, поскольку изображение красивое или нет, сильно зависит от субъективности, мы синтезировали результаты оценки нескольких человек в качестве маркировки каждого изображения отеля, красивого или нет. Мы не выполняли аугментацию данных в наборе данных, потому что эстетика изображения изменилась бы, если бы изображение было перевернуто, обрезано или смешано с цветом. Чтобы предотвратить переобучение сети прямой тонкой настройки, мы обратились к передаче функций.Основываясь на глубоком выражении функций ResNet, мы обучили машину опорных векторов для реализации модели бинарной классификации красивых / неприглядных изображений отелей. структура модели показана на рисунке выше. Посредством оценки качества изображения мы получили оценки качества изображений отелей, которые послужили важной основой для последующих приложений анализа изображений.

2. Приложение для обработки изображений

Приложения интеллектуального анализа изображений могут создать большую ценность для пользователей и отелей и являются важной частью интеллектуального анализа изображений.В настоящее время он включает сценарии приложений, такие как интеллектуальное отображение изображений, интеллектуальное сочетание изображения и текста и гостиничное видео.

 

1

Интеллектуальный дисплей изображения

 

Способы выбора первых изображений отелей и типов номеров могут повысить удовлетворенность пользователей, а способы сортировки изображений отелей могут помочь пользователям быстро получить нужную информацию об отеле. В ответ на эти проблемы мы провели серию интеллектуальных отображений изображений и предприняли множество попыток, включая выбор первого изображения типа отеля/номера, классификацию и отображение изображений отелей, а также качество/индивидуальную сортировку. , и стремитесь улучшить пользовательский опыт.

 

Первое изображение типа отеля/номера является первоначальным впечатлением пользователя от типа отеля/номера.За исключением первого изображения, назначенного продавцом или оператором, первое изображение большинства отелей и типов номеров выбирается машиной. С этой целью мы разработали полную первую модель оптимизации изображения, основанную на разрешении изображения, типе контента, оценке четкости/красоты, полученной с помощью интеллектуального анализа изображений, и стремились адаптивно интегрировать различную информацию об изображении, чтобы выбрать наилучшее изображение для отеля. , изображение отеля, отображаемое пользователю.

 

Благодаря нашей первой модели оптимизации изображения качество первого изображения отеля и типа номера было значительно улучшено, и эффект сравнения показан на изображении выше (исходная версия слева, новая версия справа). Лучшие отели и типы номеров приводят к значительному увеличению коэффициента конверсии бронирований пользователей, что не только повышает удовлетворенность пользователей, но и повышает ценность отелей.

 

2

Интеллектуальное сочетание графики и текста

На основе одного отображения изображений мы также провели некоторые исследования по разумному сочетанию изображений и текстов, включая автоматическое добавление описаний к изображениям и автоматическое создание графики и текстов отеля.

 

Мы пытаемся автоматически добавлять описания к изображениям отелей, чтобы пользователи могли просматривать текст и углублять свое понимание содержания изображения в процессе просмотра изображений. Однако описательный текст, полученный из изображения с помощью модели ImageCaption, основанной на глубоком обучении, выглядит тупым и плоским, и отображать его пользователю напрямую очень неестественно. Мы вносим улучшения на этой основе и дополнительно объединяем массивные данные отзывов пользователей для описания изображений отелей, используя содержание отзывов реальных пользователей.

 

Комментарии не только плавные, но и имеют свои эмоции.Пользователи могут видеть реальные комментарии других пользователей к содержанию изображения во время просмотра изображения, что удобно и быстро повышает богатство и надежность получения пользователем информации об отеле, и усилия пользователя при просмотре также значительно улучшаются. На следующем рисунке показан сценарий применения объединения описания комментариев при просмотре изображений.

 

3

От изображения к видео

 

С развитием мобильной связи и популяризацией WIFI пользователи уже не удовлетворяются просмотром только статичных изображений, а спрос на просмотр видео растет день ото дня. Мы также провели некоторую практику в этом отношении и постоянно отображаем информацию об отелях посредством воспроизведения видео, чтобы пользователи могли получить более полное представление об отелях, просматривая видео об отелях, снижая затраты пользователей на просмотр и улучшая пользовательский опыт.

 

Съемка видео для каждого отеля требует много сил и материальных ресурсов.Чтобы быстро получить качественные и красивые видео отеля, мы используем изображения отелей для автоматической генерации видео отеля. В частности, мы разрабатываем интеллектуальную систему выбора изображений с помощью богатой информации об изображениях, полученной при анализе изображений, для реализации автоматического выбора видеоизображений. При этом мы автоматически сопоставляем соответствующие субтитры через текстовую информацию об отеле. На изображении ниже показаны некоторые изображения и субтитры, включенные в видео об отеле.

 

После того, как видео отеля было запущено, оно получило хороший отклик, и пользователи углубили свое понимание отеля, посмотрев видео отеля. Теперь видео отеля просматривают десятки тысяч раз в день, коэффициент конверсии бронирования пользователей и количество ночей в номере значительно увеличились, и пользователи и отель добились взаимовыгодной ситуации. Мы также продолжаем оптимизировать и улучшать видео отелей, стремясь создать большую ценность для пользователей и отелей.

3. Резюме и перспективы

Представив несколько реальных случаев обработки изображений Ctrip, мы разделили путь построения обработки изображений от 0 до 1, но ценность компьютерного зрения и машинного обучения для обработки изображений Ctrip далеко не ограничивается этим. Далее мы продолжим углубляться в различные сценарии применения изображений и постараемся внести больший вклад в интеллектуальную обработку изображений Ctrip.

【Рекомендуется к прочтению】