Механизм ввода ИИ на основе технологии глубокого обучения

TensorFlow Нейронные сети продукт Go
Механизм ввода ИИ на основе технологии глубокого обучения
Эта статья была изначально создана "AI Frontline", оригинальная ссылка:Механизм ввода ИИ на основе технологии глубокого обучения
Автор| Яо Цунлей
Редактор | Эмили, Дебра

Руководство по передовой ИИ:”В настоящее время почти все методы ввода могут в основном предсказывать ввод текста пользователем после того, как пользователь вводит первый символ, и давать рекомендации. Применение ИИ в методе ввода может понять языковые привычки людей, даже личность и мышление посредством большого количества языкового и семантического обучения.

Когда метод ввода может быть более точно понять пользователь, связь между машиной и человеком будет углублена, опыт взаимодействия человека-компьютер будет улучшен, и пользовательская липкость будет улучшена. Двигатель входного метода на основе AI стал тенденцией в разработке продуктов ввода.

Kika запустила первый продукт Kika Keyboard с методом ввода в 2014. Он появился в более чем 140 странах за рубежом, поддерживает 173 языка, с глобальным числом более 6 миллионов, что составляет более 6 миллионов месяцев.Это вклад, стоящий за этим продуктом. , Метод имеет секретное соединение.


Следующий контент организован из обмена передовым сообществом ИИ 25 января 2018 г.

Всем привет, меня зовут Яо Цунлей, я очень рада, что у меня есть такая возможность пообщаться с вами. Сегодня я в основном хочу представить основной модуль метода ввода с мобильного телефона — техническое решение движка метода ввода, почему и как перейти от традиционного движка N-грамм к движку глубокой нейронной сети.

Основное содержание разделено на пять частей:

  • Что такое механизм метода ввода;
  • Механизм метода ввода на основе традиционной языковой модели N-грамм;
  • Зачем переключаться на движок глубокой нейронной сети;
  • Эти ямы движка метода ввода глубокой нейронной сети;
  • Расширенные возможности прогнозирования.

Давайте сначала представим ситуацию нашей компании с изображением.


Как компания, которая предоставляет методы ввода на 173 языках для пользователей по всему миру, Kika использует технологию искусственного интеллекта, чтобы предоставить пользователям первоклассный опыт ввода, а также завоевала большое количество пользователей по всему миру.



На этой картинке перечислены продукты с большим количеством пользователей на мировом рынке методов ввода.В число компаний, стоящих за ним, входят отечественные компании, такие как Kika, Baidu, Sogou, Go и TouchPal, а также Google (продукт GBoard), Microsoft (Swiftkey) ) и другие крупные иностранные компании. Все вложили много энергии в исследования и разработки в основную технологию движка метода ввода, рассчитывая обеспечить первоклассный ввод данных для пользователей со всего мира.

Что такое механизм метода ввода

Метод ввода (сокращенно IME) является одним из наиболее часто используемых программных инструментов, его также часто называют клавиатурой, клавиатурой и т. д. Для каждого языка метод ввода предоставит раскладку букв (Layout), на которой основные буквы соответствующего языка размещены в соответствующей позиции в соответствии с привычками пользователя, например QWERT на английской клавиатуре, Jiugongge на китайской клавиатуре. , и т.д. Ввод текста пользователем фактически является нажатием букв на макете по порядку, а последовательность нажатия букв называется последовательностью кода клавиши; в процессе нажатия пользователем букв последовательность кода клавиши и слова, введенные пользователем перед будет передан на нижний уровень макета. «Механизм метода ввода», движок будет предсказывать последовательность слов / слов, которую пользователь в настоящее время и следующий возможный ввод на основе языковой модели, обученной на крупномасштабных данных, и помещать наиболее вероятная последовательность вводимых слов/слов в области-кандидате клавиатуры, отображаемой пользователю для выбора пользователем.

Например, если пользователь ожидает ввести полное текстовое содержимое «Какая сегодня погода?», а в настоящее время вводит третью букву «а» в слове «погода», последовательность слов «Какая погода» и кодовая последовательность клавиш «W «hat s SPACE the SAPCE wea» (SPACE означает «пространство») посылается в качестве входных данных механизму метода ввода, механизм делает прогнозы на основе обученной языковой модели и отображает наиболее вероятные слова-кандидаты «погода», «оружие», и т. д. пользователю, на выбор пользователя. В этом случае, если «погода» на первом месте, двигатель можно считать квалифицированным и ему можно дать 60 баллов. Если вы введете только первую букву «w» слова «погода», вы можете поставить «погоду» на первое место, вы можете набрать 70 очков. Если после ввода первой буквы «w» слова «погода» вы можете напрямую предсказать, что следующая последовательность слов, которую пользователь введет, будет «погода сегодня?», Это будет еще лучше, что можно считать 90 баллами.

В целом функции механизма метода ввода можно разделить на три категории: «исправление ошибок», «завершение» и «прогнозирование».

  • Так называемое исправление ошибок означает, что когда пользователь вводит неправильное слово, например, «вестер», ему автоматически предлагается изменить его на «погода»;
  • Так называемое завершение относится к вводу части слова для предсказания целого, например, «w» предсказывает «погоду»;
  • Так называемое «предсказание» относится к прямому предсказанию того, что пользователь введет дальше, когда пользователь не вводит никаких букв, например, ввод «Что такое», предсказание того, что пользователь введет «погода сегодня?».

При этом в способе ввода латиницы и других языков будет предусмотрена функция скользящего ввода.

Пользователь быстро скользит по последовательности букв слова на клавиатуре, даже если траектория скольжения отклоняется (поскольку скорость скольжения очень высока, пользователю трудно точно определить положение каждой буквы), слово, которое пользователь хочет ввести может быть точно предсказано. При рулении вводом в двигатель является траектория точки руления, а выводом является прогнозируемое слово. В этой статье мы не будем углубляться в логику реализации движка для руления ввода.

Кроме того, поскольку пользователи все чаще склонны выражать свои эмоции с помощью нетекстового контента, такого как эмодзи и изображения смайликов, движок также должен иметь возможность прогнозировать эмодзи или изображения смайликов на основе вводимых пользователем последовательностей слов/кодов клавиш. Эмодзи часто неоднозначны (похожи на изображения эмодзи), и сложность таких прогнозов будет выше.Мы использовали методы моделирования на основе глубокого обучения, чтобы лучше решить эту проблему. В этой статье мы не будем углубляться, и заинтересованные друзья могут обсудить это отдельно.

В этой статье в основном обсуждаются связанные технологии эффективного и точного прогнозирования механизма метода ввода в сцене ввода ключевого текста мобильного телефона.

Эволюцию таких технологий можно разделить на два этапа:

1) этап статистической языковой модели N-грамм;

2) Этап языковой модели глубокой нейронной сети.

Первый в основном основан на крупномасштабной корпусной статистике для получения условной вероятности появления слова сразу после последовательности из N-1 слов (N-грамм).

Механизм метода ввода на основе традиционной языковой модели N-грамм

В случае ввода "Какая погода сегодня?", Когда пользователь входит в первую букву «W» «погоды», то, что должен сделать двигатель, заключается в том, чтобы предсказать на основе ранее введенной последовательности слов «Что означает» Скорее всего слово начинается с «W», и самым критическим из них является то, как предсказать следующее скорее всего слово.

Предполагая, что входная последовательность слов равна w1,⋯,wN-1, проблема предсказания следующего слова фактически становится argmaxWNP(WN|w1,⋯,wN-1), эта простая модель называется языковой моделью механизма метода ввода .

По формуле расчета условной вероятности P(WN |w1,⋯,wN-1)=P(w1,⋯,wN-1, WN)/P(w1,⋯,wN-1, WN), согласно максимальная вероятность В соответствии с принципом оценки приведенный выше расчет вероятности будет иметь смысл только в том случае, если размер массива данных достаточно велик, чтобы быть статистически значимым.

Но на самом деле, если значение N слишком велико, нет «достаточно больших» корпусных данных, чтобы поддерживать расчет всех значений вероятности, и, поскольку WN фактически связано только с некоторыми словами в w1,...,wN -1, вышеуказанные вычисления приведут к большой трате вычислительных ресурсов.

Поэтому в реальных вычислениях одним из способов является введение гипотезы Маркова: вероятность появления текущего слова связана только с ограниченным количеством слов перед ним для упрощения вычислений. Если вероятность появления текущего слова связана только с предшествующими ему N-1 словами, мы называем результирующую языковую модель моделью N-грамм. Обычно используемые модели N-грамм: униграмма (N=1), биграмма (N=2), триграмма (N=3). Очевидно, что с увеличением N количество информации в языковой модели увеличивается экспоненциально.

Для получения эффективной языковой модели N-грамм, с одной стороны, необходимо обеспечить достаточно большой и статистически значимый корпус данных, а с другой стороны, необходимо бороться с «разреженностью данных». проблема. Так называемая разреженность данных означает, что последовательность слов w1,⋯,wN не появляется в данных корпуса, поэтому условная вероятность P(WN |w1,⋯,wN-1) равна 0. Это явно неразумно, и если масштаб данных будет продолжать расширяться, эти последовательности слов могут появиться. Мы можем ввести методы сглаживания для решения проблемы разреженности данных. Техника сглаживания соответствующим образом снижает вероятность появления N-грамм в обучающем корпусе и соответствующим образом увеличивает вероятность не появления, так что сумма всех вероятностей N-грамм равна 1, а вероятность всех N-грамм не равна 0. Существует много классических алгоритмов сглаживания, и я лично рекомендую методы сглаживания Лапласа и сглаживания Гуда-Тьюринга.

После использования языковой модели N-грамм для завершения прогнозирования следующего слова необходимо скорректировать прогнозируемый результат в соответствии с последовательностью клавиш пользователя.Для измерения сходства последовательности и последовательности клавиш можно использовать такие методы, как расстояние редактирования. совпадает с буквой предсказанного слова.Последовательности сравниваются, и детали не повторяются.

Механизм метода ввода, созданный с помощью языковой модели N-грамм, имеет следующие проблемы при работе на мобильном телефоне:

  1. Невозможно в полной мере использовать информацию о последовательности слов для прогнозирования: из-за ограниченных ресурсов процессора и памяти мобильных телефонов N в N-граммах обычно не может быть слишком большим.В основном, предел N равен 3. Это означает, что прогнозы можно делать только на основе самых последних 1-2 слов, что приведет к потере большого количества ключевой информации;
  2. Невозможно точно предсказать последовательности слов, которых нет в наборе корпусных данных. Например, если в данных корпуса есть «иди на работу», а «иди в школу» нет. Даже если пользователь вводит «Руководство для родителей, чтобы перейти к s», движок не может точно поставить «школу» в верхнюю часть области-кандидата.

Вышеуказанные проблемы могут быть хорошо решены с использованием технологии глубоких нейронных сетей.

Зачем переходить на движок глубокой нейронной сети

Глубокая нейронная сеть (Neep Neural Networks, DNN) — это нейронная сеть, имеющая хотя бы один скрытый слой, которая, регулируя способ соединения нейронов и количество слоев сети, может обеспечить возможности моделирования нелинейных моделей произвольной сложности. Основываясь на мощных возможностях нелинейного моделирования, глубокие нейронные сети совершили прорыв в распознавании изображений, распознавании речи, машинном переводе и других областях и широко используются в обработке естественного языка, рекомендации контента и других областях.

Типичные технологии глубоких нейронных сетей включают сверточные нейронные сети (CNN), рекуррентные нейронные сети (RNN), генеративно-состязательные сети (GAN) и т. д., которые подходят для различных сценариев приложений. Из них RNN (показаны на рисунке 1) особенно хорошо подходят для полей предсказания от последовательности к последовательности.

Рисунок 1: Структура сети RNN

В традиционной нейронной сети слои полностью связаны, но нейроны между слоями не связаны (фактически предполагается, что каждые данные независимы) Эта структура плохо справляется с проблемой сериализованного предсказания. В случае механизма метода ввода следующее слово часто тесно связано с предыдущей последовательностью слов. RNN моделирует отношения последовательности, добавляя самоподключенные скрытые слои, которые охватывают временные ряды; то есть обратная связь скрытого слоя предыдущего состояния не только используется в качестве вывода этого состояния, но также вводится в скрытый слой следующего состояния в качестве входных данных. , Такая сеть может нарушить предположение о независимости и быть в состоянии охарактеризовать последовательные корреляции.

Преимущество RNN заключается в том, что он может учитывать достаточно длинную информацию о последовательности входных слов, и информацию о каждом состоянии входного слова можно использовать в качестве ввода следующего состояния, но эта информация не обязательно полезна и требует фильтрации для точного использования. . Для достижения этой цели мы моделируем данные, используя сети с длинной и короткой памятью (LSTM) для более точных прогнозов.

LSTM (рис. 2) — это особый вид RNN, который может выборочно изучать долгосрочные зависимости. LSTM также имеет цепную структуру RNN, но с другой сетевой структурой. В LSTM каждый блок имеет три элемента (входной элемент, выходной элемент и элемент забывания), чтобы контролировать, какую часть информации следует учитывать для прогнозирования. С LSTM можно рассматривать не только более длинные входные последовательности, но также можно использовать обучение параметрам трех вентилей, чтобы автоматически научиться отфильтровывать входные слова, которые действительно ценны для прогнозирования, вместо того, чтобы обрабатывать все слова во всей последовательности одинаково.

Рисунок 2 Структура сети LSTM

Кроме того, в сетевую структуру LSTM можно добавить слой внедрения (Word Embedding Layer), чтобы добавить семантические отношения между словами в процесс обучения и прогнозирования. С помощью встраивания Word, несмотря на то, что «ходить в школу» не появляется в данных корпуса, потому что в корпусе появляется «идти на работу», и с помощью встраивания Word можно обнаружить, что «работа» и «учеба» имеют сильную семантическую связь. отношения; таким образом, когда пользователь вводит «Руководство для родителей, чтобы пойти в школу», движок будет точно предсказывать отношения между «родителями» и «школой» на основе семантической связи между «работой» и «учебой» и предсказанной отношения между «родителями» и «школой» изучены в LSTM.Рекомендовать пользователям «школу», а не «плавание».

Эти ямы движка метода ввода глубокой нейронной сети

Теоретически LSTM может идеально решить проблему языковой модели N-грамм: он может не только в полной мере использовать информацию о последовательности слов для прогнозирования, но и точно предсказывать последовательности слов, которых нет в наборе данных корпуса. Однако при фактическом использовании технологии LSTM для реализации механизма метода ввода, который может точно и без сбоев работать на мобильных телефонах, возникают некоторые подводные камни, которые необходимо устранить как в облаке, так и в клиенте.

В облаке есть две проблемы, на которых следует сосредоточиться:

Воспользуйтесь преимуществами последовательности слов и информации о последовательности клавиш. Как упоминалось выше, в процессе прогнозирования механизма метода ввода вход LSTM содержит два типа информации о последовательности: последовательность слов и последовательность кода ключа.Необходимо спроектировать полную сеть LSTM, чтобы в полной мере использовать эти два типа Информация. В связи с этим после нескольких экспериментов мы, наконец, спроектировали двухступенчатую структуру сети, показанную на рисунке 3. На первом этапе информация о последовательности слов используется полностью, а затем выходные данные скрытого слоя, соответствующего последнему слову, используются в качестве входных данных следующего этапа и вычисляются вместе с кодовой последовательностью клавиш и, наконец, окончательным результат генерируется вычислением Softmax. В то же время между двумя этапами добавляется «стартовый флаг», чтобы разделить последовательность слов и последовательность кода клавиши.

Рис. 3 Комбинация последовательности слов и последовательности кода клавиш

Генерация высококачественных обучающих данных: при обучении языковой модели LSTM ключевыми факторами являются качество и охват учебного корпуса. С точки зрения качества необходимо обеспечить отсутствие таких данных, как искаженные символы, другие языки и слишком короткие предложения. С точки зрения охвата, с одной стороны, необходимо обеспечить масштаб учебного корпуса, чтобы он мог охватить большую часть словарного запаса языка и был достаточным для поддержки статистической достоверности языковой модели. объем учебного корпуса должен быть порядка десяти миллионов или Другим аспектом охвата является тип текста.Необходимо обеспечить распределение типов текста (таких как новости, чат, поиск и т. д.) в обучающем корпусе согласуется со сценарием целевого приложения.Для методов ввода с мобильного телефона данные типа ежедневного чата должны учитывать Достаточно большое соотношение;третье измерение охвата - это измерение времени, и необходимо убедиться, что учебный корпус может охватывать данные каждого периода времени в фиксированный период времени (обычно год) соответствующей страны/языка, особенно данные крупномасштабных фестивалей.

На стороне клиента ключевыми проблемами, которые необходимо решить, являются производительность и память. Отличный движок метода ввода должен стабильно поддерживать низкий уровень использования памяти при работе на мобильном телефоне, чтобы гарантировать, что он также может стабильно работать в системе Android Oreo (версия Go) и поддерживать хорошую производительность (время отклика на нажатие клавиши меньше). чем 60 мс). Исходная модель LSTM обычно имеет большой размер (например, модель американского английского превышает 1G), а время отклика при работе на мобильном телефоне намного превышает 1 с, поэтому ее необходимо значительно оптимизировать. Технология разреженного представления и обучения может использоваться для сжатия матрицы встраивания слово/канал и выходной векторной матрицы softmax в сети LSTM на рисунке 3. В то же время параметры модели могут быть адаптивно количественно определены на основе кластеризации Kmeans. сжать до менее чем 5M. Оптимизация производительности означает, что необходимо контролировать объем вычислений на мобильном телефоне, оптимизировать структуру модели с целью обеспечения эффекта и уменьшить количество ненужных слоев и нейронов; в то же время, модуль расчета мобильного телефона может быть основан на TensorFlow Lite (вместо TensorFlow Mobile), Единственная стоимость заключается в том, что вам нужно самостоятельно реализовать некоторые необходимые операторы. Мы можем использовать эту схему, чтобы контролировать использование памяти во время выполнения в пределах 25 МБ и удерживать время отклика в пределах 20 мс. Рисунок 4 — это сравнительные данные TensorFlow Mobile и TensorFlow Lite на одном и том же тесте.

Рис. 4. Сравнительные данные TensorFlow Mobile и TensorFlow Lite на одном тесте

Основываясь на вышеупомянутых технологиях облачного моделирования и прогнозирования на стороне клиента, мы завершили общее развертывание решения для механизма метода ввода на основе глубокой нейронной сети (LSTM) и сравнили его с языковой моделью на основе N-грамм в большом количестве. языков. В сравнительном тесте ключевым показателем, на который мы обращаем внимание, является эффективность затрат:

Эффективность ввода = # длина введенного текста / # количество нажатий клавиш, необходимых для завершения ввода текста

Мы ожидаем, что чем выше эффективность ввода, тем лучше; в то же время мы также будем обращать внимание на скорость отзыва онлайн-пользователей, соответствующую каждому языку, которая не будет здесь повторяться.

На рисунке ниже показано улучшение эффективности ввода движка LSTM по сравнению с движком N-грамм на некоторых языках.


Рисунок 5. Повышение эффективности ввода движка LSTM по сравнению с движком N-gram.

Расширенные возможности прогнозирования

Как упоминалось в первой части расширенной функции прогнозирования, механизм метода ввода также должен иметь возможность точно прогнозировать эмодзи или смайлики, которые пользователь может вводить, и это содержимое часто неоднозначно, поэтому сложность такого прогнозирования будет выше.

В то же время, для Emoji пользователи часто создают некоторые интересные комбинации Emoji, такие как «?❤️?», как автоматически майнить такие комбинации Emoji и интегрировать их в структуру модели LSTM, тоже очень интересная проблема.

С другой стороны, с точки зрения эффективности ввода текста, если каждый прогноз может точно предсказать не только одно слово, но и фразу, пользовательский опыт будет значительно улучшен. Как найти как можно более длинные значимые фразы и интегрировать их в структуру модели LSTM, также будет очень сложной задачей.

Сессия вопросов и ответов

Q1: Могу я спросить г-на Яо, что здесь выводит softmax?

A1: Поскольку цель этой сети — предсказать следующее слово, вывод softmax — это идентификатор и значение вероятности предсказанного слова. В реальном продукте мы выберем 3 лучших предсказанных слова и отобразим их в области кандидатов в соответствии со значением вероятности от высокого до нижнего.

Q2: Метод ввода, по сути, предсказывает, что пользователь введет дальше, на основе предыдущего ввода. Обучающие наборы данных и прогностические модели создаются в облаке и регулярно обновляются на телефоне? Или это делается полностью на телефоне?

A2: Наше решение состоит из двух частей. Для каждого языка мы будем итеративно обучать новую общую языковую модель в облаке, и после того, как новая модель будет проверена путем автономной оценки, она будет доставлена ​​на мобильный телефон. А на мобильной стороне персонализированная модель будет обучаться на основе личной истории ввода каждого пользователя (эта модель будет обучаться чаще). В реальном прогнозе результаты вывода двух моделей будут объединены для получения окончательного результата. Обучение на стороне мобильного телефона требует особого внимания к времени обучения, и обучение не может быть выполнено, когда нагрузка на мобильный телефон пользователя высока.

Q3: Есть ли у TF Lite требования к мобильным телефонам?

A3: TF Lite не требует мобильных телефонов. Однако в TF Lite из соображений производительности отключено множество операторов, и мы реализовали необходимые операторы для вывода собственной модели в процессе внедрения.

Q4: Продолжая вопрос Q1, для ситуации с английским языком, если словарный запас равен 1w, а слой softmax имеет 1w узлов, как оптимизировать слой softmax?

A4: Сжатие слоя softmax - это, по сути, сжатие векторной матрицы softmax.Принцип состоит в том, чтобы преобразовать огромную векторную матрицу в небольшое количество переполненных комбинаций базисных векторов, и переполные базисные векторы могут быть автоматически изучены. .

Q5: Извините: сколько ячеек требуется для каждой обучающей модели LSTM, что это определяет?

A5: Сколько ячеек необходимо для каждой обучающей модели LSTM, существует примерно два типа определяющих факторов: 1) сложность модели, которую мы можем принять, которая напрямую определяет размер окончательной квантованной и сжатой модели; 2) эффект мы ожидаем достижения. Окончательное решение в основном представляет собой баланс между этими двумя категориями. Конечно, это связано и со сложностью самого языка, например, сравнение немецкого с английским будет сложнее, поэтому количество ячеек будет лучше. Если это ограничение не учитывать, мы можем сделать вывод через облачный сервис.

Q6: Будет ли будущий метод ввода поддерживать голосовой ввод?

A6: Мы разрабатываем механизм распознавания речи и семантического понимания Kika.В настоящее время уровень распознавания речи на английском языке близок к уровню Google, поэтому функция речевого ввода Kika будет запускаться постепенно. В то же время, основываясь на серии голосовых технологий Kika, мы представили автомобильное голосовое решение KikaGO на выставке CES 2018, которое получило много похвал и четыре награды на выставке CES, и готовится к официальному выпуску продукта. . В дополнение к предоставлению услуг для сценариев в автомобиле, наше полнофункциональное голосовое решение также предпримет больше попыток в сценариях.

Q7: «Уровень встраивания слов можно добавить в сетевую структуру LSTM, чтобы добавить семантические отношения между словами и словами в процесс обучения и прогнозирования». Можете ли вы подробно объяснить, как добавить слово в фактическую предварительную обработку данных? Простая вышивка или что? Что является входом ячейки LSTM?

A7: Функция слоя встраивания слов состоит в том, чтобы сопоставить многомерное пространство слов с низкоразмерным векторным пространством, чтобы гарантировать, что векторное расстояние слов с похожей семантикой в ​​низкоразмерном пространстве будет относительно небольшим. Выходные данные слоя встраивания слов используются в качестве входных данных LSTM. Сам TensorFlow поставляется со слоем встраивания Word, который на самом деле представляет собой простую таблицу поиска. Однако, если проблемный домен, с которым вы имеете дело, не является общим доменом, рекомендуется использовать корпусные данные домена, чтобы использовать Word2vector для обучения получению соответствующего встраивания слов, специфичного для домена, которое используется для замены слоя встраивания слов. который поставляется с TensorFlow.

Q8: Исследование метода ввода должно быть очень сложной областью, особенно потому, что существует слишком много человеческих языков. Можете ли вы рассказать о тенденциях в этом отношении?

A8: «Тренды» — это вещи, которые могут обсуждать только крупные игроки, я говорю только о некоторых своих поверхностных мыслях. Суть метода ввода заключается в решении задачи общения человека с человеком через машины (мобильные телефоны, компьютеры, умные дома и т. д.) и Интернет. Для таких коммуникативных задач важнее всего уметь достичь или превзойти эффект живого общения между людьми с помощью голоса, мимики и телодвижений в реальном мире, а также суметь добиться всестороннего, точного и быстрая передача намерений, информации и эмоций.

Поэтому мы считаем, что следующий шаг в развитии метода ввода должен осуществляться вокруг трех аспектов: «полный», «квази» и «быстрый». «Полный» относится к методу связи, который может предоставлять текст, голос, выражения лица, мультимедийный контент и т. д. «Довольно» относится к тому, чтобы получатель мог точно получать намерения, информацию и эмоции выражающей стороны без недопонимания, «Быстрый» означает что время от высвобождения выражения до приема получателем достаточно короткое.

Пользовательский опыт «полного», «точного» и «быстрого» может быть значительно улучшен с помощью технологии искусственного интеллекта.

Q9: Я также хочу спросить, как такой метод ввода ИИ и метод ввода Baidu конкурируют. благодаря.

A9: Суть конкуренции между продуктами заключается в том, как создать ценность для пользователей. Позиционирование метода ввода Kika заключается в том, чтобы решить проблемы, с которыми сталкиваются пользователи во всем мире при общении между людьми, предоставить пользователям максимальные «полные», «точные» и «быстрые» методы связи, а также создать большую ценность для пользователей. . С точки зрения разделения рынка эти два продукта не конкурируют в одном измерении — отечественные гиганты в области методов ввода, такие как Sogou и Baidu, в основном работают с китайским языком, в то время как kika фокусируется на создании ценности для пользователей на языках, отличных от китайского.

Для большего содержания сухих товаров вы можете обратить внимание на AI Frontline, ID:ai-front, фоновый ответ "AI", "TF", "Большие данные«Вы можете получить серию мини-книг в формате PDF и карт навыков «AI Frontline».