Для получения дополнительных галантерейных товаров, пожалуйста, обратите внимание на публичный аккаунт WeChat «AI Frontline» (ID: ai-front)
В связи с растущим числом историй о том, как искусственный интеллект (ИИ) и машинное обучение (МО) меняют бизнес-практики, специалистов-практиков в области обработки и обработки данных просят «применять машинное обучение» только с расплывчатыми или высокоуровневыми бизнес-целями. Существуют большие пробелы в реализации ИИ и создании ценности для бизнеса на основе данных, и многие нерешенные проблемы в науке о данных несут ответственность за эти пробелы. В этой статье делается попытка показать, как специалисты по ИИ и руководители предприятий могут преодолеть этот разрыв. Последовательность начала работы с ИИ отличается от того, что думает большинство людей, и следует выполнить следующие шаги:
Назначать цели
анализировать данные
Определить модель
Большинство людей игнорируют первые два шага, и спешка с ними часто может иметь неприятные последствия. После тщательного анализа требований, приложений и бизнес-ограничений вы получите очень подробное описание проблемы. Таким образом, знания машинного обучения могут быть использованы для лучшего решения проблемы.
Без правильной целевой задачи машинное обучение не обязательно даст хорошие результаты. Прежде чем использовать машинное обучение, вам нужно понять, какова ваша цель, и дать ей четкое определение. Чтобы использовать машинное обучение в реальном бизнес-кейсе, необходимо оценить и изучить многие аспекты, но сначала необходимо выяснить, какой результат вы ожидаете:
Целевые результаты должны быть достаточно подробными, чтобы вы могли начать с того, что задали себе несколько вопросов, таких как:
Что должна выводить модель машинного обучения?Это предсказание наблюдаемых данных или рекомендация к действию в ситуации? Например, вам нужен модуль, который поможет велосипедисту удержаться на скользком склоне. Итак, вам нужна модель, чтобы предсказать, как велосипед будет вести себя в данной ситуации? Или модель, которая быстрее всего сможет скорректировать траекторию движения мотоцикла?
Какой должна быть ожидаемая вычислительная скорость модели?Могут ли используемые аппаратное и программное обеспечение обеспечить хорошую платформу для точных прогнозов с помощью моделей машинного обучения?
Насколько масштабируема модель?Возвращаясь к приведенному выше примеру велосипедного робота: ваша модель работает только с одной конкретной моделью велосипеда или она хорошо работает на многих разных велосипедах?
Предположим, кто-то дает вам предварительно обученную модель. Сначала нам нужно оценить его производительность, например, для заданных входных данных модель должна быть способна выводить ожидаемый результат и должна измерять стоимость прогнозирования предварительного обучения модели для большого количества входных данных.
Также следует продумать, как сигнализировать машине о том, что результат хороший. Это может быть так же просто, как использование машины правды (например, успешен проект или нет), или более сложный подход определяется приложением.
Стоит ли решать эту проблему с точки зрения бизнеса?
Будут ли потребители готовы платить за технологию ML?
Или может ли машинное обучение снизить производственные затраты?
Возможно, использование ML даст только дополнительные маркетинговые преимущества? (вспомните Siri от Apple)
Применение машинного обучения требует инвестиций в профессию инженера машинного обучения, а также в настройку и обслуживание инфраструктуры. Поэтому обязательно проверьте, могут ли вознаграждения от ML оправдать его затраты.
Когда вы обучаете модель, ваша цель — улучшить ее производительность. Во время тестирования вы просто используете предварительно обученную модель для генерации прогнозов, но модель не узнает ничего нового.
Важно помнить, что вычислительные требования для тестирования значительно меньше, чем для обучения. Чтобы обучить модель, вам нужен доступ ко всем обучающим данным, а обучение занимает много времени. В зависимости от вашей задачи машинного обучения лучший игровой компьютер может обеспечить достаточную вычислительную мощность для обучения вашей модели; в некоторых случаях может потребоваться вычислительный кластер. После обучения модели обычно можно удалить большую часть обучающих данных и сохранить модель в виде небольшого файла. Для тестирования многих моделей машинного обучения требуется очень мало ресурсов, таких как встроенные устройства или мобильные телефоны. Это уже подразумевает разделение обучения и тестирования.
Для процесса обучения требуемая сложность и гибкость программной инфраструктуры намного выше, чем для процесса тестирования. Это разделение обеспечивает бизнес-модели обучения как услуги (также известные как модели подписки).
ИИ не может научиться всему, поэтому для процесса обучения требуется много данных. Основные соображения включают проектные данные, защиту данных, сбор данных, структуру данных, очистку данных, а также конфиденциальность и юридические вопросы. Критерии хороших данных следующие:
Измеримый: Данные должны поддаваться количественной оценке, либо в виде простых ответов «да» или «нет», либо в виде более подробных измерений.
Идентичный дистрибутив: обучающие данные должны подчиняться независимому и идентичному распределению. Как правило, это означает, что набор данных, с которым вы работаете, последовательно измеряется и документируется. По мере сбора большего количества данных необходимо обеспечить согласованные измерения.
разнообразие: у вас должна быть достаточно большая выборка, чтобы охватить все возможные результаты. Это должно включать достаточный охват редких событий, и модель должна уметь различать случайные ошибки и редкие события. Например, если вы хотите привить любовь к предсказанию будущих крахов фондового рынка, использование только данных за период с 2009 по 2017 год было бы слишком ограничительным.
захват дополнительных данных: некоторые дополнительные данные могут повлиять на прогнозы модели, поэтому необходимо собрать эту информацию для получения хороших прогнозов. Например, если вы хотите узнать цену автомобиля, недостаточно знать размер руля и объем топливного бака, зная пробег и модель, вы сможете лучше предсказать его цену.
Это первоначальная причина, по которой менеджеры хотят использовать ИИ. В машинном обучении модель является очень важной частью, и исследователи машинного обучения обычно много аккумулируют в этой области. Однако успешное внедрение машинного обучения требует интеграции глубокой стратегии и дизайна с самого начала.
Короче говоря, нельзя слепо разработать модель машинного обучения, когда целевые результаты и ограничения данных неизвестны. Хорошая модель должна иметь следующее:
Выполнимость и удобство использования: возможно ли решить целевую проблему с учетом данных, технических и проектных ограничений? Трудно решить предыдущую задачу без тестирования.
Масштабируемость: это определяет вычислительную эффективность модели. При увеличении размера данных следует учитывать увеличение вычислительных затрат и затрат на обучение. Учитывая масштабирование модели, стоимость инфраструктуры не является незначительной.
Основная проблема, стоящая перед внедрением ИИ, — это стратегия бизнеса и продукта. Это не означает, что техническую часть легко реализовать, но технические ограничения часто являются известными проблемами и могут быть решены. С ИИ мы знаем, на что он способен и что он может сделать.
По-прежнему существует некоторая неопределенность в отношении будущего ИИ и МО. Вообще говоря, даже опытный специалист по данным не может предсказать, сколько данных потребуется для обучения модели. Кроме того, тонкая настройка процесса обучения модели также должна опираться на богатый опыт, и трудно понять чувствительность модели к выбросам в данных в процессе обучения.
Наконец, время, необходимое для переноса процесса обучения с раннего прототипа на зрелый продукт, весьма неопределенно. В этом случае важно помнить, что большинство алгоритмов машинного обучения очень случайны. Даже при обучении на одном и том же наборе данных производительность модели будет различаться, а при обучении на другом наборе данных разница будет еще больше. Вообще говоря, получение данных требует огромных временных затрат, и автоматизированные методы обучения моделей играют незаменимую роль в получении зрелого продукта. Для этого требуется ряд процессов, вручную заданных экспертами по машинному обучению на начальном этапе прототипирования: очистка данных, настройка процесса обучения для конкретного набора данных и автоматический выбор модели.
Поэтому разумно рассматривать каждый проект машинного обучения как исследовательский проект с высоким риском и потенциалом. Машинное обучение — это не волшебство — это очень мощный инструмент, но он полезен только для некоторых приложений, которые в нем нуждаются.
Посмотреть исходный английский текст:
https://medium.com/axiomzenteam/the-two-steps-people-forget-to-take-when-applying-machine-learning-dc0e3797442b