Для получения дополнительных галантерейных товаров, пожалуйста, обратите внимание на публичный аккаунт WeChat «AI Frontline» (ID: ai-front)
Самая большая проблема при внедрении ИИ — это слишком многого от него ожидать. Сочетание машинного обучения с правильными ожиданиями даст лучшие результаты, чем ошибочное представление о том, что ИИ может сделать для вас.
Мне нравится машинное обучение, я использую его в своей работе более трех лет и вижу, как оно экономит время и деньги компаний в самых разных областях. Но если конечный результат окажется противоположным тому, что вы изначально предполагали, все может быстро измениться.
Аннотация: О том, как машинное обучение экономит время и деньги для бизнеса, см. в другой статье автора Аарона Эделла: 6 способов, которыми люди зарабатывают деньги с помощью машинного обучения. Изложено несколько идей использования машинного обучения для зарабатывания денег.
Есть много хороших вариантов использования машинного обучения, вы можете ознакомиться со статьями «Как я использую машинное обучение для экономии времени», «Создать крупный, доступный для поиска интернет-магазин одежды с помощью машинного обучения» Аарона Эделла, которые охватывают больше случаев использования машин.
Давайте сначала поймем, что есть причина, по которой машинное обучение не предсказывает фондовый рынок. Потому что современные технологии ограничены не потому, что недостаточно вариантов использования машинного обучения, а потому, что люди должны расширять свой кругозор и давать правильные инструкции.
Давайте посмотрим на некоторые примеры.
Современная технология распознавания лиц имеет точность около 99%. Распознавание лиц — очень продвинутый пример машинного обучения, но есть несколько вещей, которые нужно знать. Во-первых, 99% этих данных взяты из проверочного набора. Если есть алгоритм машинного обучения, в котором упоминается точность, вы должны помнить, что это число связано с этапом процесса обучения, когда 20% обучающих данных разделяются для проверки модели. Хотя эти данные обычно выбираются случайным образом, они всегда похожи на другие обучающие данные. Как только вы применяете обученную модель к реальному миру, она получает совершенно другие изображения, чем обученная модель. Поэтому на практике набор данных может быть точным менее чем на 99%.
Иногда модель может распознать что-то как лицо, но это не так (ложноположительный результат) или полностью пропустить лицо (ложноотрицательный результат). Многие модели могут быть объединены на разных уровнях точности и производительности с разными уровнями обратной производительности. Вы должны знать, какой уровень производительности и точности является приемлемым. Если вы собираетесь обнаруживать тысячи лиц и получать от 10 до 50 ложноотрицательных или положительных результатов, это лучше, чем тратить в десять раз больше времени и средств на более точный алгоритм, но уменьшая количество ложных срабатываний только вдвое. И можно быстро исправить небольшое подмножество ложных отрицательных или положительных результатов.
Аннотация: Если экземпляр относится к положительному классу и, по прогнозам, также будет положительным классом, это истинный класс (Истинно положительный), если экземпляр относится к отрицательному классу и, по прогнозам, будет положительным классом, он называется ложным. положительный класс (ложноположительный). Соответственно, если экземпляр отрицательного класса прогнозируется как отрицательный класс, он называется истинно отрицательным классом, а если положительный класс прогнозируется как отрицательный класс, это ложноотрицательный класс. Мы часто совершаем два вида ошибок: первый — ложноположительный, когда мы думаем, что прототип верен, когда прототип не существует, и второй — ложноотрицательный, когда думаем, что прототип ложен, когда прототип существует.
Итак, как бизнес, когда вы сталкиваетесь с этой проблемой, вам нужно выяснить, сколько ложных положительных и отрицательных прогнозов вы получаете в своих данных, и как с ними бороться. Правда в том, что вы сталкиваетесь с этими проблемами, потому что иногда машина просто не может обнаружить лицо, и мы не знаем, почему. Мы настолько привыкли к распознаванию паттернов человеческого мозга, что забываем, что компьютеры делают это совершенно по-другому.
Аннотация: Дополнительные сведения о распознавании лиц см. в статье Википедии «Восприятие лиц».
Вот несколько практических способов повышения точности, таких как предварительная очистка набора данных для распознавания лиц в реальном мире и обеспечение того, чтобы каждое лицо было легко видно (а не под углом) и оно не было заблокировано чем-либо затемненным или отрисованным в странные пропорции. Кроме того, если разрешение слишком высокое, будет введено больше шума, что может привести к сбою алгоритма распознавания лиц.
OCR очень хорошо справляется с распознаванием документов. Хорошо зарекомендовали себя такие методы, как обнаружение краев и компьютерное зрение, с помощью которых можно очень хорошо распознавать текст в отсканированных документах.
Проблема OCR в том, что некоторые изображения по-прежнему не могут быть распознаны как текст, поэтому люди используют собственную технологию reCAPTCHA для распознавания текста. Эта технология распознавания людей очень сложна, независимо от того, где появляются буквы, какими бы расплывчатыми, искаженными, красочными они ни были, люди могут легко их идентифицировать. И компьютерные технологии все еще пытаются наверстать упущенное.
Аннотация: Университет Карнеги-Меллона (CMU) разработал мощную систему под названием reCAPTCHA, которая позволяет их компьютерам обращаться к людям за помощью. Конкретный метод: отправьте отсканированные изображения текста, которые программа OCR не может распознать, на основные веб-сайты по всему миру, чтобы заменить оригинальные изображения капчи; после того, как пользователи этих веб-сайтов правильно идентифицируют эти тексты, их ответы будут отправлены обратно в CMU. Согласно введению Science, reCAPTCHA использует принцип CAPTCHA (полное китайское название CAPTCHA — тест Тьюринга для автоматического различения компьютеров и людей) с помощью способности человеческого мозга различать символы, которые трудно распознать. метод идентификации символов, которые распознаются. То есть reCAPTCHA может не только отсеивать спам, но и помогать оцифровывать древние книги (что можно назвать искусственным OCR).
Это не означает, что OCR невозможно, на самом деле у него есть много хороших вариантов использования, но важно установить правильные ожидания. Возьмем в качестве примера футбольный матч.
Если я использую OCR для захвата этого стоп-кадра, я могу получить следующие данные:
[0] PREMIER LEAGUE [1] TOT 2 [2] M [3] U [4] 0 [5] 36:2 [6] 4 [7] SPORTS [8] NEW 0 BUR 0 [9] HALFTIME [10] LIVE [11] NBCSN
Без контекста вы бы не знали, что такое счет, номер на футболке, логотип, время или название команды (конечно, если бы все это было включено). В процессе обработки видео оно будет становиться все более запутанным из-за большого количества ложноположительных и отрицательных классов.
Вместо того, чтобы применять универсальное OCR к множеству проблем в настоящее время, подумайте, какой из них использовать, и сосредоточьтесь на этом варианте использования. Если это отслеживание игроков, система отслеживания целей может быть более подходящей; если это отслеживание времени или очков, то модель должна отслеживать их в определенной области.
Обработка видео трудоемка. Часто предполагается, что зрение (лица, изображения, объекты, OCR и т. д.) — это такая же машинная обработка, как и изображения в видео, но это не всегда так. Цифровое видео — это мир смешанных кодировщиков, степеней сжатия и соотношений сторон.
При работе с видео необходимо использовать более низкое разрешение, иначе это будет ресурсоемко и может занять годы. Но если скорость видео низкая или сжатие видео высокое, в большинстве случаев вы получаете частичные кадры. Вы можете прочитать статью о группе изображений в Википедии, чтобы узнать больше о структуре группы изображений (GOP) и о том, как она работает, но проблема в том, что видеофайлы не обязательно являются непрерывными неподвижными изображениями. Таким образом, вытягивание рамок распознавания лиц и изображений для распознавания видео все же сильно отличается от распознавания серии неподвижных фотографий.
Аннотация: Группа изображений — это группа последовательных изображений в видео или видеопотоке, закодированном в формате MPEG. Каждое видео или видеопоток в формате MPEG состоит из непрерывной группы изображений.
Вы можете проверить это самостоятельно, приостановив любое видео на YouTube. Имейте в виду, что выражения лиц людей иногда могут казаться странными, размытыми или нереальными. Ниже приведен пример стоп-кадра из фильма Рика Санторума.
Посмотрите на эти лица с точки зрения распознавания лиц:
Вот что видит система распознавания лиц:
Можете ли вы сказать мне, что парень слева - Рик Санторум? Если вы не знаете, компьютер тоже может его не распознать.
Как человеку, очень легко смотреть видео и идентифицировать людей. Но если вы вытащите каждый кадр и посмотрите на него, вы начнете замечать, что качество данных не всегда такое хорошее, как вам хотелось бы.
Означает ли это, что вы не должны использовать машинное обучение на видео? конечно, нет. Машинное обучение — отличный способ автоматически классифицировать и маркировать активы. Хитрость заключается в том, чтобы установить разумные ожидания в отношении результатов. Просматривая это видео с моделью, которая собрала всех знаменитостей на планете, вы получите много ложных срабатываний (т. е. неверную идентификацию кого-то), и наоборот, если модель собрала только американских политиков, то просмотр этого видео приведет к много ложных срабатываний.было бы намного лучше. Но даже если вы не можете управлять обученной моделью таким образом, вы все равно можете извлечь выгоду, рассматривая данные в целом. Если Рик Санторум появлялся в ролике самостоятельно, то в большинстве случаев модели удавалось правильно идентифицировать человека. Вы можете увидеть, как он появляется в этот момент времени, а затем сделать некоторые вероятные предположения о том, где он на самом деле появился в видео и где он может появиться. Это не работает для каждого варианта использования, но если вы готовы немного поэкспериментировать, попробовать разные рабочие процессы и модели (и подумать о проблеме, которую решаете), вы добьетесь успеха.
Как я уже говорил ранее, машинное обучение — это потрясающе. Он может делать невероятные вещи за очень короткий промежуток времени. Один из клиентов моей компании использует его для выявления поддельных исследовательских статей среди миллионов статей в журналах, другой клиент использует распознавание лиц для аутентификации людей, сдающих экзамены, а еще один клиент использует наше обнаружение наготы, чтобы пометить пользовательские материалы, которые не подходят для просмотра. людям читать.
Аннотация: Компания автора — Machine Box, которая помещает самые современные возможности машинного обучения в контейнеры Docker, поэтому разработчики могут быстро и легко включать в свои приложения такие функции, как обработка естественного языка, распознавание лиц, распознавание объектов и многое другое. Кроме того, приведенную выше идентификацию поддельных научных статей можно найти в другой статье автора: Предотвращение публикации поддельных научных статей с помощью машинного обучения.
У нас также есть клиент, который использует механизм рекомендации контента, чтобы увеличить доход своего сайта электронной коммерции, показывая клиентам, что они с большей вероятностью купят. Это отличный вариант использования, потому что ложные срабатывания и отрицательные значения не влияют на рост доходов, а иногда даже помогают, потому что они показывают клиентам что-то новое, показывая им то, на что они обычно не обращают внимания.
Люди используют обработку естественного языка (NLP) для обработки текста, чтобы повысить эффективность поиска и выбрать фотографии, которые с большей вероятностью вдохновят вас на покупку; машинное обучение все чаще используется на фермах для выявления болезней растений и животных в нашей жизни.
Машинное обучение может предоставить вам бесконечные возможности для бизнеса, если вы знаете, чего ожидать.
Для большего содержания сухих товаров вы можете обратить внимание на AI Frontline, ID:ai-front, фоновый ответ "AI", "TF", "Большие данные«Вы можете получить серию мини-книг и карт навыков «AI Frontline» в формате PDF.