**Введение:** Профессиональные техники, не занимающиеся искусственным интеллектом, трансформируют технологии искусственного интеллекта или изучают разработку технологий искусственного интеллекта в студенческие годы. Для всех, у кого есть такие требования и опыт, они надеются увидеть опыт роста талантов в области технологий искусственного интеллекта, поделиться своим собственным реальным опытом. .
предисловие
Ссылаясь на идеи Сэмюэля Джонсона (британский литературный критик и поэт XVIII века, автор «Английского словаря» и «Шекспира»), «когда человек устал от изучения технологий, он должен также устать от ИТ-индустрии; потому что только в непрерывном обучении будет все, что дает вам ИТ-индустрия, включая деньги». Такова реальная ситуация в ИТ-индустрии: никто не может долго выживать самостоятельно, тем более с технологиями ИИ. Недавно я читал «Лондонца». В книге рассказывается о личных чувствах и историях более 200 новых и старых лондонцев о лондонском Сити. Я чувствую, что должен написать статью о росте технических талантов ИИ, поэтому я есть эта статья.
Профессиональные техники, не занимающиеся искусственным интеллектом, трансформируют технологию искусственного интеллекта или изучают технологию искусственного интеллекта в студенческие годы, для всех, у кого есть такие интересы и опыт, они могут захотеть увидеть людей с аналогичным опытом и поделиться своим реальным опытом.
Сегодня я нашел несколько моих коллег, включая меня, всего пятеро, мы все представители, один за другим, чтобы представить:
- Майк Чжоу: В 2004 году окончил Чжэцзянский университет со степенью магистра компьютерных наук. Он начал изучать программирование в возрасте 15 лет. написал код JSP (язык Java, встроенный в способ написания HTML-кода), после нескольких лет работы перешел на технологию распределенного программного обеспечения, а затем занялся технологиями больших данных.За последние 4 года он занимается исследованиями и разработками продуктов платформы AI.
- Г-н Цю: магистр по специальности, связанной с алгоритмами, работает пять лет. В 2013 году он поступил в Университет Ханчжоу Дяньцзы для изучения искусственного интеллекта и электронных информационных технологий.Метод магистра в основном основан на встроенных и графических алгоритмах.После окончания учебы он поступил в компанию Dahua в сфере безопасности, а затем перешел в Huawei.Он имеет занимался компьютерным зрением, трансплантацией и оптимизацией алгоритмов, оптимизацией фреймворка обучения, машинным обучением и т. д.
- Ханна: бакалавр электротехники и электроники Манчестерского университета, магистр наук о данных Университетского колледжа Лондона, присоединилась к Huawei после окончания учебы и работает уже два года. Как один из первых производителей частного облака в Китае, Huawei имеет много достижений в области науки о данных. Поэтому в период работы имею возможность участвовать в многоплановой работе, от реализации алгоритмических исследований, до разработки платформы, до разработки проекта POC, моделирования ПК на месте и т.д., что углубляет понимание сути науке о данных за короткий промежуток времени.
- Доктор Цзэн: доктор философии ключевого отечественного университета, специальное предложение Huawei в 2018 году. После окончания бакалавриата в течение пяти лет он вернулся в школу и продолжил обучение в магистратуре и докторантуре. Во время получения степени магистра он начал помогать преподавателю в выполнении проектов.Он работает в ИТ-индустрии более десяти лет.У него богатый опыт разработки и управления проектами информационных систем, а также реальный опыт проектов в области искусственного интеллекта. В качестве технической основы лаборатории он участвовал в нескольких проектах на национальном, провинциальном и министерском уровнях. Во время работы над докторской диссертацией его основными областями исследований были НЛП и графы знаний, и в настоящее время он является главным экспертом группы моделирования алгоритмов в Huawei.
- Brother Fan: 20 лет опыта работы в сфере ИКТ, 4 года разработки сигнальных процессоров, 5 лет разработки продуктов для корпоративной передачи данных, 3 года проектирования архитектуры операционной системы, 3 года анализа и исследований больших данных, 5 лет планирования продуктов ИИ, в настоящее время главный исполнительный директор Huawei Cloud ModelArts, специалист по управлению продуктами.
текст
Майк Чжоу
Знание не может быть получено только из опыта, а только из сравнения интеллектуальных изобретений и наблюдаемых фактов - Эйнштейн
Как инженер-программист, который любит досконально разбираться в принципах, каждое из моих преобразований было выполнено с большим количеством чтения и практической работы. Совет, который я даю, — читать книги с глобальной точки зрения на конкретные техники в соответствии с вашей реальной ситуацией, не беспокойтесь.
Первой книгой, которую я прочитал, была «Краткая история искусственного интеллекта» Ника.В этой книге почти всесторонне описана история развития искусственного интеллекта, охватывающая почти все области искусственного интеллекта, включая происхождение искусственного интеллекта, автоматическое доказательство теорем и экспертные системы. , нейронная сеть, обработка естественного языка, генетический алгоритм, глубокое обучение, обучение с подкреплением, сверхразум, философские вопросы и будущие тенденции и т. д. Конечно, это не практическая книга, чтобы научить вас программированию, но дает вам макрос впечатление, подходит для AI Product manager, CTO read.
Если вы чувствуете, что вам нужно еще больше расширить свое общее понимание технологий, я предлагаю вам прочитать книгу «Искусственный интеллект (второе издание)», написанную Стивеном Луччи и Дэнни Копеком, которая немного похожа на учебник для колледжа по искусственному интеллекту, называемый « энциклопедия искусственного интеллекта», книга охватывает краткую историю искусственного интеллекта, методы поиска, информированный поиск, поиск в играх, логику в искусственном интеллекте, представление знаний, генеративные системы, экспертные системы, машинное обучение и нейронные сети. алгоритмы, обработка естественного языка, автономное планирование, робототехника, передовые компьютерные игры, история и будущее искусственного интеллекта.
После прочтения знаний о глобализации рекомендуется выбирать книги в соответствии с вашей реальной ситуацией.«Машинное обучение» Чжоу Чжихуа, «Глубокое обучение», в соавторстве с Яном и др., «Практическое глубокое обучение», в соавторстве. Астон Чжан и др., «TensorFlow: Практическая платформа глубокого обучения Google (второе издание)» в соавторстве с Чжэн Зею и другими, «Глубокое обучение PyTorch» Вишну Субраманьяна, все эти книги хороши, и, конечно, их много. другие отличные работы, которые здесь не развернуты. Введение, это больше зависит от вашего текущего состояния, хотите ли вы быстро обучить модель или хотите четко понять принцип, который варьируется от человека к человеку.
В дополнение к систематическому чтению и обучению, я больше всего надеюсь начать кодирование и обучение моделей как можно скорее, и я должен иметь поддержку инструментов IDE.Я надеюсь, что будет инструмент, который поможет локальной среде IDE быть в состоянии связь с общедоступной облачной платформой.Я расскажу о реализованном кейсе — как использовать PyCharm и общедоступный облачный сервис ModelArts для совместной разработки, чтобы быстро и полностью задействовать вычислительные ресурсы облачных GPU.
Здесь я подключен к общедоступной облачной платформе искусственного интеллекта HUAWEI CLOUD. На самом деле мы используем инструмент PyCharm ToolKit, чтобы помочь установить канал соединения из локальной среды PyCharm IDE в ModelArts.В этом случае я использую MXNet для реализации примера приложения для распознавания рукописных цифр, быстро завершаю написание кода локально и публикую его. в общедоступное облако ModelArts для завершения модели.Обучение и создание модели, полученную модель можно быстро развернуть в дальнейшем (этот шаг не рассматривается в этой статье). Перед установкой ToolKit необходимо установить PyCharm версии 2019.2 (на данный момент ToolKit адаптируется только к этой версии), адрес загрузки:download.jet brains.com/Python/py CH…
Следует отметить, что если была установлена более высокая версия PyCharm, вам необходимо сначала удалить (автоматически) установленный PyCharm:
Загрузите инструмент PyCharm-ToolKit-PC-2019.2-HEC-1.3.0.zip для подключения локальной среды IDE к облаку:woohoo.jet brains.com/py charm/Доу…
Затем вернитесь в PyCharm IDE и откройте «Настройки»:
Найдите Плагины, выберите плагин:
После перезапуска вы увидите следующий интерфейс:
Затем нам нужно перейти в HUAWEI CLOUD, чтобы объявить ключ OBS:
После того, как код подтверждения SMS будет успешно зарегистрирован, обязательно сохраните файл csv на этот компьютер. Вернемся в IDE PyCharm:
Обратите внимание, что вам нужно снова нажать кнопку редактирования учетных данных, и после выхода вы увидите галочку.
Таким образом, мы завершили стыковку между PyCharm IDE и ModelArts и переходим к следующему шагу, чтобы фактически обучить модель. Сначала загрузите набор рукописных слов, ссылка для скачивания выглядит следующим образом:модель арты-сп север1-рынок-DataSet.obs.cai-север-1.но huawei cloud.com/DataSet-ругается…, войдите в HUAWEI CLOUD, чтобы загрузить OBS:
После создания папки откройте проект в PyCharm и заполните параметры.Вы можете обратиться к параметрам, заполненным, когда ModelArts обучает модель:
Нажмите «Выполнить задание обучения», в правом нижнем углу отображается информация журнала обучения, отправленная обратно в PyCharm из общедоступного облака:
После завершения обучения модель обучения сохраняется в OBS общедоступного облака, и вы можете загрузить ее или сделать вывод в облаке.
Наличие такого набора инструментов было бы благом для тех из нас, кто действительно программирует.
Mr Qiu
«После определенного уезда Ли; я совершенно в мире с жителями округа; я знаю, что безопасно приходить куда угодно; я собираю урожай рано и созрел; я чувствую, что ветер и дождь идут по расписанию; Хун Ду Жуймин Книга Юньян
Прежде чем представить, как превратиться в поле ИИ, позвольте мне представить мой личный опыт. С тех пор, как я столкнулся с ИИ для работы, прошло около 7 лет, я разделил его на 3 этапа: (1) период учебы в школе, (2) период стажировки, (3) период роста в работе. Во время школы я многому научился, в основном в области искусственного интеллекта, высокочастотных электронных схем, традиционных алгоритмов обработки изображений, встроенных систем и т. д. На этом этапе путем содействия обучению через соревнование были достигнуты хорошие результаты в соревнованиях; посчастливилось участвовать в стажировке во время стажировки.Модуль «Поиск изображений по изображению» ключевого проекта накопил большой практический опыт в области изображений и искусственного интеллекта, после окончания учебы он занялся исследованиями и работой в основном в области компьютерного зрения , оптимизация трансплантации алгоритмов, оптимизация фреймворка глубокого обучения, машинное обучение и т. д. Практика с определенным опытом работы с ИИ с полным стеком. Иногда, хотя квалификация посредственная, но, к счастью, цель ясна, борьба идет непрерывно, и я встретил много людей, достойных благодарности, поэтому у меня есть возможность представить здесь свой опыт.
В 2012 году в ежегодном соревновании по распознаванию изображений ImageNet сеть CNN AlexNet превзошла второе место (метод SVM) по эффективности классификации дробления, и глубокое обучение начало привлекать внимание исследователей. Но это действительно привлекло индустрию к крупномасштабным инвестициям в глубокое обучение, вероятно, с 2015 по 2016 год. В это время Цзя Янцин открыл исходный код среды глубокого обучения Caffe во время своей докторской диссертации, а Google открыл исходный код первой версии. движок искусственного интеллекта TensorFlow.Caffe когда-то был известен своей отличной структурой кода, удобным интерфейсом разработки и другими преимуществами, высоко оцененными исследователями и инженерами. На ранней стадии развития ИИ многие инструменты были несовершенны, и были необходимы колеса.Здесь колеса в основном включают в себя необходимость разработки инструментов аннотирования изображений во время автономного обучения, необходимость модификации структуры глубокого обучения для реализации прямых и обратных вычислений. связанных операторов, и реализовать середину свертки.Визуализация функций для настройки модели и т. д. При онлайн-развертывании вам необходимо самостоятельно реализовать вычисления FP16 и int8 для операторов, и вам нужно самостоятельно написать код CUDA.
Теперь разработчикам, выходящим в область ИИ, больше не нужно делать эти колеса, что очень радует.
Инструменты аннотирования изображений, такие как LabelImg, имеют открытый исходный код и могут использоваться напрямую; TensorFlow был итерирован, чтобы сделать его более удобным для разработчиков, предоставляя множество отличных примеров, инструментов визуализации и инструментов развертывания логических выводов; с постепенным распространением PyTorch, с помощью TensorFlow стало возможным набирать очки Осенью у разработчиков появилось больше возможностей для выбора: Nvidia запустила TensorRT, инструмент для ускорения логического вывода на базе графического процессора, который можно использовать бесплатно, а Huawei также запустила MindSpore, фреймворк для ускорения логического вывода, основанный на его чип собственной разработки DaVinci с вычислительной мощностью более высокой плотности Богатые возможности для разработчиков.
Поскольку гигантские компании полностью инвестируют в ИИ, инструменты ИИ становятся все более и более совершенными, и разработчики могут сосредоточиться на разработке моделей и реализации бизнеса.Это хорошая эра для ИИ, а также хорошая эра для разработчиков ИИ.Я думаю, сейчас пришло время начать преобразование ИИ.
Оглядываясь назад на процесс разработки ИИ и ямы, на которые он наступал за эти годы, я извлек метод трансформации традиционной разработки программного обеспечения в инженерию разработки ИИ с личной точки зрения, надеюсь, он будет полезен всем. На данный момент они разделены на три части, а именно (1) практическое выполнение, (2) освоение принципа и (3) рассуждения и развертывание.
1. Приступайте к работе:
Этот этап заключается в изучении существующих отличных проектов с открытым исходным кодом, здесь я рекомендую даркнет YOLOv3, адрес проектаGitHub.com/P Family Eddie/Big…. Каркас проекта реализован на языке C, понятен и прост в отладке. Скачав код проекта, новички должны сначала запустить проект: отслеживая поток данных во всем фреймворке, они могут примерно понять, как работает ИИ и какие проблемы можно решить. В то же время в процессе прогона через среду конструирования вы можете быстро понять, как GPU и фреймворк глубокого обучения работают вместе, и какие зависимости нужны фреймворку глубокого обучения в процессе работы.
2. Овладейте принципом:
Как отличный и классический сквозной алгоритм обнаружения, YOLO сначала рекомендуется для изучения, и с момента запуска он был итерирован до четвертой версии. Вы можете начать с первой версии YOLOv1, а затем перейти к четвертой версии YOLOv4, чтобы узнать, как развивалась YOLO, какие улучшения были сделаны и почему улучшения улучшат производительность. В Интернете много отличных блогов, и разработчики могут сами искать и читать их. Я считаю, что в сочетании с отладкой кода на этапе практического запуска прогресс будет быстрее. После изучения процесса эволюции YOLO, если вам интересно, вы можете изучить алгоритм обнаружения серии R-CNN.Алгоритм серии R-CNN отличается от YOLO тем, что он имеет высокую скорость отзыва и высокую точность, но он отнимает много времени, поэтому обычно используется в промышленности More или YOLO.
3. Вывод развернут:
Развертывание вывода — это развертывание модели, обученной платформой глубокого обучения, на ПК или устройство конечного тестирования для вывода для решения практических бизнес-задач. Этот процесс в основном включает в себя настройку производительности модели, адаптацию GPU или D-чипа и реализацию бизнес-логики. Для настройки производительности модели в основном необходимо количественно преобразовать исходный FP32 вывода модели в FP16 или int8, чтобы добиться ускорения вывода и вывода в реальном времени. Здесь рекомендуются NVIDIA TensorRT и модуль ускорения D-chip от Huawei.Они будут выполнять высокоуровневую оптимизацию модели.Помимо квантования, также будет слияние операторов между сетевыми уровнями модели,оптимизация питомника и т.д.Конкретная информация может быть нашел на соответствующем Официальном сайте в поиске. После того, как оптимизация модели завершена, онлайн-обоснование модели завершается с помощью соответствующего механизма рассуждений и реализации бизнес-логики, а также завершается реальная индустриализация и решаются практические проблемы.Это также та часть, где ИИ действительно создает ценность для общества. .
Я верю, что благодаря изучению этих трех частей со временем вы постепенно станете старшим инженером-алгоритмом в области ИИ.
Hannah
Теперь, когда я ступил на этот путь, ничто не должно помешать мне идти по этому пути. - Кант
Привет всем, в группе из пяти человек в этой статье я новичок на рабочем месте. Поскольку я новичок без социального опыта, большую часть своей жизни я провел в школе, поэтому здесь я расскажу в основном о своем школьном опыте.
Будучи студентом, я выбрал электротехническую и электронную инженерию в качестве специальности. В то время у меня не было большого понятия о специальностях и рабочих местах, я просто думал, что студенты, изучающие естественные науки, должны выбирать специальность с «электричеством», я выбрал эту специальность с наибольшим количеством «электричества» из длинного списка специальностей. , счастлив начать свою университетскую карьеру в Манчестере.
После того, как школа началась, все было не так, как я себе представляла. Этот вид инженерной специальности предъявляет высокие требования к практическим способностям студентов к экспериментам. Когда я впервые пошел на экспериментальный класс, я был ошеломлен, увидев кучу экспериментального оборудования. . Сцена в то время была для меня довольно страшной.Маленький брат-индеец в той же группе выслушал просьбу учителя эксперимента и начал операцию.Я был ошеломлен сбоку,и даже записал его операцию и вернулся к занятиям это сам.Важные вещи забыты. После того, как он получил результаты экспериментов, я осторожно спросил, как проходили эти операции. Младший брат был сердечен и объяснил мне это на быстром английском языке с индийским акцентом. Но английский язык, который я выучил на слух, я слышал только британский и американский акценты. Я действительно не знаком с индийским английским языком. Я могу только быть дерзким и попросить моего брата повторить это. На третий раз он окончательно потерял терпение и указал мне на абзац учебника, чтобы я его прочитал. Я только что понял, что он говорил это все время, но я не понимал этого, включая тот раз, когда он указал на чтение. Итак, первое экспериментальное занятие я провел в процессе проверки названий различных инструментов и объяснения английского объяснения скоростного карри той же группой братьев-индейцев. Спасибо команде за то, что не разочаровались во мне и позволили мне пройти мой первый год обучения гладко.
Когда я выбирал направление выпуска, у меня возникла идея и я выбрал проект шумоподавляющих наушников, связанных с DSP (цифровой обработкой сигналов). Используйте следующую схему, чтобы объяснить принцип:
Как правило, внутри гарнитуры с активным шумоподавлением будет небольшой микрофон для сбора звука внешнего мира.С помощью расчета можно создать совершенно противоположную звуковую волну, а затем наложить ее на внешний шум для уменьшения шума.
Весь проект просто реализует фильтр алгоритма FIR-LMS в соответствии с работой учебного материала учителя и данного справочника. Хотя алгоритм прост, эффект от реализации довольно хороший. Я сделал дополнительный набор мелкой фурнитуры для микрофона, чтобы продемонстрировать результаты, включил белый шум на телефоне рядом с микрофоном и одновременно говорил, а финальный звук из динамика имел эффект частичного шумоподавления.
Самое большое ощущение при выполнении этого проекта заключается в том, что этот алгоритм может не только достичь некоторых результатов в научно-исследовательском сообществе, но, что более важно, применительно к жизни он может дать нам, обычным людям, много удобства.
В то время, когда я учился в средней школе, я думал, как я могу соприкоснуться с большей частью этой технологии и даже поучаствовать во внедрении этой технологии. В это время карикатура подсказала мне ответ. Дабай, продвинутый робот с искусственным интеллектом в «Суперморпехах», является почти универсальным семейным врачом. В этом сила ИИ.По предложениям нескольких аспирантов того времени я наконец выбрал науку о данных в качестве своего направления в аспирантуре.
Нелегко начать на уровне выпускника, и не очень гладко переключиться с направления электротехники и электроники на дисциплину науки о данных. Специальность «Наука о данных» совместно находится в ведении Департамента статистики и Департамента компьютерных наук, а это означает, что эта специальность предъявляет относительно высокие требования к статистике и информатике. В то время учитель также перечислил длинный список библиографии, и наиболее впечатляющими из них были PRML («Распознавание образов и машинное обучение») и BRML («Байесовское мышление и машинное обучение»). Если вам интересно, вы также можете пойти и посмотреть.В Китае тоже есть хорошие книги.Я рекомендую «Статистический метод обучения» Ли Хана и «Машинное обучение» Чжоу Чжихуа.
Эта специальность по-прежнему придает большое значение нашим практическим навыкам моделирования.Почти все курсы имеют более 30% баллов, которые требуют от нас моделирования. Одним из них было прикладное машинное обучение, которое требовало от нас участия в соревнованиях на Kaggle и использования нашего рейтинга для оценки наших экспериментов. В течение месяца наша группа участвовала в трех проектах, в одном из которых мы попали в топ-4%. Вышеупомянутые проекты на Kaggle очень подходят для начинающих, чтобы попрактиковать свои руки.После получения большого количества теоретических знаний, новички часто очень незнакомы с этим нагромождением математических формул и не знают их фактического действия. Соревнования на Kaggle дают новичкам возможность соприкоснуться с реальными данными и использовать их для моделирования.Участвуя в этих соревнованиях, они также могут узнать, может ли изучаемая в настоящее время модель занять высокое место при решении реальных задач на основе их собственных результатов. это действительно лучшее решение. Это дало мне более глубокое понимание теории, которую я изучил в классе за короткий промежуток времени. Даже если мы не знаем, что на самом деле означают данные, даже если значение данных зашифровано, все равно можно использовать некоторые методы машинного обучения для моделирования и прогнозирования результатов. Проект Titanic в Kaggle также является первым выбором для многих учителей, чтобы дать студентам представление об анализе данных и машинном обучении.Те, кто заинтересован, могут пойти и испытать это.
Требования и применение моделей в академических кругах и в промышленности различаются.Чтобы лучше понять реальный процесс моделирования, я выбрал проект сотрудничества между школами и компаниями, когда я закончил. Последний проект был моей первой стажировкой по науке о данных, в которой я просто рекомендовал похожих артистов и составил дорожную карту лучших городов для гастролей артистов в Великобритании для Warner Music. В этом проекте я столкнулся с реальными данными о клиентах и работал с компаниями, чтобы попытаться найти больше корреляций в данных. В то же время я также изучаю другие возможности и участвовал в другом соревновании по НЛП на Kaggle, чтобы оценить сходство двух коротких текстов. Когда эти проекты закончились, закончилась и моя аспирантура.
Вернувшись в Китай, я сделал перерыв и присоединился к Huawei. В Huawei первый проект, связанный с большими данными, с моей стороны — это крупномасштабное ускоренное обучение PyTorch, похожее на MoXing в облаке Huawei, но это оптимизация на основе PyTorch. В этом проекте у меня была возможность познакомиться с некоторыми концепциями более низкого уровня в вычислениях с глубоким обучением и получить представление о взаимодействии между графическими процессорами. Позже, чтобы добавить больше моделей на платформу, у меня была возможность больше узнать об архитектуре модели и восстановить популярный в то время эффект MobileNet. Затем изучите и успешно внедрите алгоритмы обнаружения объектов серии R-CNN в наши продукты.
После этого глубокого обучения я вложил средства в платформу машинного обучения и часть реализации базового алгоритма нашего продукта. Я внедрил алгоритм LightGBM в HUAWEI CLOUD и немного поработал над оптимизацией нашей платформы машинного обучения.
Затем я руководил проектом алгоритмической модели POC национального подразделения и совместным проектом по созданию алгоритма центра кредитных карт крупного отечественного банка. Еще раз подверглись воздействию реальных данных и работе по моделированию данных. Оба проекта являются проектами по управлению рисками, и их действительно интересно моделировать на реальных данных. Каждый раз, когда вы моделируете данные из другой отрасли, у вас появляется совершенно новое понимание другой отрасли. В этот период у меня также была возможность выступать на зарубежных форумах и знакомить VIP-клиентов с некоторыми научно-популярными знаниями о машинном обучении на английском языке.
За свои короткие два года работы я перепробовал все в своей профессии. Я до сих пор считаю, что моя специальность великолепна, и он открыл для меня новые миры.
Doctor Zeng
Дюйм времени стоит дюйм золота, дюйм золота не может купить дюйм времени - "Цзэнгуан Сяньвэнь"
Как кандидат компьютерных наук с многолетним опытом практической работы, я прямо расскажу о своем понимании процесса моделирования и соответствующих практических кейсов.
Для практиков в сфере ИТ большинство руководителей проектов и инженеров, занимающихся разработкой проектов традиционных информационных систем, возможно, привлекает это модное название, но они не знают, как начать проект ИИ высокого уровня, как древний Ян Цзы. , когда он встречал неправильную дорогу, он умел только приседать и плакать. К счастью, это самая красивая эпоха. Нам больше не нужно смотреть на тысячи дорог и не знать, как идти. Большое количество ученых и инженеров с ореолом мудрости уже заложили для нас прочный фундамент, и многие появились даже любители.Платформа для быстрого старта моделирования ИИ.
Когда дело доходит до машинного обучения, многие люди могут быть обескуражены, думая, что оно требует очень продвинутых математических знаний и различных малопонятных теорий. К счастью, профессиональные специалисты по ИИ должны обладать солидными математическими знаниями, а также владеть различными теориями машинного обучения, но им не обязательно быть опытными в разработке проекта ИИ. Здесь я буду постепенно расширяться от простого сценария, чтобы помочь вам понять процесс построения типичного проекта машинного обучения.
Говорят, что все живые существа приходят на благо, поэтому давайте возьмем ситуацию в финансовой индустрии. Финансовая индустрия может быть сферой, которая всех очень беспокоит, даже я, слишком бедный, чтобы разглашать новости, знаю несколько терминов финансовой индустрии, таких как мошенничество с кредитными картами. Поскольку первая мысль, которая всплывает, — это мошенничество с заявками на кредитные карты, тогда прислушайтесь к своему внутреннему голосу и давайте поговорим о процессе построения проекта ИИ на примере обнаружения мошенничества с заявками на кредитные карты.
Все сложно в начале, сложно в середине и сложно в конце. Многим проекты ИИ кажутся просто неуловимыми. Некоторые люди говорят, что три элемента ИИ — это «данные», «вычислительная мощность» и «алгоритм», но я думаю, что есть еще один элемент, который также незаменим — «бизнес». В отличие от академических исследований, инженерные проекты обычно ориентированы на конкретные бизнес-сценарии и конкретные бизнес-цели.В процессе создания проектов ИИ мы всегда обычно делим весь процесс на обработку данных, проектирование функций, обучение модели, такие процессы, как обоснование модели и развертывание модели, но на самом деле анализ и понимание бизнеса проходит через проект. Старший сказал, что с его опытом разработки проектов ИИ, пониманием бизнеса, наличием достаточного количества данных и поиском подходящего алгоритма проект обязательно будет безопасным.Полное понимание бизнеса является важным шагом, и я согласен.
Теперь, когда бизнес-понимание пройдено, давайте сначала поговорим о бизнес-понимании. Проще говоря, понимание бизнеса заключается в том, чтобы выяснить, что мы собираемся делать (деловой здравый смысл), где оно находится (существующие ресурсы) и чего мы хотим достичь (бизнес-цели). Для проекта обнаружения мошенничества с кредитными картами, в дополнение к предварительной работе, такой как подготовка проекта и подготовка ресурсов, первое, что нужно сделать, это иметь глубокое понимание бизнеса кредитных карт, знать, что такое мошенничество с приложениями кредитных карт, почему кредитная карта может произойти мошенничество с приложениями, и какие ресурсы данных у нас есть, и цели системы обнаружения мошенничества с кредитными картами и т. д., а затем подумайте о том, как сделать обнаружение мошенничества с кредитными картами. Процесс понимания бизнеса часто требует глубокого вмешательства бизнес-экспертов и тесного сотрудничества между разработчиками алгоритмов и бизнес-экспертами.
После понимания бизнес-требований сбор, анализ и обработка данных становятся важным шагом, который невозможно обойти. Сбор данных относительно прост для понимания.Проще говоря, исходя из соблюдения законодательства, соберите как можно больше данных, тесно связанных с вопросами бизнеса, таких как личная информация, заполняемая заявителями на кредитные карты в процессе подача заявки на получение кредитной карты, кредитная информация из отчетов Народного банка Китая, отчеты о кредитном анализе от сторонних агентств и т. д. могут использоваться в качестве входных данных для системы обнаружения мошенничества с заявками на кредитные карты. Основная цель анализа данных — понять данные и извлечь из них полезную информацию.Это еще одна большая категория, которую трудно описать.Существуют различные инструменты и методы, и даже они проходят через весь процесс построения проекта ИИ.
Вообще говоря, качество данных, полученных из разных каналов, носит смешанный характер, изобилует большим количеством избыточных, дублирующихся, отсутствующих, аномальных и противоречивых данных, и их сложно напрямую использовать при построении моделей ИИ. Для определения избыточных данных необходимо сочетать бизнес-анализ, корреляционный анализ и другие средства, обычно включая данные, которые недействительны в бизнесе, или данные, тесно связанные с другими данными, и т. д. Метод обработки таких данных и дублирующих данных очень прост. , простой и грубый Существует много способов справиться с отсутствующими данными, обычно включая простое удаление, заполнение специальным значением, связанный вывод данных и другие традиционные методы, а также заполнение горячей карты, заполнение кластера, высокоуровневые методы, основанные на простом машинном обучении. предсказание модели и др.;Для обработки выбросов необходимо использовать ящичные диаграммы, три сигма-критерия, кластеризацию DBSCAN и изолированные леса для анализа.После выявления выбросов в данных они обрабатываются в соответствии с методом обработки пропущенных значения; несогласованные данные в основном относятся к Для данных с одинаковым значением, но непоследовательным представлением, таких как смешанный регистр, неправильный формат даты, неправильный адрес и несогласованные единицы, этот тип данных необходимо только унифицировать и упорядочить в сочетании с правилами данных .
После нормализации данных набор данных обычно необходимо сегментировать. Когда количество данных относительно велико, набор для обучения, набор для проверки и набор для тестирования можно разделить, и набор для обучения можно использовать непосредственно для обучения модели, набор для проверки используется для определения наилучших параметров модели, а тест набор используется для оценки производительности модели, при небольшом объеме данных обычно не вырезают специальный набор проверки, а используют перекрестную проверку для определения параметров модели, чтобы убедиться, что модель полностью обучена. Общий объем данных обнаружения мошенничества для приложений кредитных карт часто очень велик, но данных о фактическом мошенничестве очень мало, то есть существует очень серьезная проблема дисбаланса данных. Поэтому в процессе сегментации набора данных необходимо обеспечить, чтобы мошеннические данные могли попасть в каждый набор данных в определенной пропорции. На скриншоте ниже показана платформа оператора разделения данных.
После завершения обработки данных вступает в сложную и деликатную стадию разработки признаков. В традиционных проектах машинного обучения обработка данных и проектирование признаков имеют очень высокий статус, некоторые даже предполагают, что данные и признаки определяют верхний предел машинного обучения, а алгоритмы и модели лишь приближаются к этому верхнему пределу. В нашей практике весь процесс обработки данных и проектирования признаков занимает как минимум более 70% рабочей силы разработчиков всего проекта, и обычно необходимо неоднократно возвращаться и полировать функции в процессе моделирования. На следующем рисунке показан снимок экрана рабочего процесса разработки функций.
Наконец, данные для моделирования готовы, и мы можем начать высокоуровневую работу по моделированию. Я предпочитаю называть этот процесс проектированием моделей, охватывающим подпроцессы выбора модели, обучения модели, оценки модели и вывода модели. Процесс выбора модели обычно требует не только большого количества базовых навыков машинного обучения, но и глубокого понимания данных, бизнеса и т. д., а также может потребовать определенного опыта моделирования (опыт других — это тоже опыт).
Мы знаем, что задачи машинного обучения обычно можно разделить на контролируемые, неконтролируемые или частично контролируемые категории в зависимости от того, имеет ли набор данных метки, и их можно разделить на проблемы классификации и проблемы регрессии в зависимости от того, являются ли прогнозируемые данные дискретными или непрерывными. Самый простой способ решить проблему обнаружения мошенничества в приложениях для кредитных карт — рассматривать ее как проблему контролируемой бинарной классификации, то есть нам нужно только определить, является ли приложение, инициированное пользователем, мошенническим приложением или нет. Теперь мы используем больше LGBM, XGBoost, RF и т. д., как показано на рисунке ниже.
После того, как модель выбрана, начинается процесс ее обучения, вывода и оценки. Процесс обучения модели заключается в подаче в модель подготовленных обучающих данных, чтобы модель могла изучить законы и правила, содержащиеся в данных в виде параметров. Обычно во время этого процесса вы настраиваете различные гиперпараметры, необходимые модели. Сейчас везде есть всевозможные библиотеки машинного обучения с открытым исходным кодом и удобные и простые в использовании платформы машинного обучения.В большинстве случаев нам не нужно строить модель машинного обучения с нуля, а просто быть «настройщиком» для настройки различных пакеты машинного обучения с открытым исходным кодом или перетащите несколько операторов на платформу машинного обучения. Процесс вывода модели хорошо понятен, то есть данные из тестового набора подаются в обученную модель и позволяют модели предсказывать результат. Например, для задачи обнаружения мошенничества с приложением кредитной карты данные, которые необходимо предсказать, вводятся в модель, и модель дает прогнозное заключение, соответствующее каждой части данных. Процесс оценки модели заключается в оценке прогнозируемых результатов с помощью различных показателей и измерении разрыва между прогнозируемыми результатами и фактическими результатами. Для задач классификации существуют общие показатели, такие как показатель точности, показатель точности, показатель отзыва и значение F1, а для задач регрессии — такие общие показатели, как MAE и MSE.
Скриншот интерфейса отображения результатов оператора оценки на платформе ModelArts Miner
Процесс обучения модели, рассуждений и оценки, даже включая обработку данных и проектирование признаков, может потребовать повторных корректировок и корректировок, но если вы усердно работаете, золотой обруч можно превратить в иголку, и вы в конечном итоге получите то, что вам нужно. вы хотите. Что ж, давайте предположим, что вы получили то, что хотели, и ваша модель может до некоторой степени предсказать, является ли заявка на получение кредитной карты мошеннической или нет. В этот момент рассвет наконец-то осветил небо на востоке, и на горизонте появился намек на белое брюхо рыбы. Что вам нужно сделать сейчас, так это заставить рассвет наступить более бурно, развернуть вашу модель в вашей бизнес-системе и позволить вашим данным счастливо плавать в конвейере ИИ, извергая ослепительные фейерверки. После развертывания в бизнес-системе вам необходимо постоянно проверять свои результаты, а также постоянно корректировать и оптимизировать всю модель на основе последних данных. Но на данный момент не моя статья может вам помочь.Расправляйте свои величественные крылья, проникайте в небо и парите свободно. На следующем рисунке показан скриншот всего интерфейса процесса обнаружения мошенничества с кредитными картами на основе режима рабочего процесса платформы HUAWEI CLOUD AI.
Брат фаната
Тянь Xingjian, джентльмен самосовершенствования. —— «Чжоу И Цянь»
Являясь старшим продакт-менеджером, я много лет занимаюсь дизайном продуктов для платформы ИИ после перехода в ИИ.Позвольте мне рассказать вам о моем понимании продуктов ИИ. Для развития ИИ в общественном сознании все часто думают о разработке алгоритмов.На самом деле процесс коммерческой разработки ИИ будет включать в себя множество различных аспектов.Это не только разработка алгоритмов,но и вычислительная мощность,данные,итеративная оптимизация и т.д. Для коммерциализации ИИ технические директора будут сбалансированно учитывать три типа вложенных ресурсов, а не только ИТ-инфраструктуру, но и инженерный вклад:
1. Вычислительная мощность -> Pratt & Whitney;
2. Данные --> Модель;
3. Алгоритм --> Реализация Человеческий вклад, участвующий в каждой ссылке, различен, и в нем будут задействованы ИТ-инженеры, специалисты по данным и инженеры по приложениям.
Конкретно говоря:
1. Вычислительная мощность —> Pratt & Whitney (для ИТ-инженеров)
В настоящее время особенно важной задачей для разработки ИИ является эффективное использование вычислительных ресурсов и улучшение их использования. Инженеры-алгоритмы часто плохо разбираются в этих вещах, и для их достижения необходимы профессиональные инженеры системного уровня, начиная от построения кластера, эксплуатации и обслуживания, эксплуатации и обслуживания встроенного ПО, базовой оптимизации операторов, распределенной оптимизации и обслуживания большого количества фреймворков. и т. д. Кроме того, управление ресурсами между различными отделами также является тем, на что ИТ-инженерам необходимо обратить внимание. Для простой разработки можно построить его с открытым исходным кодом, но когда требуется крупномасштабная коммерциализация, особенно важно иметь лучшую платформу.
2. Данные --> Модели (для специалистов по данным)
Для моделирования ИИ это, по сути, процесс создания моделей на основе данных.Вообще говоря, первоначальная демонстрация может быть выпущена через несколько дней, но когда она будет реализована на самом деле, это будет стоить как минимум месяц, а то и больше года. . Этот процесс включает в себя два типа масштабных инвестиций: один вкладывается в сбор данных для обучения, от сбора данных и сквозной маркировки, а другой вкладывается в непрерывную итеративную оптимизацию модели, включающую большое количество навыков предметной области.
Обучающие данные: для сценариев общего назначения потребуется много работы по маркировке данных, что потребует больших затрат на маркировку. Для общих сценариев их могут маркировать обычные люди, но для сложных сценариев маркировку должны выполнять профессионалы. таких как сцены медицинской визуализации, большинство людей не могут их отметить. Поэтому особенно важно иметь очень удобные автоматические метки и алгоритмические возможности для сложных случаев данных для маркировки в профессиональной сфере и для маркировки большого количества данных.
Итеративная оптимизация: в процессе моделирования модели, в бизнес-сценариях и в процессе моделирования специалистов по данным используются более зрелые документы и алгоритмы для выборочного моделирования конкретных бизнес-сценариев и условий данных. и комбинированная оптимизация алгоритма постоянно корректируются для достижения наилучшего эффекта алгоритма. В этом процессе задействовано много понимания сцены. Для модели разработки очень полезно иметь хорошую библиотеку случаев, чтобы быстро находить знания в области осадков на основе сцены.
3. Алгоритм --> Реализация (для прикладных инженеров)
Раньше все думали, что реализация алгоритмов — это интеграционный процесс, похожий на разработку программного обеспечения, но на самом деле для ИИ-приложений все не так просто. Как правило, в очень общих сценариях более целесообразно интегрировать существующие модели для некоторого распознавания, например распознавания речи. Однако в коммерческих сценариях адаптация сценариев часто бывает недостаточно хорошей, и хотя в отрасли обсуждается возможность распознавания всего, она неудовлетворительна. Следовательно, для фактической реализации алгоритма его необходимо постоянно оптимизировать в зависимости от реальной ситуации. Из-за необходимости итеративного процесса оптимизации разработчики приложений должны сосредоточиться на продумывании бизнес-пути и удобстве развертывания и обучения сценариям. Как правило, специалистов по обработке и анализу данных и инженеров-алгоритмистов относительно мало. Исследователи данных и инженеры-алгоритмы не могут посещать каждую площадку для выполнения настройки и внедрения. Большое количество работ по внедрению на месте должно быть выполнено большим количеством приложений. инженеры. Для прикладных инженеров самооптимизация модели и непрерывная итерация и корректировка точности модели станут проблемой, которой не возникало в разработке программного обеспечения в прошлом.
Поэтому часто требуется системная платформа для поддержки быстрой итерации бизнес-сценариев, что повышает эффективность разработчиков приложений.
Судя по почти 20-летнему опыту работы, коммерциализация бизнеса ИИ на самом деле является самой сложной системной инженерией. Это не так просто, как разработка одного алгоритма, и для коммерческой реализации ИИ требуется много связанных навыков.
1. С точки зрения ИТ-инженера, ему необходимо сосредоточиться на эффективности ресурсов и затратах, а также принять во внимание различные соображения, сосредоточив внимание на базовом управлении ресурсами, проектировании системной архитектуры, распределенной оптимизации, управлении планированием ресурсов, проектировании ИТ-структуры и конечной периферии. облачное развертывание и простота. Создайте соответствующий дизайн для обслуживания и т. д., чтобы хорошо поддерживать применение алгоритма;
2. С точки зрения ученого данных, он должен не только знать, как разработать алгоритм и способность оптимизации параметров, но также иметь глубокое понимание отраслевых сценариев, обладать отраслевыми ноу-хау и постоянно повторять и моделировать в соответствии с окружающей средой. и проблемы с данными, постоянно корректировать алгоритм, чтобы реагировать на изменения окружающей среды и достигать соответствующих результатов.В течение этого периода необходимо будет уделить внимание большому количеству этических и моральных норм, включая соблюдение требований безопасности, предотвращение атак модели и проблемы интерпретируемости;
3. С точки зрения прикладного инженера, он не только занимается интеграцией приложений, но также должен понимать неопределенность приложений ИИ, выбирать соответствующие ограничения сценария и адаптироваться к возможностям существующих моделей в соответствии с реальной ситуацией. И он также может иметь возможность независимо обучать и повторять модель, повторять конвейер, заданный специалистом по данным, а также оптимизировать и повторять на месте. Чтобы добиться приземления в реальной сцене.
Таким образом, многие коммерческие компании больше внимания уделяют коммерческим сценариям ИИ и часто игнорируют важность платформы ИИ. Но часто для CTO / CIO перспективных коммерческих компаний они рассматривают выбор платформы ИИ при запуске бизнеса ИИ. Первоначальный замысел платформы HUAWEI CLOUD ModelArts также сосредоточен на трудностях коммерческого внедрения ИИ.В сочетании с собственной системой чипов Huawei Ascend ModelArts постоянно стремится к инклюзивности ИИ.
постскриптум
После десятилетий развития информатика стала зрелой дисциплиной.В текущей организационной схеме компьютерных факультетов в университетах каждый компьютерный факультет состоит из трех групп людей: теория, системы и ИИ (искусственный интеллект). 20 лет назад в американских компьютерных кругах бытовала поговорка, что люди в теории и системе смотрят свысока друг на друга, но в то же время они смотрят свысока на людей с искусственным интеллектом. ИИ стал популярен в последние годы, но когда-то его угнетали. Философия когда-то породила науку, но после определения проблемы выделилась в отдельные науки.
По словам Аллена Ньюэлла, история ИИ — это серия столкновений между противоположными проблемами, такими как аналоговое и цифровое, последовательное и параллельное, замена и расширение, синтаксис и семантика, механизм и телеология, биология и витализм. , инженерия против науки, символы и непрерывность, логика и психология и т. д., в каждой теме есть дополнительные подтемы, которые можно разделить, например, доказательство теорем и решение проблем в рамках логики и психологии, и есть место для развития если есть разногласия.
Я верю, что эта тенденция борьбы будет существовать еще долгое время. Только адаптируясь к этой борьбе, добиваясь прогресса, постоянно совершенствуя наши технологии и отвечая на вызовы новых технологий, мы можем продолжать свою карьеру. Таким образом, вы можете воспользоваться учебными пакетами, предоставляемыми крупными отраслевыми компаниями, чтобы постоянно повышать свои технические знания.Например, HUAWEI CLOUD разработала высококачественный курс «2020 HUAWEI CLOUD AI Combat Camp» для всех разработчиков, которые жаждут ИИ, включая изображения. Введение и практическое применение базовых знаний, классических наборов данных и классических алгоритмов в 8 популярных областях ИИ, таких как классификация, обнаружение объектов, сегментация изображений, распознавание лиц, оптическое распознавание символов, анализ видео, обработка естественного языка и распознавание речи. Каждая глава курса представляет собой практический кейс, тщательно созданный экспертами HUAWEI CLOUD AI Весь процесс охватывает обучение модели, тестирование и оценку С помощью пояснений кода и заданий после занятий он поможет вам освоить возможности разработки модели в восьми популярных областях искусственного интеллекта и стать экспертом разработчиков искусственного интеллекта.
**Автор: **Чжоу Минъяо, член Общества Цзюсан, в 2004 году окончил Чжэцзянский университет со степенью магистра инженерии. В настоящее время он является директором по исследованиям и разработкам продуктов искусственного интеллекта в Huawei Cloud и является автором книг «Оптимизация производительности Dahua Java», «Углубленное понимание JVM и G1 GC», «Техническое лидерство — как возглавить команду разработчиков программного обеспечения», «Программисты. «История успеха» и др. Он начал свою карьеру в качестве инженера-программиста, а позже стал инженером по распределенным технологиям и инженером по технологиям больших данных.Начал контактировать с технологиями искусственного интеллекта в 2016 году. Аккаунт WeChat michael_tec.
Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~