Эта статья написана "Передовая линия ИИ"Оригинал, оригинальная ссылка:Джефф Дин написал отчет команды Google на конец 2017 года, полный галантерейных товаров.
Автор | Старший научный сотрудник Google Джефф Дин от имени команды Google Brain
Переводчик|Дебра
Редактор | Эмили
Руководство по передовой ИИ:”Годовой отчет Google Brain на конец года уже здесь! Этот год не исключение.Эта статья, написанная Джеффом Дином, старшим научным сотрудником Google и главой Google Brain, полна галиматьи, а ссылка такая болезненная, что у редактора руки болят~ Нечего сказать, не забудьте добавить в закладки~”
Подытоживая часть содержания:
В рамках общих усилий Google по искусственному интеллекту команда Google Brain работает над совершенствованием современного искусственного интеллекта посредством исследований и системной инженерии. В прошлом году мы подвели итоги нашей работы за 2016 год. С тех пор мы добились прогресса в наших долгосрочных исследованиях по созданию умных машин, работая со многими командами в Google и Alphabet, в надежде, что эти результаты могут улучшить жизнь людей. В этом посте будут освещены некоторые из наших работ в 2017 году, в том числе фундаментальные исследования, а также обновления программного обеспечения с открытым исходным кодом, наборов данных и нового оборудования для машинного обучения.
основное исследование
Ключевые исследовательские цели нашей команды — улучшить наше понимание в области машинного обучения и нашу способность решать новые проблемы. Вот некоторые из основных тем, которые мы исследовали за последний год.
автоматизированное машинное обучение
Целью автоматизированного машинного обучения является разработка методов для компьютеров, позволяющих автоматически решать новые задачи машинного обучения без необходимости вмешательства специалистов по машинному обучению один за другим, что является основной функцией, необходимой для действительно интеллектуальной системы. Мы разрабатываем новые методы проектирования структур нейронных сетей с использованием обучения с подкреплением и эволюционных алгоритмов, распространяем эту работу на современные результаты классификации и обнаружения ImageNet и показываем, как новые алгоритмы оптимизации и эффективные функции активации могут быть изучены автоматически. Мы активно работаем с командой Cloud AI, чтобы предоставить эту технологию клиентам Google, и продолжаем продвигать это исследование в нескольких направлениях.
Понимание языка и генерация
Еще одной темой нашего исследования является разработка новой технологии для улучшения способности компьютерных систем понимать и генерировать человеческую речь, в том числе работа с командой Google Speech для улучшения сквозного распознавания речи, снижения частоты ошибок в словах Google. система генерации распознавания речи 16%. Одним из преимуществ этой работы является то, что она требует объединения многих отдельных направлений исследований (доступно на Arxiv: 1, 2, 3, 4, 5, 6, 7, 8, 9).
Мы также работали с командой Google Machine Perception, чтобы разработать новый метод преобразования текста в речь (Tacotron 2), который значительно улучшает качество генерируемой речи. Модель получила средний балл 4,53 (MOS) по сравнению со средним баллом MOS 4,58 для профессиональных дикторов в аудиокнигах и предыдущим лучшим результатом 4,34 для компьютерной речи. Вы также можете проверить, сколько очков вы можете получить.
Новые алгоритмы и методы машинного обучения
Мы продолжаем разрабатывать новые алгоритмы и методы машинного обучения, в том числе капсулы (явно ищущие согласованность в функциях активации в качестве основы для оценки различных гипотез шума при выполнении задач зрения), смеси экспертов с разреженным стробированием (способные достичь все еще вычислительно эффективной большой модели), гиперсети (гиперсети, которые используют веса одной модели для генерации весов другой), новые мультимодальные модели (многозадачное изучение аудио, визуальных и текстовых входных данных в одной и той же модели), механизмы, основанные на внимании (в месте сверточных и рекуррентных моделей), символические и несимволические методы оптимизации обучения (методы обратного распространения через дискретные переменные) и некоторые новые усовершенствования алгоритма обучения с подкреплением.
Машинное обучение для компьютерных систем
Мы также очень заинтересованы в том, чтобы машинное обучение заменило традиционную эвристику в компьютерных системах. Мы показали, как использовать обучение с подкреплением для принятия решений о размещении, чтобы сопоставить вычислительный граф с набором вычислительных устройств лучше, чем люди-эксперты. Вместе с другими коллегами из Google Research мы показываем в статье «Случаи изучения структур индексов», что нейронные сети быстрее и меньше по размеру, чем традиционные структуры данных, такие как B-деревья, хеш-таблицы и фильтры Блума. Как описано в документе «Машинное обучение для систем и систем машинного обучения» на симпозиуме NIPS, мы считаем, что наше исследование использования машинного обучения в основных компьютерных системах — это лишь верхушка айсберга.
Конфиденциальность и безопасность
Взаимодействие машинного обучения, безопасности и конфиденциальности остается в центре внимания наших исследований. Мы демонстрируем, что методы машинного обучения обеспечивают различную защиту конфиденциальности в нашей статье, которая получила награду ICLR 2017 Best Paper Award. Мы также продолжаем исследовать сексуальные свойства враждебных примеров, в том числе реальных враждебных примеров, и то, как можно масштабно использовать враждебные примеры во время обучения, чтобы сделать модели более мощными.
Понимание систем машинного обучения
Хотя мы добились впечатляющих результатов с помощью глубокого обучения, не менее важно понять, как оно работает. В другой лучшей статье на ICLR 2017 мы обнаружили, что современные теоретические основы машинного обучения не могут объяснить эти подходы к глубокому обучению. В работе также показано, что связь между «плоскостностью» минимумов, найденных методом оптимизации, и хорошим методом обобщения не так тесна, как ожидалось. Чтобы лучше понять, как работает обучение под глубокими архитектурами, мы опубликовали серию статей, посвященных анализу случайных матриц, поскольку большинство методов обучения начинаются со случайных матриц. Еще один важный способ понять глубокое обучение — лучше измерить его эффективность. В одном из наших недавних исследований, показывающем важность хорошего экспериментального дизайна и строгой статистики для экспериментов, сравнивались многочисленные методы GAN и было обнаружено, что многие популярные генеративные модели на самом деле не улучшают производительность. Мы надеемся, что это исследование послужит надежной парадигмой экспериментальных исследований для других исследователей.
Мы изучаем способы лучшего объяснения систем машинного обучения, и в марте в партнерстве с OpenAI, DeepMind, YC Research и другими объявили о запуске Distill, открытого научного онлайн-журнала, посвященного продвижению человеческого понимания машинного обучения». Журнал заработал репутацию благодаря четкому объяснению концепций машинного обучения, а также отличным интерактивным визуализациям в статьях. В 2017 году компания Distill опубликовала множество эвристических статей, направленных на понимание принципов различных методов машинного обучения, и ожидается, что в 2018 году будет опубликовано еще больше отличных статей.
Открытые наборы данных для исследований в области машинного обучения
Открытые наборы данных, такие как MNIST, CIFAR-10, ImageNet, SVHN и WMT, значительно продвинули область машинного обучения. В целом наша команда и Google Research в течение последнего года или около того активно открывали новые интересные наборы данных для открытых исследований в области машинного обучения, предоставляя более крупные размеченные наборы данных, в том числе:
- YouTube-8M: 7 миллионов видео на YouTube с аннотациями 4716 различных категорий.
- Связанные коробки YouTube: 5 миллионов связанных коробок для 210 000 видео на YouTube
- Набор данных голосовых команд: короткие командные слова от тысяч говорящих
- AudioSet: 2 миллиона 10-секундных клипов YouTube, помеченных 527 различными звуковыми событиями.
- Автоматическое визуальное действие (AVA): 210 000 меток действий в 57 000 видеоклипов.
- Открытое изображение: 9M, помечено 6000 категорий изображений, лицензированных Creative Commons.
- Открытые изображения с ограничивающими рамками: 1,2 млн ограничивающих рамок для 600 классов.
TensorFlow и программное обеспечение с открытым исходным кодом
На протяжении всей истории наша команда создавала инструменты, которые помогают нам проводить исследования в области машинного обучения и развертывать системы машинного обучения во многих продуктах Google. В ноябре 2015 года мы открыли TensorFlow, нашу среду машинного обучения второго поколения, в надежде, что сообщество машинного обучения выиграет от инвестиций в программные инструменты машинного обучения. В феврале этого года мы выпустили TensorFlow 1.0, а в ноябре выпустили версию 1.4, включающую: раннюю оценку для интерактивного императивного программирования, XLA, оптимизирующий компилятор для программ TensorFlow и TensorFlow для мобильных и встроенных устройств. . В настоящее время предварительно скомпилированные двоичные файлы TensorFlow загружены более 10 миллионов раз в более чем 180 странах, а исходный код на GitHub насчитывает более 1200 участников.
В феврале мы провели наш первый саммит разработчиков TensorFlow, на который в прямом эфире в Маунтин-Вью пришли более 450 человек, 65 миллионов зрителей со всего мира, в том числе более 85 локальных событий в более чем 35 странах и регионах. Все выступления записываются, а темы включают новые функции, советы по использованию TensorFlow, сведения о низкоуровневых абстракциях TensorFlow и многое другое. 30 марта 2018 г. мы проведем еще один саммит разработчиков TensorFlow в районе залива.
В ноябре TensorFlow отмечает вторую годовщину проекта с открытым исходным кодом. TensorFlow — это первая платформа машинного обучения на GitHub и один из пяти лучших репозиториев программного обеспечения на GitHub, используемый многими компаниями и организациями, с более чем 24 500 репозиториями программного обеспечения, связанными с TensorFlow, на GitHub. Результаты многих исследовательских работ теперь публикуются с реализациями TensorFlow с открытым исходным кодом, что облегчает сообществу понимание точного использования и воспроизведение или расширение своей собственной работы.
TensorFlow также извлек выгоду из работы других исследовательских групп Google, связанной с открытым исходным кодом, включая TF-GAN, облегченную библиотеку для генеративно-состязательных моделей в TensorFlow, TensorFlow Lattice, набор оценщиков для работы с решетчатыми моделями и TensorFlow Object Recognition API. Библиотека моделей TensorFlow продолжает пополняться новыми и новыми моделями.
В дополнение к TensorFlow мы также выпустили deeplearn.js, приложение API глубокого обучения с открытым исходным кодом и аппаратным ускорением в браузере (загрузка или установка не требуются). На домашней странице deeplearn.js есть много замечательных примеров, в том числе «Образовательная машина» — модель компьютерного зрения, которую можно обучать с помощью веб-камеры, и «Play RNN» — пример игры на фортепиано на основе нейронной сети в реальном времени. В 2018 году мы попытаемся развернуть модели TensorFlow непосредственно в среде deeplearn.js.
TPUs
Около пяти лет назад мы поняли, что глубокое обучение радикально изменит необходимое нам оборудование. Вычисления глубокого обучения очень затратны в вычислительном отношении, но у них есть два особых свойства: они состоят в основном из интенсивных операций линейной алгебры (множение матриц, векторные операции и т. д.) и терпимы к пониженной точности. Следовательно, мы можем воспользоваться этими двумя свойствами для создания специализированного оборудования, которое может очень эффективно выполнять вычисления нейронной сети. Мы предоставили информацию о дизайне команде платформ в Google, которая спроектировала и выпустила наш Tensor Processing Unit (TPU) первого поколения: одночиповую ASIC, предназначенную для ускорения логического вывода на моделях глубокого обучения (логический вывод с использованием предварительно обученной нейронной сети, отличной от обучение). Этот TPU первого поколения находится в нашем центре обработки данных уже три года, и он используется в каждом поисковом запросе Google, Google Translate, изображениях в Google Фото, матче AlphaGo с Ли Седолем и Ке Цзе и многих других исследованиях и продуктах. . В июне мы опубликовали на ISCA 2017 статью, в которой показано, что этот TPU первого поколения в 15–30 раз быстрее и примерно в 30–80 раз быстрее по производительности/мощности, чем современные эквиваленты GPU или CPU.
Вывод важен, но ускорение процесса обучения — более важная и сложная задача. Чем быстрее мы идем, тем больше шансов, что мы совершим больше прорывов. В мае мы анонсировали наш TPU второго поколения на Google I/O, систему (специальные микросхемы ASIC, платы и межсоединения), предназначенную для ускорения обучения и вывода, и мы продемонстрировали конфигурацию одного устройства и устройство под названием TPU Pod. Несколько конфигураций суперкомпьютера для глубокого обучения. Мы объявляем, что эти устройства второго поколения будут доступны на Google Cloud Platform как Cloud TPU. В то же время мы также объявили об инициативе TensorFlow Research Cloud Initiative (TFRC), целью которой является предоставление решений для ведущих исследователей машинного обучения, работающих в кластерах, с бесплатным доступом к 1000 TPU в облаке. В декабре мы смогли обучить модель ResNet-50 ImageNet с высокой точностью на модуле TPU за 22 минуты, задача, на выполнение которой на традиционной рабочей станции ушло бы несколько дней или больше. Мы считаем, что сокращение исследовательского цикла таким образом значительно повысит производительность команды машинного обучения Google и всех организаций, использующих облачные TPU.
Оригинальная ссылка:
research.Google blog.com/2018/01/Он и…
Для большего содержания сухих товаров вы можете обратить внимание на AI Frontline, ID:ai-front, фоновый ответ "AI", "TF", "Большие данные«Вы можете получить серию мини-книг и карт навыков в формате PDF «AI Frontline».