Выпущены лучшие работы NeurIPS 2018: в списке UT Chen Tianqi и Huawei

Google искусственный интеллект алгоритм Нейронные сети
Выпущены лучшие работы NeurIPS 2018: в списке UT Chen Tianqi и Huawei

Опытныйпереименовать,Захватить голосаиОбзор статьиВ ожидании «разогрева» бури 32-й NeurIPS официально открылся в Монреале, Канада, 3 декабря по местному времени. Сердце Машины удостоилось участия в «Первом NeurIPS».

Во вступительном слове в первый день конференции NeurIPS 2018 объявил о отмеченных наградами докладах конференции. Чен Тяньци из Университета Торонто, Хассан Аштиани из Университета Макмастера, Тайлер Лу из Google AI и Кевин Скаман из лаборатории Huawei Noah's Ark Lab стали победителями в номинации «Лучшая бумага».

Насколько популярна NeurIPS как ведущая конференция по искусственному интеллекту? Во-первых, давайте посмотрим на изменение количества участников: 5 000 человек зарегистрировались на конференцию в 2016 году, 8 000 в 2017, почти 9 000 в этом году, а 11-минутная конференция была распродана, уступая только скорости продажи билетов. на концерты Бейонсе.

Что касается мероприятий, то в этом году был добавлен раздел «Экспо», в котором приняли участие 32 компании со всего мира. На выставке Expo 2 декабря компании организовали в общей сложности 15 Talk&Pannel, 17 демонстраций и 10 мастер-классов. Кроме того, вся недельная конференция включает в себя 4 обучающих занятия, 5 приглашенных докладов, 39 семинаров и многое другое.

Что касается статей, NeurIPS 2018 получил в общей сложности 4856 заявок, что является рекордным показателем, и, наконец, принял 1011 статей, в том числе 168 статей Spotlight (3,5%) и 30 устных статей (0,6%).

Эти документы охватывают такие темы, как алгоритмы, глубокое обучение, приложения, обучение с подкреплением и планирование. По словам сопредседателя программы конференции, из этих материалов 69% авторов заявили, что опубликуют код (только 44% результатов), а 42% опубликуют данные.

Топ-10 принятых тем статей

После ознакомления с основной информацией о конференции давайте взглянем на лучшие доклады этого года:

4 награды за лучшую бумагу

Диссертация: нейронные обыкновенные дифференциальные уравнения

  • Рики Т. К. Чен, Юлия Рубанова, Джесси Бетанкур, Дэвид Дювено (все четверо из Института Вектора Университета Торонто)

  • Ссылка: https://papers.nips.cc/paper/7892-neural-ordinary- Differential-equations.pdf

Резюме:В этом исследовании представлено новое семейство моделей глубоких нейронных сетей. Вместо указания дискретной последовательности скрытых слоев мы используем нейронные сети для параметризации производных скрытых состояний. Выход этой сети затем рассчитывается с помощью решателя дифференциального уравнения черного ящика. Стоимость памяти для этих моделей с непрерывной глубиной фиксирована, они корректируют стратегию оценки на основе входных данных и явно жертвуют числовой точностью ради скорости вычислений. Мы демонстрируем свойства непрерывных сетей с глубокими остатками и моделей с непрерывными латентными переменными во времени. Кроме того, мы строим непрерывный нормализованный поток, генеративную модель, которую можно обучать с использованием максимальной вероятности без разделения или сортировки измерений данных. Что касается обучения, мы покажем, как выполнить масштабируемое обратное распространение из произвольного решателя ОДУ без доступа к внутренним операциям решателя ОДУ. Это позволяет проводить сквозное обучение ОДУ также в рамках более крупных моделей.

Рисунок 1: Слева: остаточные сети определяют конечные преобразования дискретных последовательностей. Справа: сеть ОДУ определяет векторное поле, которое непрерывно преобразует состояния. Черный кружок на обоих рисунках представляет место оценки.

Рисунок 4: Сравнение нормализованных и непрерывных нормализованных потоков. Мощность модели нормализованного потока определяется глубиной (K), в то время как непрерывный нормализованный поток может увеличить мощность модели за счет увеличения ширины (M), что облегчает обучение.

Рисунок 6: Расчетный график скрытой модели ОДУ.

Бумага: Почти жесткие границы сложности выборки для обучения смесей гауссианов с помощью схем сжатия выборки

  • Хасан Аштиани, Шай Бен-Давид и др. (Университет Макмастера, Университет Ватерлоо и др.)

  • Ссылка: https://papers.nips.cc/paper/7601-nearly-tight-sample-complexity-bounds-for-learning-mixtures-of-gaussians-via-sample-compression-schemes.pdf

Автор статьи доказывает, чтоВыборки необходимы и достаточны для изучения модели смеси k-гаусса в R ^ d, а ошибка полного вариационного расстояния составляет ε. Это исследование улучшает известные верхнюю и нижнюю границы задачи. Для ориентированных по оси смешанных моделей Гаусса мы показываем, чтоОбразец достаточен и соответствует известному нижнему пределу. Доказательство его верхней границы основано на новом методе распределенного обучения, основанном на концепции сжатия выборки. Любое распределение классов, которое допускает эту схему сжатия образцов, также может быть изучено с очень небольшим количеством образцов. Кроме того, если класс распределений имеет такую ​​схему сжатия, то же самое имеет произведение и смесь этих распределений. Основным результатом этого исследования является демонстрация того, что классы Гаусса в R ^ d имеют эффективное сжатие выборки.

Диссертация: Небрежное Q-обучение и итерация ценности

  • Тайлер Лу (ИИ Google), Дейл Шуурманс (ИИ Google), Крейг Бутилье (ИИ Google)

  • Ссылка: https://papers.nips.cc/paper/8200-non-delusional-q-learning-and-value-iteration.pdf

Резюме:Это исследование раскрывает фундаментальный источник ошибок в Q-обучении и других формах динамического программирования с использованием аппроксимации функций. Бредовая предвзятость возникает, когда приблизительная архитектура ограничивает класс выразимых жадных политик. Поскольку стандартное Q-обновление делает глобально несогласованный выбор действий для выразимых классов политик, это может привести к несогласованным или даже противоречивым оценкам Q-значения, что, в свою очередь, приведет к патологическому поведению, такому как переоценка/недооценка, нестабильность и расхождение. Чтобы решить эту проблему, авторы вводят новую концепцию согласованности политик и определяют процесс локального резервного копирования, который обеспечивает глобальную согласованность за счет использования наборов информации, которые записывают ограничения политики, согласующиеся с Q-значениями резервного копирования. В этой статье показано, что как алгоритмы, основанные на модели, так и алгоритмы без моделей могут использовать эту резервную копию для устранения ошибочной предвзятости, и дает первые известные алгоритмы, которые в целом гарантируют оптимальные результаты. Кроме того, для этих алгоритмов требуются только наборы полиномиальной информации (полученные из базовой экспоненциальной поддержки). Наконец, авторы предлагают другие итерации практической ценности и эвристики Q-обучения, которые пытаются устранить бредовую предвзятость.

Рисунок 1: Простой MDP, показывающий бредовую предвзятость.

Рисунок 2: Планирование и обучение в мире сетки со случайными представлениями функций. «Итерации» на диаграмме относятся к прохождению пар «состояние-действие», за исключением Q-learning и PCQL. Темная линия: расчетное максимально достижимое ожидаемое значение. Светлая линия: фактическое ожидаемое значение, полученное жадной стратегией.

Бумага: Оптимальные алгоритмы для негладкой распределенной оптимизации в сетях

  • Авторы: Кевин Скаман (лаборатория «Ноев ковчег», Huawei), Фрэнсис Бах (Исследовательский университет PSL), Себастьян Бубек (Исследования Microsoft), Инь Тат Ли (Исследования Microsoft), Лоран Массулье (Исследовательский университет PSL).

  • Ссылка: https://papers.nips.cc/paper/7539-optimal-algorithms-for-non-smooth-distributed-optimization-in-networks.pdf

Резюме:В данном исследовании рассматривается распределенная оптимизация негладких выпуклых функций с использованием сети вычислительных блоков. Мы изучаем эту проблему при двух предположениях правил: 1) Липшицева непрерывность глобальной целевой функции, 2) Липшицева непрерывность локальных индивидуальных функций. В локальном предположении мы получаем оптимальный децентрализованный алгоритм первого порядка — многошаговый первично-двойственный алгоритм (MSPD) и соответствующую ему оптимальную скорость сходимости. Важным аспектом этого результата является то, что для негладких функций, хотя доминирующий член ошибки находится в O (1 / sqrt (t)), структура коммуникационной сети влияет только на второй порядок в O (1 / t). ) срок (t – время). То есть ошибка из-за ограничений коммуникационных ресурсов очень быстро уменьшается даже в не сильно выпуклых целевых функциях. В глобальном предположении мы получаем простой, но эффективный алгоритм — алгоритм распределенного рандомизированного сглаживания (DRS), основанный на локальном сглаживании целевой функции. Исследования показали, что оптимальная скорость сходимости для DRS находится в пределах множителя d^(1/4) (где d — скрытая размерность).

Премия "Испытание временем"

Прошлогодняя классическая статья была присуждена методу обучения ускорению функций ядра, а классическая статья этого года также является частичной теоретической исследовательской работой Все они относятся к 2007 году.

Диссертация: Компромиссы крупномасштабного обучения

  • Леон Ботту (лаборатории NEC в Америке), Оливье Буске (Google)

  • Ссылка: https://papers.nips.cc/paper/3323-the-tradeoffs-of-large-scale-learning.pdf

Вклад этой статьи заключается в разработке теоретической основы, учитывающей влияние приближенной оптимизации на алгоритмы обучения. Этот анализ демонстрирует существенный компромисс между мелкомасштабным и крупномасштабным обучением. Маломасштабное обучение страдает от общих приблизительных компромиссов при оценке, в то время как крупномасштабные задачи обучения часто требуют качественно иных компромиссов, и этот компромисс связан с вычислительной сложностью лежащего в основе алгоритма оптимизации, который по существу неразрешим.

Таблица 2: Асимптотические результаты алгоритма градиентного спуска, предпоследний столбец — это время оптимизации для достижения уровня точности, а последний столбец — это время оптимизации для достижения эпсилон, превышающего частоту ошибок теста. где d — размерность параметра, а n — количество выборок.

Компания Heart of Machines, приглашенная на эту конференцию, приехала в Монреаль и приняла участие в этой конференции NeruIPS. Следите за нашими последними репортажами в ближайшие дни.

Ссылки на документы, связанные с NeurIPS 2018:

NeurIPS 2018 Ahead Look: биология и алгоритмы обучения
NeurIPS 2018, лучшие доклады могут быть скрыты в этих 30 устных докладах
NeurIPS 2018 | Tencent AI Lab и Пекинский университет предложили невыпуклую оптимизацию дифференциальных оценок на основе случайных интегралов по путям
Избранные материалы для чтения с NeurIPS 2018: графовые сети и реляционное представление в глубоком обучении
NeurIPS 2018 Ahead Look: Визуализация возможностей обобщения нейронных сетей
Google AI предлагает новый метод распознавания объектов: сквозное обнаружение оптимальных ключевых точек 3D для похожих объектов — превью NeurIPS 2018
Массачусетский технологический институт и др. предложили NS-VQA: визуальные ответы на вопросы, сочетающие глубокое обучение и символическое рассуждение.
Нарисуйте эскиз для создания видео высокой четкости 2K, это удивительное исследование того стоит.
Следующий ГАН? OpenAI предлагает обратимую генеративную модель Glow
CMU, NYU и FAIR совместно предлагают GLoMo: новую парадигму трансферного обучения
Куок Ле предложил DropBlock, метод регуляризации, эксклюзивный для сверточных сетей.
Edward2.2, вероятностное программирование, которое можно обучать в масштабе с помощью TPU.
Алгоритм обнаружения неорганизованных вредоносных атак UMA, предложенный NTU Zhou Zhihua et al.
Новое исследование Массачусетского технологического института проникает в принцип пакетной нормализации
Новый прорыв в переводе программ: Калифорнийский университет в Беркли предлагает нейросеть для перевода программ из дерева в дерево
Сокращение объема памяти RNN на 90%: Университет Торонто предлагает обратимую рекуррентную нейронную сеть
Какой метод характеризации подходит для вашей задачи? Ян Гудфеллоу предлагает юзабилити-тестирование для карт значимости
Повторное распознавание пешеходов попрощалось со вспомогательной информацией о позе, Шан Тан и Университет науки и технологий Китая предложили извлечение признаков, не зависящих от осанки, GAN
Многозадачное обучение как многоцелевая оптимизация: поиск оптимальных по Парето решений
Возможно, придется изменить отсев, и такие исследователи, как Хинтон, предложили целевое отсев, аналогичный обрезке.
Используя процесс реконструкции капсулы, Хинтон и др. добиваются автоматического обнаружения враждебных примеров.