В статьях на этой неделе представлены как лучшие статьи EMNLP 2019, так и новая модель Facebook, достигающая результатов SOTA по нескольким тестам межъязыкового понимания, и правило оптимального обучения 85%, разработанное Nature Communications.
Организовано сердцем машины, участие: Du Wei, Yiming.
содержание:
- Специализация вложений слов (для синтаксического анализа) по информационным узким местам
- Loss Landscape Sightseeing with Multi-Point Optimization
- Unsupervised Cross-lingual Representation Learning at Scale
- Understanding the Role of Momentum in Stochastic Gradient Methods
- The Visual Task Adaptation Benchmark
- The Eighty Five Percent Rule for optimal learning
- Confident Learning: Estimating Uncertainty in Dataset Labels
Документ 1: Специализация вложений слов (для синтаксического анализа) по информационным узким местам
- Сян Лиза Ли, Джейсон Эйснер
- Ссылка на бумагу:В это время. Почти. Количество/~Джейсон/ Боюсь...f
Аннотация. Предварительно обученные векторы слов, такие как ELMo и BERT, содержат богатую синтаксическую и семантическую информацию, что позволяет этим моделям достигать самых современных результатов в различных задачах. В этой статье мы предлагаем очень быстрый метод вариационного информационного узкого места, который сжимает эти вложения нелинейным образом, сохраняя только информацию, которая может помочь синтаксическому анализатору. Исследователи сжимают каждое встраивание слова в дискретную метку или непрерывный вектор. В дискретном режиме сжатые дискретные метки могут быть сформированы в альтернативный набор меток. Эксперименты показывают, что этот набор тегов может захватить большую часть информации традиционных тегов POS, и эта последовательность тегов является более точной в процессе разбора грамматики (в случае аналогичного качества тегов). В непрерывном режиме исследователи с помощью экспериментов показывают, что правильное сжатие встраивания слов может создавать более точные синтаксические анализаторы на восьми языках. Это лучше, чем простые методы уменьшения размерности.
Рисунок 1. Исследователи используют переменную узкого места T для создания экземпляра информационного узкого места.
Рекомендация: Оба автора этой статьи из Университета Джона Хопкинса, и один из них — китайский ученый. На конференции EMNLP-IJCNLP 2019, которая завершилась в Гонконге 7 ноября, эта статья получила награду за лучшую работу конференции.
Документ 2: Обзор ландшафта потерь с многоточечной оптимизацией
- Авторы: Иван Скороходов, Михаил Бурцев
- Ссылка на статью: https://arxiv.org/abs/1910.03867
- Адрес проекта: https://github.com/universome/loss-patterns
Аннотация: В этой статье исследователи предлагают метод многоточечной оптимизации, который не только одновременно обучает несколько моделей, но и не требует сохранения параметров каждой модели отдельно. Кроме того, этот метод оптимизации используется для проведения всестороннего эмпирического анализа профиля потерь нейронных сетей. Обширные эксперименты с наборами данных FashionMNIST и CIFAR10 показывают, что: 1) поверхность потерь демонстрирует удивительное разнообразие с точки зрения содержащихся в ней ландшафтных паттернов; 2) добавление пакетной нормализации делает ее более надежной.
Рисунок 1: Примеры поверхностей потерь для типичных моделей CNN в наборах данных FashionMNIST (a) и CIFAR10 (b).
Рисунок 2: Метод многоточечной оптимизации для подбора 2D-образца в наборе данных FashionMNIST.
Рекомендуется: эта статья из лаборатории нейронных сетей и глубокого обучения Московского физико-технического института знакомит читателей со многими преимуществами многоточечной оптимизации при обучении моделей.
Бумага 3: неповторимое скрещиваемое представление, обучение в масштабе
- Автор: Алексис Конно, Картикай Ханделвал, Наман Гоял, Вишрав Чаудхари, Гийом Вензек и др.
- Ссылка на бумагу:АР Вест V.org/ABS/1911.02…
Аннотация: В этой статье показано, что предварительное обучение многоязычных моделей в масштабе может значительно повысить производительность для различных задач межъязыкового перевода. Используя более 2 ТБ отфильтрованных данных CommonCrawl, мы обучили языковые модели масок на основе Transformer для 100 языков. Модель, получившая название XLM-R, значительно превзошла многоязычный BERT (mBERT) в различных межъязыковых тестах со средней точностью +13,8% для XNLI и средним баллом F1 +12,3% для MLQA, в то время как средний балл F1 для FQ составляет +2,1% NER. XLM-R особенно хорошо работает на языках с низким уровнем ресурсов: точность XNLI для суахили повысилась на 11,8 %, а для урду — на 9,2 % по сравнению с предыдущими моделями XLM. Мы также проводим детальную эмпирическую оценку ключевых факторов, необходимых для достижения этих улучшений, включая (1) агрессивную передачу и разбавление емкости и (2) компромиссы между высокой и низкой производительностью крупномасштабных ресурсных ресурсов. Наконец, они впервые демонстрируют возможность многоязычного моделирования без ущерба для языковой производительности. XLM-Ris очень конкурентоспособен с сильными одноязычными моделями в тестах GLUE и XNLI.
Рисунок 1: Результаты межъязыковой классификации. Исследователи показывают точность и среднюю точность различных моделей на 15 языках XNLI. Все модели XLM-R, предложенные в этой статье, достигают результатов SOTA.
Таблица 1: Результаты распознавания именованных объектов различных моделей на CoNLL-2002 и CoNLL-2003 (оценка F1). Можно видеть, что модель XLM-R, предложенная в этой статье, достигает результатов SOTA в nl и es.
Рекомендация: Модель XLM-R, предложенная в этой статье Facebook, представляет собой модель языка маски на основе Transformer, которая значительно превосходит BERT (mBERT) в нескольких тестах на понимание разных языков.
Документ 4: Понимание роли импульса в методах стохастического градиента
- Авторы: Игорь Гитман, Хантер Ланг, Пэнчуань Чжан, Линь Сяо
- Ссылка на статью: https://arxiv.org/abs/1910.13962v1
Аннотация: Использование импульса в стохастических градиентных методах стало широко распространенной практикой в области машинного обучения. Различные варианты импульса, в том числе импульс тяжелой сферы, ускоренный градиент Нестерова (NAG) и квазигиперболический импульс (QHM), были успешными в различных задачах. Несмотря на эмпирический успех, отсутствует четкое понимание того, как параметр импульса влияет на сходимость и различные показатели производительности различных алгоритмов. В этой статье мы используем общий подход QHM для выполнения объединенного анализа нескольких популярных алгоритмов, охватывая их асимптотические условия сходимости, устойчивые области и свойства стационарных распределений. Кроме того, объединяя результаты скоростей сходимости и стационарных распределений, исследователи иногда получают парадоксальные практические рекомендации по настройке параметров скорости обучения и импульса.
Рекомендуется: в этом документе Microsoft Research AI подробно рассматривается влияние параметров импульса в стохастических градиентах на показатели сходимости и производительности в различных алгоритмах.
Бумага 5: Тест адаптации визуальной задачи
- Авторы: Сяохуа Чжай, Джоан Пучсервер, Александр Колесников, Пьер Рюйссен и др.
- Ссылка на статью: https://arxiv.org/abs/1910.04867
Аннотация: Глубокое обучение внесло много изменений в область компьютерного зрения. Среди них современные глубокие сети, способные изучать полезные представления непосредственно из необработанных пикселей, что приводит к беспрецедентной производительности при выполнении многочисленных задач зрения. Однако изучение этих представлений «с нуля» обычно требует большого количества обучающих выборок. Чтобы решить эту проблему, Google AI запустил «Эталон адаптации визуальных задач» (VTAB). Это разнообразный, реалистичный и сложный критерий характеристики. Этот эталонный тест основан на том принципе, что при ограниченных данных в нужной области лучшее представление должно обеспечивать более высокую производительность в невидимых задачах. Вдохновленный некоторыми эталонными тестами, которые привели к прогрессу в других областях машинного обучения, таких как ImageNet для классификации естественных изображений, GLUE для обработки естественного языка и Atari для обучения с подкреплением, VTAB следует аналогичным рекомендациям: креативность; (ii) сосредоточиться на практичности; (iii) использовать сложные задачи для оценки.
Схема эталонного теста VTAB.
Рекомендация: хорошо известно, что существуют наборы данных ImageNet в области классификации изображений и тесты GLUE в области обработки естественного языка, и эти тесты сыграли важную роль в развитии соответствующих областей. Наконец, Google запустил VTAB (Visual Task Adaptation Benchmark), тест в области визуальной адаптации задач, который помогает пользователям лучше понять, какие визуальные представления можно обобщить для других новых задач, тем самым снижая все требования к визуальным данным для задачи.
Документ 6: Правило восьмидесяти пяти процентов для оптимального обучения
- Роберт С. Уилсон, Амитай Шенхав, Марк Страччиа, Джонатан Д. Коэн
- Ссылка на статью: https://www.nature.com/articles/s41467-019-12552-4
- Адрес проекта: https://github.com/bobUA/EightyFivePercentRule
Аннотация: Исследователи и преподаватели давно задавались вопросом, как лучше обучать своих клиентов — будь то люди, животные или машины. В этой статье мы исследуем влияние одной переменной, сложности обучения, на скорость обучения. Во многих случаях они обнаружили, что существует «золотая середина», когда обучение не было ни слишком легким, ни слишком сложным, и обучение продвигалось быстрее всего. Исследователи вывели условия для «наилучшего результата» для ряда алгоритмов обучения в контексте задач бинарной классификации. Для всех этих алгоритмов обучения на основе стохастического градиента они обнаружили, что оптимальная частота ошибок для обучения составляет около 15,87%, и, наоборот, оптимальная скорость обучения составляет около 85%. Исследования продемонстрировали полезность «правила 85%» для искусственных нейронных сетей и биологически правдоподобных нейронных сетей, используемых в ИИ, которые, как считается, описывают обучение животных. Исследования продемонстрировали эффективность «правила 85%» для искусственных нейронных сетей, используемых в ИИ, а также биологически правдоподобных нейронных сетей, которые, как считается, описывают обучение у животных.
«Правило 85%» применялось к персептронам. a По оси абсцисс отложена частота ошибок при каждом обучении, а по оси ординат — номер попытки. Цвет на рисунке представляет точность обученной сети. Чем желтее цвет, тем выше точность, и чем голубее цвет, тем ниже точность. b Абсцисса представляет количество тренировок, а ордината представляет относительную точность Кривые представляют коэффициенты ошибок 0,36, 0,06 и 0,16 соответственно. Видно, что увеличение относительной точности происходит быстрее всего при частоте ошибок 0,16. Это показывает, что 0,16 (около 15,87%) является оптимальной частотой ошибок при обучении.
Рекомендуется: это статья, опубликованная в Nature Communications, в которой подробно описывается правило 85% для оптимального обучения.
Документ 7: Уверенное обучение: оценка неопределенности в метках наборов данных
- Авторы: Кертис Г. Норткатт, Лу Цзян, Исаак Л. Чуанг
- Ссылка на статью: https://arxiv.org/abs/1911.00068
- Адрес проекта: https://pypi.org/project/cleanlab/
Аннотация: обучение существует в контексте данных, и понятие достоверности обычно фокусируется на прогнозах модели, а не на качестве маркировки. Основанный на принципах сокращения зашумленных данных, подсчета для оценки шума и упорядочивания примеров для обучения уверенности, уверенное обучение (CL) стало методом характеризации, идентификации и изучения зашумленных меток в наборах данных. В этой статье мы обобщаем CL на основе предположения о процессе классификации шума, чтобы напрямую оценить совместное распределение между зашумленными (заданными) метками и чистыми (неизвестными) метками. Показано, что этот обобщенный CL с открытым исходным кодом как cleanlab совместим в разумных условиях и имеет экспериментальную производительность на наборах данных ImageNet и CIFAR, превосходя современные методы, такие как высокая производительность, когда шум метки неоднороден MentorNet 30% или более. cleanlab также может количественно определять перекрытие классов онтологий и повышать точность модели (например, ResNet), предоставляя чистые данные для обучения.
Рисунок 1: Пример процесса доверительного обучения (CL) и совместного распределения доверительных узлов и оценок.
Рис. 2. Исследователи делают совместные оценки шума меток распределения для CIFAR с шумом меток 40% и разреженностью 60%.
Рекомендуется: в этой статье Массачусетского технологического института и Google обобщается доверительное обучение (CL), делая предположения о шуме классификации, что позволяет напрямую оценивать совместное распределение между зашумленными и чистыми метками.