Принятые документы ICLR 2018 опубликованы давно, ссылка:Уже поздно GitHub.IO/open review E…
Недавно были собраны и классифицированы тезисы и официальные оценки некоторых из этих статей, включая распределенное обучение, сжатие моделей, оптимизацию обучения моделей, генеративные модели и т. д., и предоставлены всем.Если вам интересно, вы можете посмотреть и узнайте об академическом сообществе.
Распределенное обучение
Deep Gradient Compression: Reducing the Communication Bandwidth for Distributed Training
Резюме:Для крупномасштабного распределенного обучения требуется большая полоса пропускания для обмена градиентами, что ограничивает масштабируемость многоузлового обучения и требует дорогостоящей сетевой инфраструктуры с высокой пропускной способностью. Ситуация ухудшается при выполнении распределенного обучения (федеративного обучения) на мобильных устройствах, что может привести к более высокой задержке, более низкой пропускной способности и периодическим плохим связям. В этой статье показано, что 99,9% градиентных обменов в распределенном SGD являются избыточными, и предлагается глубокое сжатие градиента (DGC) для значительного уменьшения пропускной способности канала связи. Для поддержания точности во время сжатия DGC использует четыре метода: коррекция импульса, отсечение локального градиента, маскирование коэффициента импульса и разминка. в сифаре 10. В нескольких наборах данных, таких как ImageNet, Penn Treebank и Librispeech corpus, мы применяем глубокое градиентное сжатие для классификации изображений, распознавания речи и языкового моделирования. В этих сценариях Deep Gradient Compression обеспечивает коэффициент сжатия градиента в диапазоне от 270 до 600 раз без потери точности, уменьшая размер градиента ResNet-50 с 97 МБ до 0,35 МБ и размер градиента Deep Speech с 480 МБ до 0,74 МБ. Сжатие с глубоким градиентом позволяет проводить крупномасштабное распределенное обучение в недорогом коммерческом Ethernet 1 Гбит/с и облегчает распределенное обучение на мобильных устройствах.
Официальная оценка ICLR:В этой статье предлагается гибридная обучающая система с глубокой сетью для крупномасштабного распределенного совместного обучения. Интерес к этому вопросу широко распространен, и эти подходы могут оказать существенное влияние, о чем свидетельствует активное и интересное обсуждение этой работы. Оригинальность исследования сначала подвергалась сомнению, но, похоже, теперь авторы добавили дополнительные ссылки и сравнения.
Рецензенты разделились во мнениях относительно ясности самой статьи. Один указал, что это «в целом ясно», но другой посчитал, что это слишком запутанно и неорганизованно и нуждается в более четком объяснении. Рецензенты также обеспокоены тем, что эти методы несколько эвристичны и могут выиграть от большей детализации. На форумах также много вопросов по этим деталям, которые должны быть исправлены в следующем релизе. Главной изюминкой этой работы являются экспериментальные результаты, которые рецензенты называют «тщательными» и отмечают их убедительность.
сжатие модели
Model compression via distillation and quantization
Резюме:Глубокие нейронные сети (ГНС) продолжают добиваться значительных успехов в решении таких задач, как классификация изображений, перевод и обучение с подкреплением. Одной из областей, которая привлекла значительное внимание, является эффективное использование моделей глубокого обучения в средах с ограниченными ресурсами, таких как мобильные или встроенные устройства. Эта статья решает эту проблему и предлагает два новых метода сжатия, которые совместно применяют квантование весов и извлечение из более крупной сети учителей в меньшую сеть учеников. Первый подход, который мы предлагаем, называемый квантовой дистилляцией, использует прореживание во время обучения, включая потерю прореживания (относительно представления сети учителя) в обучение сети ученика, веса которой квантуются до конечного набора уровней. Второй метод является дифференцируемым, который оптимизирует расположение точек квантования с помощью стохастического градиентного спуска, чтобы лучше соответствовать поведению сетевой модели учителя. Эффективность этих двух методов подтверждена экспериментами на сверточных и рекурсивных структурах. Экспериментальные результаты показывают, что квантованная неглубокая сеть учеников может достичь уровня точности, аналогичного модели сети учителей с полной точностью, при этом достигается сжатие порядка величины и линейное ускорение вывода глубокой сети. В совокупности наши результаты позволяют DNN для сред с ограниченными ресурсами использовать преимущества архитектуры и улучшения точности, разработанные на более мощных устройствах.
Официальная оценка ICLR:В данной статье предлагается новый метод количественной оценки. Метод довольно прост и кратко описан в Алгоритме 1. Что еще более интересно, анализ показывает взаимосвязь между квантованием и гауссовским шумом (Приложение B) — возбуждающее квантование как регуляризацию.
В документе разумно сочетаются эмпирические и теоретические результаты, что обосновывает простой в реализации алгоритм. Все три рецензента рекомендовали принять.
Apprentice: Using Knowledge Distillation Techniques To Improve Low-Precision Network Accuracy
Резюме:Сети глубокого обучения достигли высочайшей точности в приложениях компьютерного зрения, таких как классификация изображений и обнаружение объектов. Однако производительные системы часто включают большие модели со многими параметрами. После обучения сложным аспектом таких высокопроизводительных моделей является развертывание в системах логического вывода с ограниченными ресурсами — эти модели (обычно более глубокие сети или более широкие сети или и то, и другое) требуют больших вычислительных ресурсов и памяти. Численные вычисления с низкой точностью и сжатие моделей с использованием извлечения знаний — распространенные методы снижения вычислительных требований и объема памяти для этих развернутых моделей. В этой статье исследуется комбинация этих двух методов и показано, что использование методов извлечения знаний может значительно повысить производительность сетей низкой точности. Мы называем наш метод Apprentice и демонстрируем современную точность, используя троичную и 4-битную точность в наборе данных ImageNet. Мы исследуем три сценария, в которых можно применять методы извлечения знаний на различных этапах конвейера обучения и развертывания.
Официальная оценка ICLR:В этой статье низкоточные вычисления сочетаются с различными методами извлечения знаний между учителем и учеником. Экспериментальные результаты хорошие, и экспериментальный анализ хороший. Написано очень четко. Его основной вклад заключается в сочетании различных форм методов извлечения знаний «учитель-ученик» и низкоточных методов квантования.
профессиональный:
- Хороший практический вклад
- хороший эксперимент
- хороший анализ
- хорошо написан
недостаток:
- ограниченное творчество
Alternating Multi-bit Quantization for Recurrent Neural Networks
Резюме:Рекуррентные нейронные сети достигли хорошей производительности во многих приложениях. Однако на портативных устройствах с ограниченными ресурсами модели часто слишком велики для развертывания. Для приложений с массовым одновременным выполнением запросов к серверу задержка во время обращения также может иметь решающее значение для дорогостоящих вычислительных ресурсов. В этой работе мы решаем эти проблемы, квантуя веса и активации сети в несколько двоичных кодов {-1, +1}. Мы формулируем квантование как задачу оптимизации. В случае фиксированных коэффициентов квантования двоичный код может быть эффективно получен с помощью двоичного дерева поиска, а затем применяется метод попеременной минимизации. Мы проверили квантование двух хорошо известных моделей rnn на языковых моделях, блоке долговременной кратковременной памяти ( LSTM) и Gated Recurent Unit (GRU). По сравнению с частью счетчика с полной точностью, с 2-битным квантованием, на ЦП достигается примерно 16-кратная экономия памяти и примерно 6-кратное ускорение фактического вывода с меньшей потерей точности. С 3-битным квантованием мы почти не теряем точности, даже превосходя исходную модель, сохраняя ~10,5x памяти и ~3x фактическое ускорение логического вывода. Оба результата превзошли существующие работы по квантованию на большие кратные. Мы распространяем попеременное квантование на задачи классификации изображений. Этот метод также обеспечивает хорошую производительность в RNN и нейронных сетях с прямой связью.
Официальная оценка ICLR:Рецензенты согласились, что эта статья достойна публикации в ICLR. Пожалуйста, ответьте на отзыв рецензента и подробно обсудите в приложении, как рассчитывается потенциальная скорость ускорения. Ускорил скорость для разных устройств.
Variational Network Quantization
Резюме:В данной статье задача построения обрезающих и малобитовых квантованных нейронных сетей сводится к задаче вариационного вывода. С этой целью вводится квантованное априорное значение, которое приводит к мультимодальному апостериорному распределению разреженного веса, и выводится дифференцируемое приближение расхождения Кульбака-Лейблера для этого априорного распределения. После обучения с квантованием вариационной сети веса могут быть заменены детерминированными квантованными значениями с небольшой или незначительной потерей точности для связанных задач (включая обрезку путем установки весов в 0). Этот метод не требует тонкой настройки после квантования. Приведены результаты трехзначного квантования для LeNet-5 (MNIST) и Densent (CIFAR-10).
Официальная оценка ICLR:В этой статье представлен вариационный байесовский подход к количественной оценке весов нейронных сетей и представлены интересные и полезные шаги в становящейся все более популярной области глубокого обучения.
Оптимизация модели
On the Convergence of Adam and Beyond
Резюме:Несколько недавно предложенных методов стохастической оптимизации были успешно использованы для обучения глубоких сетей, таких как RMSProp, Adam, Adadelta, Nadam, которые обновляются на основе градиентов, величина которых контролируется экспоненциальным скользящим средним прошлых квадратов градиента. Эмпирически было замечено, что во многих приложениях, таких как задачи обучения с большими выходными пространствами, эти алгоритмы не сходятся к оптимальным решениям (или критическим точкам в невыпуклых сценариях). Мы показываем, что одной из причин этой неудачи является экспоненциальное скользящее среднее, используемое в алгоритме. В этой статье приводится пример простого сценария выпуклой оптимизации, в котором Адам не сходится к оптимальному решению, и точно описывает проблему с помощью предыдущего анализа алгоритма Адама. Наш анализ показывает, что проблему сходимости можно решить, наделив такие алгоритмы «долговременной памятью» прошлых градиентов, и предлагает новый вариант алгоритма Адама, который не только решает проблему сходимости, но и приводит к большому улучшению производительности.
Официальная оценка ICLR:В этой статье анализируется проблема сходимости Адама и дается ее решение. В этой статье указывается на ошибку в проблеме сходимости Адама (которая также применима к родственным методам, таким как RMSProp) и приводится простой пример, который не может сходиться. Затем алгоритм фиксируется с гарантированной сходимостью без значительных вычислительных затрат или затрат памяти. Эта статья вызывает большой интерес: Адам — широко используемый алгоритм, но иногда он не так эффективен, как SGD, в некоторых задачах, что может быть частью объяснения. Решение принципиальное и практичное. В целом, это сильная бумага, и я рекомендую принять ее.
SGD Learns Over-parameterized Networks that Provably Generalize on Linearly Separable Data
Резюме:Нейронные сети имеют хорошие характеристики обобщения, когда параметры сети превышают наблюдаемые значения. Однако границы обобщения современных нейронных сетей не могут объяснить это явление. Чтобы исправить этот недостаток, мы изучаем задачу обучения двухслойной нейронной сети с гиперпараметрами, когда данные генерируются линейно разделимой функцией. Мы предоставляем гарантии оптимизации и обобщения для параметризованных сетей при наличии активаций Leaky ReLU в сети. В частности, мы показываем, что скорость сходимости SGD является глобальным минимумом, и предоставляем гарантию обобщения для этого глобального минимума, который не зависит от размера сети. Таким образом, наши результаты ясно показывают, что оптимизация с использованием SGD может как найти глобальный минимум, так и избежать переобучения, когда емкость модели слишком велика. Это первое теоретическое доказательство того, что SGD может избежать переобучения, когда он изучил указанный классификатор нейронной сети.
Официальная оценка ICLR:Это высококачественная статья, четко написанная, очень оригинальная и содержательная. В этой статье проводится полный анализ SGD в двухуровневой сети, где сеть второго уровня не обучена, а данные линейно разделимы. Экспериментальные результаты подтверждают теоретическую гипотезу о том, что сеть второго слоя может быть обучена до тех пор, пока знаки весов не меняются и остаются ограниченными. Авторы обсуждают главный вопрос рецензента (т.е. предполагают, что эти результаты являются ориентировочными). Это направление работы кажется многообещающим.
Fraternal Dropout
Резюме:Рекуррентные нейронные сети (RNN) представляют собой важный класс моделей нейронных сетей для языкового моделирования и прогнозирования последовательности. Однако оптимизировать RNN сложнее, чем оптимизировать нейронные сети с прямой связью. В литературе предложено множество методов для решения этой проблемы. В этой статье предлагается простой метод под названием Fraternal Dropout, который использует отсев для достижения этой цели. В частности, мы предлагаем обучать две идентичные копии RNN (общие параметры) с разными значениями отсева, минимизируя при этом разницу между их (до операций softmax) предсказаниями. Таким образом, наша операция регуляризации способствует тому, чтобы представления RNN были инвариантными к разным значениям отсева и, следовательно, надежными. Мы показываем, что верхней границей нашего члена регуляризации является целевая функция отсева, линейная по ожиданиям, и эта цель (объект) отсева, линейная по ожиданиям, устраняет разрыв из-за разницы в отсевах между обучением и выводом. Мы оцениваем нашу модель на двух эталонных наборах данных ( На Penn Treebank и Wikitext - 2) были достигнуты самые современные результаты для задач моделирования последовательностей. Мы также демонстрируем, что наш метод может значительно повысить производительность в задачах аннотирования изображений (Microsoft COCO) и частично контролируемых задачах (CIFAR-10).
Официальная оценка ICLR:В этой статье исследуется вариант отсева, называемый братским отсевом. Этот метод тесно связан с ожидаемым линейным отсевом, поэтому он имеет определенную инкрементальность. Тем не менее, братское отсев действительно улучшает современные результаты языковой модели на PTB и викитексте 2 примерно на 0,5–1,7 недоумения. Статья хорошо написана и технически выглядит хорошо.
Некоторые обозреватели жаловались, что авторы могли бы провести более тщательный поиск гиперпараметров для модели братского отсева. Авторы, кажется, частично рассмотрели эти вопросы, и, честно говоря, я не совсем согласен. Выполняя лишь ограниченную оптимизацию гиперпараметров, авторы ставят собственный подход в невыгодное положение. Во всяком случае, их метод обеспечивает высокую производительность, несмотря на этот недостаток (по сравнению с очень сильными базовыми моделями), который заключается в поддержке братских
Причина отсева.
Adaptive Dropout with Rademacher Complexity Regularization
Резюме:Мы предлагаем фреймворк адаптивной настройки глубокой нейронной сети, основанный на границе сложности Радемахера. Существующие алгоритмы глубокого обучения используют отсев, чтобы предотвратить переоснащение обучения признакам. Однако выбор отсева по-прежнему является эвристикой или поиском по сетке, который опирается на опыт работы с некоторым пространством гиперпараметров. В этой статье показано, что сложность сети по Радемахеру определяется функцией, связанной с метриками коэффициента отсева и весового коэффициента. Впоследствии мы используем это ограничение в качестве члена регуляризации и предоставляем Теоретически обоснованный подход к компромиссу между властью. Таким образом, отсев и эмпирические потери объединяются в одну и ту же целевую функцию, которая затем оптимизируется с использованием алгоритма блочного координатного спуска. Мы обнаружили, что адаптивно настроенное отсев сходится к некоторым интересным распределениям, которые выявляют некоторые значимые закономерности. Эксперименты, связанные с классификацией изображений и документов, также показывают, что предлагаемый метод имеет лучшую производительность, чем существующие алгоритмы исключения.
Официальная оценка ICLR:Рецензенты согласились с тем, что эта работа затрагивает важный вопрос. Были разногласия по поводу правильности аргументов в статье: одного из рецензентов в конце концов удалось убедить. Еще в прошлой статье указал на две другие проблемы, но вроде бы 1. Первый способ прост и удобен в исполнении, и на правильность эксперимента не влияет. 2. Вторая проблема решена во второй ревизии. В идеале их должен перепроверить третий рецензент, но ответственность за правильность окончательной работы лежит на авторах.
Adversarial Dropout Regularization
Резюме:В этой статье предлагается метод адаптации домена для переноса нейронных представлений из богатого метками исходного домена в немеченый целевой домен. Недавно предложенные состязательные методы для этой задачи изучают функции междоменного выравнивания, «обманывая» специальную сеть классификатора домена. Однако недостатком этого подхода является то, что классификатор домена просто помечает сгенерированные объекты как внутри домена или вне домена, независимо от границ между классами. Это означает, что размытые признаки объектов могут создаваться вблизи границ классов, что снижает точность классификации объектов. Мы предлагаем новый метод, состязательную регуляризацию отсева ( ADR), что побуждает генератор выводить более отличительные признаки для целевого домена. Наша основная идея состоит в том, чтобы заменить традиционную критику критикой, которая использует отсев в сети классификатора для обнаружения недискриминационного признака. Затем генератор учится избегать этих областей пространства признаков, создавая лучшие признаки. Мы применяем метод ADR к проблеме неконтролируемой адаптации домена в задачах классификации изображений и семантической сегментации и демонстрируем значительные улучшения по сравнению с современным уровнем техники.
Официальная оценка ICLR:Рецензенты в целом согласны с тем, что этот подход представляет собой практичный и интересный подход к неконтролируемой адаптации домена. Один рецензент был обеспокоен оптимальными сравнениями, связанными с базовыми уровнями, но эти проблемы были решены в более поздних версиях.
Кроме того, существуют проблемы с правильностью из-за человеческих орфографических ошибок. Основываясь на этих ответах и псевдокоде, результаты кажутся хорошими, как и отчет о цели энтропии.
Возможно, вы захотите рассмотреть возможность отказа от примера, приведенного рецензентом 2, где вы хотите, чтобы метод не работал. Это поможет исследователям использовать и воспроизводить вашу статью.
лучшая бумага
Certifying Some Distributional Robustness with Principled Adversarial Training
Резюме:Нейронные сети уязвимы для враждебных примеров, и исследователи предложили множество эвристических механизмов атаки и защиты. Мы решаем эту проблему через принципиальную призму распределенной надежной оптимизации, которая гарантирует производительность при враждебных входных возмущениях. Рассматривая лагранжеву штрафную функцию за нарушение базового распределения данных в сфере Вассерштейна, мы предлагаем метод обучения, который использует возмущения обучающих данных в наихудшем случае для обновления расширенных обновлений параметров модели. Для плавных потерь наш метод может обеспечить умеренную степень надежности с небольшими вычислительными или статистическими затратами по сравнению с минимизацией эмпирического риска. Кроме того, наши статистические данные позволяют нам эффективно демонстрировать устойчивость к групповым потерям. Для незаметных возмущений наш метод соответствует или превосходит эвристику.
Официальная оценка ICLR:Статья была высоко оценена рецензентами за высокое качество и оригинальность. Вопросы, затронутые в статье, обширны и важны.
Статья также привлекла внимание других полевых экспертов, которые скептически отнеслись к утверждениям статьи. Кажется, нет проблем с техническими достоинствами, но есть сомнения в его интерпретации/применении. Восприятие группой того, была ли в значительной степени решена важная проблема, может повлиять на выбор других рецензентов при принятии решений, оценке и т. д. Важно отметить, что защита носит консервативный характер и подчеркивает, что текущая работа не решает должным образом более широкую проблему состязательных примеров.
Наконец, мы считаем, что эта статья будет представлять большой интерес как для научных кругов, так и для промышленности. На авторов также была возложена ответственность за рассмотрение вопросов, поднятых в их окончательной редакции экспертами вне поля (впоследствии одобренными Консультативным комитетом).
Последнее замечание: в своих ответах неспециалистам в данной области авторы несколько раз указывали, что гарантии, сделанные в этой статье, формально ничем не отличаются от заявлений стандартной теории обучения: «Однако эта критика применима ко многим результатам теории обучения. (в том числе применительно к глубокому обучению)». Я не нахожу утешения в этом утверждении. Теоретики обучения обычно сосредотачиваются на форме границы (
sqrt(m) зависит от весов и не зависит от них), а затем они используют соответствующие эмпирические наблюдения, чтобы показать, что значение границы является предиктивным для обобщения. Границы часто бессмысленны («вакуум») при оценке на реальных наборах данных. (Есть несколько недавних примеров, подтверждающих эту тенденцию. В некотором смысле теоретики обучения упростили задачу. Однако состязательные примеры связаны с безопасностью, так что на карту поставлено больше. В этом новом контексте, возможно, наша терпимость к небрежности со стороны теоретиков обучения неуместна. , Я стою на том, что авторы четко объясняют, что нужно сделать, чтобы перейти от «достаточно хорошей теории обучения» к «достаточно хорошей безопасности». Авторы обещают перечислить важные будущие работы / общественные проблемы для общества. Я определенно поощряю это.
машинный перевод
Unsupervised Machine Translation Using Monolingual Corpora Only
Резюме:В последние годы машинный перевод достиг впечатляющих результатов благодаря появлению глубокого обучения и массовых параллельных корпусов. Было предпринято много попыток распространить эти успехи на языковые пары с низким ресурсом (языки с недостаточным корпусом), но требующие десятков тысяч параллельных операторов. В этой работе мы доводим это направление исследований до крайности и исследуем возможность обучения переводу даже без каких-либо параллельных данных. В этой статье предлагается модель, которая извлекает предложения из одноязычных корпусов на двух разных языках и отображает их в одно и то же латентное пространство. Научившись реконструировать два языка на основе этого общего пространства признаков, модель эффективно учится переводить без использования каких-либо размеченных данных. Мы проверили нашу модель на двух широко используемых наборах данных и двух языковых парах, получив баллы BLEU 32,8 и 15,1 на англо-французских наборах данных Multi30k и WMT, и даже не нуждались в параллельной паре предложений во время обучения.
Официальная оценка ICLR:В этой статье представлены некоторые предварительные результаты по неконтролируемому нейронному машинному переводу. Члены группы рецензентов, обладающие обширными знаниями в области машинного перевода, были чрезвычайно впечатлены результатами этой статьи, рассматривая это как совершенно новую область исследований, отметив, что «это очевидно». Были высказаны опасения по поводу ясности некоторых деталей, представленных в статье, и того, как воспроизвести результаты статьи, но обсуждение, похоже, прояснило многие из этих вопросов. Рецензенты в целом хвалили метод за тщательность, экспериментальную ясность и использование абляции. Один рецензент был менее впечатлен и посчитал, что следует провести больше сравнений.
Synthetic and Natural Noise Both Break Neural Machine Translation
Резюме:Модели нейронного машинного перевода (NMT) на основе символов облегчают проблемы, вызванные отсутствием словарного запаса, и изучают морфологию, приближая нас к полностью сквозной системе перевода. К сожалению, они также очень хрупки и часто недостаточно надежны при работе с зашумленными данными. В данной работе мы сталкиваемся с моделями NMT с синтетическими и естественными источниками шума. Мы обнаружили, что даже для умеренно зашумленного текста современные модели не могут быть переведены, но у людей не возникает проблем с пониманием. Мы исследуем два подхода к повышению надежности модели: структурно-инвариантные представления слов и обучение, устойчивое к зашумленному тексту. Мы обнаружили, что модели на основе сверточных нейронных сетей на уровне символов могут одновременно изучать представления, устойчивые к нескольким типам шума.
Официальная оценка ICLR:Как отмечают рецензенты, плюсы и минусы этой статьи можно резюмировать следующим образом:
преимущество:
* Эта статья является первой попыткой исследовать неизученную область нейронного МП (и, возможно, других приложений моделей последовательностей).
*Эта область может оказать существенное влияние: существующие модели, такие как Google Translate, плохо переводят шумные входные данные.
*Экспериментальный план был очень тщательным и тщательным
* Эксперименты с синтетическим и естественным шумом повышают достоверность результатов статьи.
*Статья хорошо написана и понятна
недостаток:
* Для этого вопроса может быть лучшая архитектура, чем та, что представлена в этом посте.
* Даже естественный шум не является полностью естественным, например, внутри слов существуют искусственные ограничения
*Статьи не полностью соответствуют ICLR
Статья получает неизменно положительные отзывы и может оказать огромное влияние на реальный мир.
Towards Neural Phrase-based Machine Translation
Резюме:В этой статье предлагается нейронный машинный перевод на основе фраз (NPMT). Метод явно моделирует структуру фразы в выходной последовательности с использованием сетей Sleep-Wake Networks (SWAN), недавно предложенного метода моделирования последовательности на основе сегментации. Чтобы уменьшить требование монотонного выравнивания SWAN, мы вводим новый уровень для выполнения (мягкой) локальной перестановки входной последовательности. В отличие от существующих методов нейронного машинного перевода (NMT), NPMT не использует декодирование на основе внимания. Вместо этого он выводит фразы последовательно и может быть декодирован за линейное время. Эксперименты показывают, что по сравнению с лучшими результатами NMT, NPMT в IWSLT Отличные результаты были достигнуты в задачах машинного перевода немецкого/английского/немецкого языков 2014 г. и английского/вьетнамского языков IWSLT 2015 г. Мы также наблюдаем, что наш метод производит осмысленные фразы на языке вывода.
Официальная оценка ICLR:В этой статье в недавно предложенном слое SWAN [Wang et al., 2017] представлено мягкое локальное переупорядочивание, чтобы сделать его пригодным для машинного перевода. Хотя только в небольших экспериментах результаты убедительны.
Non-Autoregressive Neural Machine Translation
Резюме:Все существующие подходы к нейронному машинному переводу генерируют следующий токен на основе ранее сгенерированного выходного токена. Мы вводим модель, которая избегает этого свойства авторегрессии и производит свои выходные данные параллельно, уменьшая задержку в процессе ссылки на порядок. За счет извлечения знаний, использования фертильности входных токенов в качестве скрытых переменных и точной настройки градиента политики мы достигаем этого за счет снижения всего на 2,0 балла BLEU по сравнению с сетью Transformer, используемой в качестве учителя. Мы демонстрируем существенное кумулятивное улучшение по трем аспектам, связанным с нашей стратегией обучения, и подтверждаем наш подход к англо-немецкому языку IWSLT 2016 года и двум языковым парам WMT. Путем параллельной выборки показателей рождаемости в контрольное время наша неавторегрессионная модель в WMT В 2016 году на английском и румынском языках получил наивысший балл 29,8 BLEU.
Официальная оценка ICLR:Предложен метод обучения неавторегрессионной модели машинного перевода на основе предварительно обученной авторегрессионной модели. Метод интересный, и оценка работает хорошо. Однако следует отметить, что относительная сложность процедуры обучения (включающая несколько этапов и обучение под наблюдением извне) может ограничивать практическую применимость и влияние этого метода.
Unsupervised Neural Machine Translation
Резюме:Несмотря на недавний большой успех нейронного машинного перевода (NMT) в тестах, отсутствие массово параллельных корпусов является серьезной практической проблемой для многих языковых пар. Есть некоторые предложения, такие как тригонометрия и методы полуконтролируемого обучения, чтобы облегчить эту проблему, но они по-прежнему требуют сильных межъязыковых сигналов. В этой статье мы полностью устраняем необходимость в параллельных данных и предлагаем новый подход к обучению полностью неконтролируемой системы NMT. Модель основана на неконтролируемом отображении встраивания и включает слегка модифицированную модель кодировщика-декодера с вниманием, которая может быть реализована в одной модели путем объединения шумоподавления и обратного перевода. Несмотря на простоту метода, наша система Получены переводы 15.56 и 10.21 BLEU с французского на английский и с немецкого на английский в 2014 г. Модель также выигрывает от небольшого параллельного корпуса, достигающего 21,81 и 15,24 балла соответственно в сочетании со 100 000 параллельных предложений.
Официальная оценка ICLR:В этой работе используются умные комбинаторные методы для достижения новых результатов в области машинного перевода без присмотра. С точки зрения оригинальности рецензенты сочли статью преувеличенной и обещали прорыв, но не сочли ее разумной.
Однако по новой задаче «достаточно нового содержания» и «предварительных» результатов. Есть также некоторые проблемы с качеством экспериментов, отсутствие хорошего качественного анализа, и рецензенты считают, что описание полу-контролируемой связанной работы проблематично. Однако основные цифры — хорошее начало, и авторы справедливо отмечают, что есть еще одна работа с такими же многообещающими результатами. Из этих двух работ рецензенты сочли, что другая написана более четко, а экспериментальный анализ был лучше, и они отметили, что обе превзошли претензии с точки зрения новизны. Возможно, наиболее многообещающим аспектом этой работы является будущее значение этой задачи, поскольку в настоящее время
embeddings) и NMT больше интересны как тестовые задачи.
генеративная модель
Spectral Normalization for Generative Adversarial Networks
Резюме:Одной из проблем, стоящих перед исследованиями генеративно-состязательной сети, является нестабильность ее обучения. В этой статье предлагается новый метод взвешенной нормализации, спектральная нормализация, для стабилизации обучения дискриминатора. Предлагаемый нами новый метод нормализации невелик в вычислительном отношении и легко интегрируется в существующие реализации. Мы тестируем эффект спектральной нормализации на наборах данных cifar 10, STL-10 и ILSVRC2012 и экспериментально проверяем, что спектрально нормализованные GAN (SN-GAN) способны генерировать стабильные методы по сравнению с предыдущим обучением Лучшее или равное качество изображения.
Официальная оценка ICLR:В этой статье масштабирование GAN используется в наборе данных ILSVRC2012, который содержит большое количество категорий, и дает впечатляющие результаты. С этой целью авторы предлагают «спектральную нормализацию» для нормализации веса и стабилизации тренировки, что помогает преодолеть проблемы с коллапсом режима. Предлагаемый метод принципиален и хорошо написан. Авторы хорошо справляются с комментариями рецензентов и добавляют дополнительные результаты сравнения связанных методов, чтобы продемонстрировать превосходство предложенного метода. Рецензенты соглашаются, что это важный шаг в улучшении обучения GAN. Я предлагаю вам принять это.
Wasserstein Auto-Encoders
Резюме:Мы предлагаем новый алгоритм генеративной модели для построения распределений данных — автокодировщик Вассерштейна (WAE). WAE минимизирует расстояние Вассерштейна между распределением модели и целевым распределением в качестве целевой функции, что представляет собой регуляризацию, отличную от той, которая используется вариационными автоэнкодерами (VAE).
Этот термин регуляризации побуждает закодированное распределение обучения соответствовать предыдущему. Доказано, что алгоритм является обобщением состязательного автоэнкодера (AAE) путем сравнения с несколькими другими методами кодирования. Экспериментальные результаты показывают, что WAE не только обладает многими преимуществами VAE (стабильность обучения, структура кодер-декодер, хорошая скрытая многообразная структура), но также генерирует выборки более высокого качества.
Официальная оценка ICLR:В этой статье предлагается новая генеративная модель, которая обладает стабильностью вариационного автоэнкодера (VAE) при создании более качественных выборок. Авторы приводят подробное сравнение своей работы с предыдущими генеративными моделями, сочетающими VAE и GAN. Результаты показывают, что алгоритм представляет собой обобщение состязательного автоэнкодера (AAE) для минимизации расстояния между распределением модели и истинным распределением. Статья написана хорошо, и результаты убедительны. Рецензенты согласились, что алгоритм является новым и полезным; обсуждается тесная связь алгоритма с родственными методами. В целом, эта статья очень хороша, и ее рекомендуется принять.
разное
Spherical CNNs
Резюме:Сверточные нейронные сети (CNN) стали предпочтительным методом для решения задач обучения на плоских 2D-изображениях. Однако недавние интересующие вопросы создали некоторый спрос на модели, способные анализировать сферические изображения. Примеры включают всенаправленное зрение для дронов, робототехнику и автономное вождение, проблемы молекулярной регрессии и глобальное моделирование погоды и климата. Эта наивная попытка сверточной сети спроецировать плоскую проекцию сферического сигнала обречена на провал, потому что пространственно изменяющееся искажение, вносимое такой проекцией, сделает неэффективным распределение веса в горизонтальном направлении.
В этой статье представлен строительный блок для построения сферических CNN. Мы предлагаем выразительный метод, который является одновременно очень выразительным и ротационно-эквивариантным.
и вращательно-эквивариантное) определение сферической взаимной корреляции. Сферическая корреляция удовлетворяет обобщенной теореме Фурье, что позволяет нам эффективно вычислять ее с помощью обобщенного (некоммутативного) алгоритма быстрого преобразования Фурье (БПФ). Мы демонстрируем вычислительную эффективность, числовую точность и эффективность сферических CNN в распознавании 3D-моделей и регрессии энергии атомизации.
Официальная оценка ICLR:В этой статье, расширяя CNN до соответствующей группы SO(3), мы предлагаем обучаемое представление сферических сигналов (функции, определенные в сфере), которые являются вращательно-эквивариантными по замыслу. Метод реализован с использованием быстрого преобразования Фурье на сферической поверхности и проиллюстрирован на примере трехмерного распознавания формы и предсказания молекулярной энергии.
Рецензенты согласились, что это солидная, хорошо написанная статья, демонстрирующая, что групповая инвариантность/равная дисперсия более полезна, чем стандартная евклидова группа перевода в реальных сценариях. Это будет отличным дополнением к конференции.
Рекомендованный контент в прошлом
Рекомендация VAST Best Paper — исследование визуализации моделей глубокого обучения в Tensorflow
Некоторое важное совместное использование ресурсов нейронного машинного перевода (NMT)
Обзор применения, спроса и будущего развития глубокого обучения (ИИ) в области медицины
«Pure Dry Goods 16» регулирует скорость обучения для оптимизации обучения нейронной сети.
Модель глубокого обучения, обмен концептуальными картами разума
Обзор приложений глубокого обучения в обработке естественного языка
Список процессоров для глубокого обучения/машинного обучения (самая полная_китайская версия)
Обмен видео первого занятия курса специализации Ву Энда по глубокому обучению