1024 День программиста, техническая команда ByteDance поздравляет всех разработчиков и друзей с праздником. Обучение — это лестница человеческого прогресса. Если вас интересуют технические возможности ByteDance, вы можете зарегистрироваться в Салоне технологий ByteDance. Тема этого выпуска — как машинный перевод может помочь глобализации продуктов ByteDance.
ByteDance запустила ряд влиятельных продуктов по всему миру, включая Toutiao, Douyin, Xigua Video, Feishu и т. д., с продуктами и услугами, охватывающими 150 стран и регионов по всему миру. По состоянию на июнь 2021 года количество ежедневных активных пользователей Douyin превысило 600 миллионов, а общее количество MAU (ежемесячных активных пользователей) всех продуктов ByteDance превысило 1,9 миллиарда.
Глобальный продукт, как преодолеть языковой барьер? Быстро сообщать информацию о продукте пользователям с разным языковым опытом и повышать ценность продукта? Это проблема, которую необходимо решить в процессе глобализации продуктов, и машинный перевод позволяет компьютерам заменить ручной языковой перевод, что повышает скорость перевода и преобразования контента и значительно способствует глобализации продуктов и контента.
Этот салон приглашает технических экспертов Xu Jingjing, Feng Jiangtao, Cheng Shanbo и Xiong Ying в области машинного перевода ByteDance.Они будут систематически демонстрировать все возможности технологии машинного перевода ByteDance, особенно способность машинного перевода способствовать глобализации продукта. Программа снижения затрат и повышения эффективности. Например, механизм ускорения обучения и логического вывода LightSeq, зеленый словарь машинного перевода VOLT и интегрированная среда глубокого обучения ByCha применяются во многих внутренних сферах деятельности, таких как перевод вулканов.
Помимо демонстрации статуса применения машинного перевода в различных областях, лекторы также проанализируют текущие проблемы, с которыми сталкивается машинный перевод, помогут соответствующим компаниям и практикам изменить свое мнение, решить отраслевые проблемы и помочь учащимся и практикам продвигать машинный перевод. Упрощение и систематизация технологий помогают продуктам стать глобальными. После выступления лектора в салоне также состоится тематическая встреча за круглым столом и QA Q&A, с захватывающим опытом, который поможет разработчикам углубиться в отрасль, коснуться основных технологий и ключевых вопросов, а также вдохновить на дальнейшие размышления и обобщения.
Состав лекторов
Ченг Шанбо
Ченг Шанбо окончил Нанкинский университет, а затем присоединился к лаборатории искусственного интеллекта ByteDance (AI Lab), отвечая за наращивание потенциала многоязычной платформы машинного перевода. Он долгое время занимался исследованиями и бизнес-применением алгоритмов, связанных с машинным переводом, трижды выигрывал чемпионаты в международных авторитетных глобальных соревнованиях по машинному переводу и опубликовал множество статей в ACL, EMNLP, NAACL и других. конференции.
Машинный перевод имеет важное прикладное значение.Перевод на естественный язык без ручного труда может значительно повысить эффективность глобализации продукта и реализовать эффективную настройку и переключение контента и приложений. Однако нынешнее развитие машинного перевода все еще не является систематическим и удобным, и применение машинного перевода по-прежнему сталкивается с огромными проблемами. Как опытный специалист в области машинного обучения и вычислений на естественном языке, Ченг Шанбо поможет нам понять текущую ситуацию с машинным переводом и представить применимые сценарии машинного перевода, что заставит нас задуматься о проблемах и будущих направлениях развития машинного перевода.
Фэн Цзянтао
Фэн Цзянтао окончил Университет Фудань, а затем присоединился к ByteDance.Он в основном занимается исследованиями и применением технологии генерации текста, а также стремится продвигать внедрение исследований в области генерации текста. Он опубликовал несколько статей в IJCAI, AAAI, EMNLP.
В последние годы обработка естественного языка достигла значительного прогресса и получила более широкое распространение. Однако с текущей исследовательской работой обработка естественного языка не может быть эффективно перенесена в реальный бизнес. Фэн Цзянтао представит ByCha, интегрированную структуру глубокого обучения от «исследований до реализации», которая призвана облегчить выполнение передовой работы и повысить эффективность разработки алгоритмов глубокого обучения. Посредством содержания лекций участники могут понять архитектуру дизайна обучающей среды глубокого обучения, и в то же время, основываясь на изучении и понимании ByCha, им будет легче разрабатывать модели глубокого обучения.
Сюй Цзинцзин
Сюй Цзинцзин — научный сотрудник лаборатории искусственного интеллекта ByteDance (AI Lab).Она имеет большой опыт в области машинного обучения и вычислений на естественном языке.Она опубликовала более 30 лучших статей на известных научных конференциях в стране и за рубежом.
На ACL (Ассоциация вычислительной лингвистики) в 2021 году ByteDance выиграла единственную лучшую бумажную корону. Это второй раз, когда группа китайских ученых получает высшую награду с момента основания ACL 59 лет назад. В качестве первого автора статьи Цзинцзин Сюй предложил новую схему изучения словарного запаса VOLT, которая снижает сложность модели, экономит вычислительные ресурсы и энергопотребление при достижении того же эффекта, тем самым способствуя энергосбережению и защите окружающей среды в индустрии ИИ. С точки зрения эффективности, по сравнению с основной лексикой, VOLT показывает отличные показатели поиска оптимальной лексики в различных сценариях, что значительно сокращает время поиска лексики. В этом салоне она познакомит нас с основами зеленого словарного запаса, покажет основные принципы VOLT и как измерить словарный запас и найти лучший словарный запас. Благодаря ее объяснению участники смогли освоить основные принципы VOLT и лучше понять текущее состояние изучения лексики машинного перевода.
Медвежий орел
Сюн Ин — старший инженер по алгоритмам в лаборатории искусственного интеллекта ByteDance (AI Lab), работает над алгоритмами, связанными с обработкой естественного языка, и участвует в разработке проекта с открытым исходным кодом Lightseq. Он имеет большой опыт в генерации текста, машинном переводе, высокопроизводительных вычислениях и сжатии моделей.
Преобразователь в настоящее время является основной моделью для многих задач NLP и некоторых задач CV, но из-за нехватки аппаратных ресурсов существуют ограничения эффективности при обучении больших моделей. В ответ на эту проблему ByteDance запустила механизм ускорения LightSeq. Движок оптимизирует процесс вычислений обучения Transformer, обеспечивает значительное улучшение скорости обработки и был применен к ByteDance для перевода вулканов, поиска, рекламы, рекомендаций, образования, электронной коммерции и других внутренних операций, а также многого достиг в сообщество с открытым исходным кодом, обратите внимание. Сюн Ин поделится техническими принципами, лежащими в основе высокопроизводительного обучения и рассуждений LightSeq, и подробно представит методы использования, чтобы помочь и вдохновить практиков с точки зрения академических исследований и промышленных приложений.
расписание
В настоящее время технический салон открыт для свободного посещения.Отсканируйте QR-код вышеЗарегистрируйтесь бесплатно и исследуйте применение «машинного перевода» в продуктах ByteDance вместе!
Введение салона
Салон технологий ByteDance — это мероприятие по обмену технической информацией для разработчиков из разных отраслей, инициированное технологическим сообществом ByteDance ByteTech. Создавая инклюзивную, открытую и бесплатную коммуникационную платформу, мы будем способствовать популяризации и внедрению передовых технологий, а также помогать техническим командам и разработчикам быстро расти. Технический обмен ByteDance Technology Salon исходит от технических экспертов, работающих в ByteDance и интернет-компаниях первой линии.Основываясь на горячем техническом руководстве и обзоре практики, он представляет собой технический праздник для технических команд и разработчиков для справки.