Недавно прошел саммит AI Basic Software Architecture Summit, организованный DataFun.Гевутай — представитель звезд предпринимательства в сфере инфраструктуры искусственного интеллекта.Присутствовал на подфоруме MLOps с ведущими технологическими компаниями, такими как Google, ByteDance и Fourth Paradigm,Сюэ Линьцзи, руководитель отдела алгоритма сетки титанаПеред онлайн-аудиторией была представлена программная речь на тему «Установление стандартов открытых наборов данных и расширение возможностей разработки искусственного интеллекта».
Вот полный текст речи:
Установите стандарты открытых наборов данных, чтобы обеспечить реализацию инженерного ИИ.
Всем привет, я Сюэ Линьцзи из Гевутай, и я отвечаю за алгоритм. Заголовок, которым мы с вами сегодня поделились, называется «Установление стандартов открытых наборов данных и расширение возможностей разработки искусственного интеллекта на суше».Gridwuti стремится создать платформу данных следующего поколения и сообщество данных с открытым исходным кодом на основе этой платформы данных.Работая как сообщество с открытым исходным кодом, у нас есть много собственных мыслей и идей, которыми мы поделились с вами сегодня.
1 Статус общедоступных наборов данных
Прежде всего, я должен подчеркнуть важность данных. В области машинного обучения и глубокого обучения всегда велись споры между Data-Centric и Model Centric, то есть, что важнее для обсуждения данных и модели. Многие думают, что данные важнее.Если данные сравнивать с ингредиентами, а модели сравнивать с кулинарными навыками поваров, можно найти предложение, которое может очень хорошо описать важность данных, то есть для высококачественных ингредиентов часто требуются только самые простые методы приготовления.
Будь то в академических кругах или в промышленности, сбор данных очень сложен. Для модели я могу запереться в комнате и построить нейронную сеть с нуля. Но для данных это сделать нельзя, потому что для сбора данных нужно перейти на соответствующую сцену, а вся ссылка сбора данных включает в себя множество разных частей, таких как сбор данных, маркировка данных, очистка данных и так далее. Пока есть проблема на любом из шагов, она, вероятно, повлияет на качество данных и, следовательно, на качество выходных данных модели.
Есть много компаний и учреждений, которые раскрывают данные, которые они собирают в Интернете. Эти общедоступные наборы данных в значительной степени способствовали развитию алгоритмов машинного обучения, и отрасль также будет использовать эти общедоступные наборы данных для запуска алгоритмов, проверки алгоритмов и многого другого.Кроме того, общедоступные наборы данных сами по себе создают новые типы задач, которые по-своему управляют алгоритмическими моделями.
Например, ранний общедоступный набор данных VOC имеет около 20 категорий, а после появления общедоступного набора данных ImageNet профессора Ли Фейфея классификация была расширена до более чем 1000 категорий, а ее публикация способствовала быстрому развитию компьютерного зрения. Поэтому общедоступные наборы данных очень важны во всей области исследований ИИ, поскольку они, во-первых, предоставляют данные, которые трудно получить, и в то же время способствуют развитию различных алгоритмов в собственной форме.
То, как сегодня размещаются общедоступные наборы данных, на самом деле довольно запутано, и существует три основных типа. Во-первых, некоторые институциональные предприятия используют свои собственные силы для создания веб-сайта для общедоступных наборов данных.Таким образом распространяется большинство наших известных общедоступных наборов данных, таких как COCO, KITTI и т. д. Второй размещен на GitHub. Другие размещаются на платформах для соревнований, таких как Kaggle, Tianchi и т. д., где также можно найти множество различных наборов данных.
Проблема с этим методом размещения заключается в том, что многие наборы данных размещаются в разных местах, что затрудняет нам точное извлечение набора данных, который мы хотим, в соответствии с задачей, что на самом деле очень вредно для обмена и совместного использования наборов данных.
Кроме того, поскольку файловая структура и формат маркировки каждого набора данных различны, мы должны потратить много времени, чтобы понять новый формат данных, преобразование данных и очистку данных при обмене данными. Например, у нас есть некоторые очень основные требования, такие как визуализация данных, статистика распределения меток данных, эти функции должны будут написать больше промежуточного клеевого кода или написать больше новой логики для адаптации из-за изменения формата в разных форматах. Это на самом деле очень неблагоприятно для обмена данными и предоставления унифицированных функций для данных.
2 Разработка стандартов открытых наборов данных
Столкнулся с такой проблемой, как решить? Идея заключалась в том, что если бы мы могли использоватьСтандартный формат единого набора данныхЧтобы выразить аннотацию различных данных, можем ли мы использовать этот унифицированный формат дляОбеспечить унифицированные возможности данных, чтобы снизить стоимость понимания данных и повысить эффективность обмена данными. Исходя из этого мышления, мы пытаемся установить стандарт формата для общедоступных наборов данных.
Сначала нам нужно классифицировать набор данных, а затем сформулировать разные стандарты для разных типов. Мы исследовали более 1200 наборов данных изФормат данных, тип метки, тип задачи, сценарий приложенияЭти четыре аспекта классифицируются. В процессе исследования мы обнаружили, что общедоступные наборы данных нуждаются в разделении сегментов данных, которые можно разделить на следующие три ситуации:
· Различать тест, поезд, данные оценки (COCO, VOC)
· Непрерывные наборы данных различают последовательные сегменты (KITTI-отслеживание)
Один и тот же сегмент набора данных с несколькими датчиками использует одни и те же параметры калибровки датчика (nuScenes, Argoverse).
Исходя из необходимости разделения фрагментов данных, мы предлагаем концепцию, называемуюsegment, разделяйте сегменты данных на сегменты вместо традиционных папок. Во-первых, сегмент не поддерживает вложенность, потому что когда вложенность возникает, пользователь не может предсказать количество уровней вложенности. Во-вторых, данные в одном и том же сегменте должны быть согласованными, чтобы пользователям не приходилось делать избыточные суждения и очищать данные при их использовании. В то же время сегмент поддерживает добавление метаинформации, такой как параметры датчика.
Для различных форматов аннотаций мы наконец выбрали JSON в качестве языка представления формата аннотаций. Потому что JSON легче читать и понимать, а также его легко использовать в HTTP-запросах. В то же время мы используем единую форму API для запроса тегов.Преимущество API в том, что он гибкий и может поддерживать пакетные запросы или запросы отдельных данных.
После формулировки спецификации разделения набора данных и основного метода представления формата этикетки мы начали формулировать соответствующие стандарты формата этикетки в соответствии с различными типами этикеток.
CategoryЭто то, что мы часто называем классификационной информацией, которая использует перечисление для описания объекта. Например, если мы выполняем задачу классификации кошек и собак, то кошки и собаки являются нашими предопределенными перечислениями.AttributeТо есть мы используем пару ключ-значение или словарь для описания объекта.
В наборе данных, таком как BDD100K, люди, автомобили и светофоры классифицированы, поэтому люди, автомобили и светофорыCategory, но у этих светофоров есть дополнительные свойства, такие как окклюзия или усечение. Эти дополнительные свойства мы классифицируемAttributeв основном понятии.
Для набора данных отслеживания нам нужно знать, является ли цель в предыдущем кадре и следующем кадре одним и тем же экземпляром.Например, автомобиль в предыдущем кадре и автомобиль в следующем кадре являются одним и тем же автомобилем, так что мы может подключить его.Выполните задачу отслеживания, поэтому третья основная концепцияInstance, который используется для указания того, является ли кадр одной и той же целью. С этими основными понятиями нам нужно только объединить основные понятия с типом геометрии, которую нужно аннотировать, чтобы построить наш метод представления аннотаций.
В процессе использования набора данных нам необходимо быстро узнать, как выглядит общая аннотационная информация набора данных, чтобы узнать, может ли набор данных соответствовать нашим собственным сценариям задач и требованиям задач. Поэтому мы добавили сюда новую концепцию -Catalog, который использует структурированный язык для описания аннотационной информации набора данных в целом, включая типы аннотаций, объекты аннотаций и поля аннотаций.
После введения основной логики всей стандартной формулировки мы видим, что это общая структура. Если мы представим все данные в этой форме, мы сможем сэкономить много времени на понимании структуры данных или выполнении избыточной работы, такой как обмен данными и очистка данных.
3 Платформа данных Gridwu Titanium и сообщество
Нам нужны многие базовые функции в процессе обработки данных, такие как визуализация, статистика аннотаций, управление версиями и т. д. Основываясь на стандартном формате данных, который мы только что обсуждали, у нас есть возможность предоставить унифицированные функции данных на основе этого стандартного формата. Поскольку наш формат был зафиксирован и преобразован в соответствии с набором стандартов, все остальные сервисы могут быть написаны на основе этого формата.
Платформа данных Grid Titan предоставляет различные функции, основанные на данных, в надежде решить болевые точки предприятий на уровне управления данными.На рисунке ниже показан более сложный набор данных слияния нескольких датчиков, который содержит некоторые облачные данные и данные изображения. Благодаря функции визуализации мы можем легко увидеть взаимосвязь между аннотациями в облаке точек и аннотациями на изображении, а также предоставить статистику меток данных. Поскольку мы очень обеспокоены тем, сбалансировано ли распределение меток при обучении модели, если сам набор данных не сбалансирован, мы рассмотрим некоторые способы сделать его сбалансированным для повышения производительности всей модели.
В то же время мы также предоставляем очень полные инструменты для разработчиков, такие как OpenAPI, SDK и CLI. Используя эти инструменты, обучающие модели могут получать наши данные унифицированным способом, а также могут использовать аналогичные коды для взаимодействия с известными фреймворками для глубокого обучения.
На основе нашей платформы данных мы создалиСообщество открытых наборов данных Gewuti. Сообщество общедоступных наборов данных в основном должно решить запутанную проблему распространения и размещения общедоступных наборов данных, о которой мы упоминали в начале. В настоящее время мы собрали более 1200 наборов данных и поделились ими на платформе сообщества наборов общедоступных данных, а также добавили унифицированную классификационную метку к каждому набору общедоступных данных, чтобы упростить поиск пользователями. Кроме того, на основе нашей платформы данных мы предоставляем такие функции, как унифицированная отформатированная статистика этикеток, пользователи могут быстро понять распределение этикеток, тип этикетки, качество этикетки и другое содержимое всего набора данных.
В то же время мы также стандартизировали и структурировали основную информацию о каждом наборе данных, такую как официальный веб-сайт набора данных, поставщик набора данных, маркировщик и другой важный контент, а также информацию о его ЛИЦЕНЗИИ, поддерживает ли он повторное распространение, поддерживает ли он коммерческий, и Т. Д.
Я думаю, что дизайн общедоступных наборов данных и разработка стандартов являются взаимодополняющими отношениями. Наше общедоступное сообщество наборов данных обеспечивает очень хорошую экспериментальную среду для итерации стандартов наборов данных. Всякий раз, когда новый набор данных регистрируется в нашем общедоступном сообществе наборов данных, он фактически что-то делает с нашими текущими стандартами данных. Одна проверка:
· Могут ли наши текущие стандарты наборов данных отображать всю важную информацию вновь введенных наборов данных без искажений?
· Будет ли наша текущая служба визуализации статистики аннотаций правильно работать с новым набором данных?
Должна ли она быть отнесена к одной из наших предыдущих категорий с фиксированными метками, или нам нужно добавить или скорректировать предыдущие метки классификации?
· Мог бы весь наш стандарт быть проще и универсальнее?
Это то, о чем нам нужно думать каждый раз, когда мы входим в систему. Повторение наших текущих стандартов таким образом позволяет нашим стандартам обеспечивать максимально полную поддержку текущих и возможных будущих данных. В итеративном процессе наших текущих более чем 1200 наборов данных мы получили текущий стандарт набора данных, который может отображать всю важную информацию набора данных как можно неискаженнее и адаптироваться к как можно большему количеству сценариев и задач, Он может более совершенно подключиться к сервисному коду набора данных.
4 Проблемы и перспективы
На самом деле, мы постоянно размышляем о разработке стандартов наборов данных и сообществ наборов данных. Прежде всего, существует слишком много типов наборов данных, постоянно появляются разные типы задач и новые данные. данные. В связи с этим мы надеемся, что силы сообщества присоединятся к нам и помогут установить более полный и приемлемый стандарт.
С вышеуказанной точки зрения мы обнаружили, что текущий процесс формулирования стандартов слишком сложен, и мы потратим много времени на исследование и обобщение, повторение и оптимизацию в процессе онлайн-внедрения. Однако такой сложный процесс не подходит для открытия перед сообществом, поэтому я надеюсь упорядочить и оптимизировать весь стандартный процесс разработки для сообщества.
Во-вторых, стандарты, которые мы устанавливаем в настоящее время, являются относительно фиксированными, в некоторых корпоративных сценариях им фактически не нужно адаптироваться к стандартам общедоступных наборов данных, и они могут настроить стандарты в соответствии с потребностями собственных сценариев задач. Следовательно, мы также должны иметь возможность поддерживать пользователей в настройке стандартных форматов для адаптации к изменяющимся требованиям к данным.
Нажмите, чтобы посетить официальный веб-сайт GridTitanium, заказать демонстрацию, сразу же ознакомиться с платформой данных GridTitanium и напрямую удовлетворить свои потребности в данных для разработки ИИ.
Gridwutitanium — прямое соответствие вашим потребностям в данных для разработки ИИ