С натуры, автор: Давиде Кастельвекки, составлено Heart of the Machine.
5 сентября Google выпустил Dataset Search — бесплатную поисковую систему, которая помогает исследователям находить данные в Интернете. Google заявляет, что движок предназначен для «ученых, журналистов данных, фанатов данных и многих других». Механизм помогает упростить открытое использование и повторное использование данных.
Адрес бета-версии поиска набора данных:toolbox.Google.com/DataSet это ухо…
Поиск наборов данных, который можно использовать бесплатно, как и другие специализированные поисковые системы Google, например те, которые используются для поиска новостей и изображений, а также Google Scholar и Google Books, находит файлы и наборы данных на основе того, как их классифицируют их владельцы. Механизм считывает содержимое файла иначе, чем поисковая система ищет веб-страницу. Некоторые эксперты говорят, что движок заполняет пробел в этой области и может значительно облегчить развитие движения открытых данных, которое направлено на достижение открытого использования и повторного использования данных.
Правительственные агентства, научные издательства, исследовательские институты и даже отдельные исследователи поддерживают тысячи репозиториев данных с открытым исходным кодом по всему миру, содержащих миллионы наборов данных.
Но исследователи, которые хотят знать, какие типы данных доступны, или хотят найти уже существующие данные, часто полагаются на молву. — сказала Наташа Ной, компьютерный специалист Google AI из Маунтин-Вью, Калифорния.
По словам Ноя, проблема особенно актуальна для исследователей, которые находятся на ранних этапах своей исследовательской карьеры и еще не установили профессиональную сеть контактов. Это также серьезный недостаток для тех, кто занимается междисциплинарными исследованиями. Например, эпидемиологам нужен доступ к климатическим данным, которые могут быть связаны с распространением вируса.
https://v.qq.com/x/page/c134714yekq.html
Поиск по категории
В январе 2017 года Ной и его коллега по Google Дэн Брикли написали сообщение в блоге Google (Любовь. Google blog.com/2017/01/ выдал…) впервые представил стратегии для решения этой проблемы.
Типичная поисковая система работает в два этапа. Первый этап заключается в индексировании доступных веб-страниц путем непрерывного поиска в Интернете. Второй этап заключается в сортировке проиндексированных веб-страниц, чтобы, когда пользователь вводит поисковый запрос, поисковая система могла предоставить результаты поиска, отсортированные по релевантности.
Чтобы помочь поисковым системам индексировать существующие наборы данных, те, кто владеет набором данных, должны «пометить» набор данных, используя стандартизированный словарь под названием Schema.org, то есть Google и три других поисковых запроса, пишут Ной и Брикли. Yahoo и Яндекс) и управляется Брикли. Команда Google также разработала специальный алгоритм ранжирования наборов данных в результатах поиска.
Новость о том, что Google быстро внедряется в экосистему данных из-за своего доминирования в веб-поиске, побудила крупных поисковых гигантов вступить в борьбу за стандартизацию метаданных, сказал Марк Ханел, генеральный директор лондонской компании по обмену данными Figshare. (Figshare находится в ведении Holzbrinker Publishing Group, которая также имеет большую долю в издательской компании Nature.)
"К ноябрю данные из всех университетов, с которыми мы работали, были помечены. Я думаю, что это важное изменение для открытых данных в академических кругах", — сказал Ханель.
Ханель утверждает, что финансирующие агентства иногда требуют, чтобы исследовательские данные были доступны, и до тех пор, пока информация доступна, они могут достичь своей конечной цели. «Это узаконивает то, что пытались сделать инвестиционные институты».
Google надеется изменить то, как пользователи публикуют данные и работают с ними, предоставляя пользователям единый интерфейс для одновременного поиска в нескольких репозиториях. Google говорит, что проект принесет следующие преимущества:
Сформировать экосистему обмена данными, которая поощряет издателей данных хранить и публиковать данные в соответствии с передовыми практиками;
Предоставьте ученым платформу для цитирования наборов данных, которые они создают, и демонстрации влияния своих исследований.
Искать испытания
В настоящее время Google официально протестировала поисковую систему набора данных с открытым исходным кодом.После того, как пользователь введет имя набора данных или ключевую информацию, поисковая система предоставит список источников данных.Каждый источник данных будет иметь краткое введение, такое как дата обновления, автор , авторские права и описание контента и т. д. Стоит отметить, что помимо ресурсов набора данных поисковая система также может извлекать множество предварительно обученных моделей на Kaggle. В самом сердце машины мы искали набор данных с CIFAR-10, Object Detection и SQuAD в качестве ключевых слов соответственно и нашли некоторые интересные результаты.
Во-первых, мы получили очень часто используемый набор данных классификации изображений CIFAR-10, который содержит 60 000 цветных изображений 32x32 в 10 категориях и разделен на 50 000 обучающих изображений и 10 000 тестовых изображений. Результаты поиска выявили в общей сложности 9 источников, включая наборы данных, предварительно обученные модели и сравнения.
Например, в верхних результатах поиска набор данных взят из CIFAR-10 Python от Kaggle. На вводной странице поисковой системы помимо краткой информации о наборе данных (включая документы, в которых он цитируется) даже показано, как использовать набор данных. Например, на следующей демонстрационной странице описано, как использовать этот набор данных в Keras:
from os import listdir, makedirs
from os.path import join, exists, expanduser
cache_dir = expanduser(join('~', '.keras'))
if not exists(cache_dir):
makedirs(cache_dir)
datasets_dir = join(cache_dir, 'datasets') # /cifar-10-batches-py
if not exists(datasets_dir):
makedirs(datasets_dir)
# If you have multiple input datasets, change the below cp command accordingly, typically:
# !cp ../input/cifar10-python/cifar-10-python.tar.gz ~/.keras/datasets/
!cp ../input/cifar-10-python.tar.gz ~/.keras/datasets/
!ln -s ~/.keras/datasets/cifar-10-python.tar.gz ~/.keras/datasets/cifar-10-batches-py.tar.gz
!tar xzvf ~/.keras/datasets/cifar-10-python.tar.gz -C ~/.keras/datasets/
Нажмите на первый источник данных, чтобы перейти на соответствующую страницу Kaggle, где загрузки и дополнительная информация отображаются на исходной странице.
В процессе поиска по ключевому слову «Обнаружение объектов» мы обнаружим, что результатов поиска гораздо больше, чем приведенных выше, и источников данных будет сотни. Опираясь на ключевые слова, также было получено множество популярных наборов данных с открытым исходным кодом, каждый из которых подходит для области обнаружения объектов. Например, Microsoft COCO, распознавание лиц и распознавание номерных знаков транспортных средств и т. д.
Из результатов поиска «Обнаружение объектов» наборы данных из Kaggle составляют небольшую половину, и все они содержат руководства по загрузке и использованию на Kaggle. На самом деле, при просмотре такого количества источников данных вводная страница, предоставляемая поисковой системой, очень важна. Нам не нужно переходить к исходному адресу каждого набора данных, мы можем понять примерные области применения и содержание набора данных на основе введения. Вводная страница для набора данных COCO показана ниже:
Наконец, мы получили набор данных ответов на вопросы Стэнфорда «SQuAD», и результаты поиска не только дали адрес задачи и набор данных, но также предоставили адреса похожих наборов данных и задач. Однако, когда мы искали «SQuAD 2.0», мы не искали ответ на вопрос машинного чтения, отвечающий на набор данных SQuAD 2.0, выпущенный Стэнфордским университетом.Также может случиться так, что набор данных слишком новый и не был включен в поисковую систему.
Кооперативные учреждения
Первым сторонником попытки Google было Национальное управление океанических и атмосферных исследований (NOAA). Сфера деятельности агентства варьируется от рыболовства до короны, а его архив содержит почти 70 000 наборов данных, в том числе судовые журналы 19 века. Общий объем этих данных превышает 35 петабайт, что эквивалентно емкости 35 000 типичных жестких дисков.
Инструмент Google, Dataset Search, поможет NOAA выполнить свою миссию открытых данных, сказал Эдвард Кернс, директор по данным NOAA. «Мы хотим исследовать новые способы сделать эти данные доступными для других».
Работа с владельцами данных — важный шаг в запуске поиска наборов данных. Хотя в будущем система может стать более сложной, в настоящее время Google не планирует считывать или анализировать данные так же, как веб-страницы и изображения. «Этот инструмент поиска может быть хорошим только в том случае, если метаданные, предоставленные публикатором данных, достаточно хороши», — сказал Ной.
Как и Google Scholar, Dataset Search в настоящее время не предлагает автоматических запросов или интерфейса прикладного программирования (API), хотя Google заявляет, что может добавить эту возможность в будущем.
Ной сказал, что когда исследователи начнут использовать поиск по набору данных, Google будет следить за тем, как они взаимодействуют с ним, и использовать эту информацию для улучшения результатов поиска. Она также сообщила, что компания не планирует коммерциализировать услугу.
Поскольку поиск наборов данных продолжает совершенствоваться, в будущем он может интегрироваться с Google Scholar, чтобы связать результаты поиска в определенных областях исследований с соответствующими наборами данных.