Выбрано из ISWC, автор: Baptiste Rocca, участие: Siyuan, Li Yazhou.
Мы знаем, что мощные глубокие модели требуют больших вычислительных мощностей, поэтому знаете ли вы, сколько стоит создание графа знаний? Исследователи Мангеймского университета в Германии недавно тщательно подсчитали стоимость создания записи для различных графов знаний и заявили, что для больших графов знаний стоимость ручного создания тройки (то есть записи) составляет от 2 до 6 долларов США. , общая стоимость исчисляется миллионами и миллиардами долларов.
График знанийШироко используется в различных областях, его статистика также часто анализируется. Но было недостаточно исследований по одному вопросу: какова цена продукции? В этой статье исследователи предлагают метод оценки стоимости графов знаний. Говорят, что создание триплета вручную стоит от 2 до 6 долларов, а автоматическое создание графа знаний стоит в 15-250 раз меньше (то есть от 1 до 15 центов за тройку).
Обратите внимание, что «автоматизированный» граф знаний по 15 центов каждый по-прежнему требует больших человеческих усилий для проверки данных. Кроме того, автор заявил, что стоимость также должна использоваться в качестве критерия оценки графа знаний, например, может использоваться стоимость каждой тройки или другие более качественные меры.
Бумага: Сколько стоит Triple?Оценка стоимости создания графа знаний
Адрес бумаги:C Eur-I am.org/Vol-2180/is…
Оценка стоимости графов знаний
С широким применением графов знаний мы все больше внимания уделяем крупномасштабным графам знаний, таким как DBpedia, YAGO и др. У нас уже есть много способов исследовать эти большие графы знаний с разных точек зрения, таких как размер, охват и качество. Однако где эта аналитика не оправдывает ожиданий, так это в стоимости, цене создания графа знаний.
Человеческое творение: Cyc и Freebase
Для графов знаний, созданных людьми, мы должны оценить усилия по предоставлению этих утверждений, чтобы оценить среднюю стоимость.
Cyc — один из первых графов знаний общего назначения, и стоимость его разработки также общедоступна. На конференции 2017 года создатель Cyc Дуглас Ленат заявил, что строительство Cyc обошлось в 120 миллионов долларов. В том же PPT Ленат заявил, что Cyc имеет в общей сложности 21 миллион утверждений, поэтому каждое утверждение или утверждение стоит 5,71 доллара. Если у 1000 человек есть год, чтобы выполнить задание, каждый человек должен выполнять утверждение каждые 9,5 минут.
Freebase создается добровольцами, поэтому о его нагрузке сложно судить. По состоянию на апрель 2011 года расчетное время создания английской Википедии составляет 41 миллион человеко-часов. В то же время Википедия содержит 3,6 млн страниц, в среднем 36,4 предложения на странице, поэтому преобразование каждого предложения занимает 18,7 минут. Поскольку большинство статей в Википедии создаются в США, мы можем использовать федеральную минимальную заработную плату США в размере 7,25 доллара в час в качестве оценки стоимости рабочей силы, поэтому стоимость одного предложения составляет 2,25 доллара. Используя эту стоимость, мы можем предположить, что Freebase также стоит 2,25 доллара за оператор.
Это половина средней стоимости Cyc, что разумно, поскольку Cyc был создан экспертами, а Freebase — неспециалистами. В общей сложности для последней версии Freebase с 3 миллиардами фактов ее общая стоимость составляет около 6,75 миллиардов долларов (6,75 миллиардов долларов).
Автоматическое создание: DBpedia, YAGO и NELL
Оценка стоимости автоматического создания графа знаний отличается от создания графа знаний вручную. Мы ссылаемся на программное обеспечение, используемое для создания графов знаний, чтобы оценить стоимость разработки графа знаний на основе строк кода (LOC). Мы следуем анализу в [2] о том, что проект по созданию программного обеспечения производит в среднем 37 строк кода в час (LOC).
DBpedia в основном получена из дампа Википедии на основе структуры извлечения DBpedia, которая создает граф знаний путем сопоставления центральных объектов. Две части DBpedia требуют 4,9 млн и 2,2 млн LOC, а общая стоимость разработки требует 5,1 млн долларов. Учитывая, что английская DBpedia[11] содержит в общей сложности 400 миллионов утверждений, каждое из них стоит около 1,85 цента. По сравнению с построенными вручную графами знаний (2,25 доллара США каждый), автоматически построенные карты знаний экономят в сто раз больше.
YAGO также представляет собой граф знаний, объединяющий знания, извлеченные из Википедии с помощью WordNet [7]. Для справедливого сравнения его стоимость должна включать стоимость создания WordNet. Кодовая база YAGO имеет 1,6 млн LOC (включая правила для сопоставления информационных блоков с онтологиями), поэтому ее общая стоимость составляет 1,6 млн долларов. Кроме того, сам WordNet содержит 117 тысяч синсетов, каждый из которых содержит аннотацию. Мы оцениваем стоимость определения синсета как стоимость создания страницы в Википедии, до 10 миллионов долларов. Если YAGO имеет 1,4 миллиарда операторов-операторов [11], то стоимость каждого составляет 0,83 цента. По сравнению с ручным строительством оно стоит в 250 раз меньше.
NELL — это система для изучения паттернов извлечения отношений [8], ее основная технология содержит 103 тыс. LOC, а ориентировочная стоимость разработки составляет 109 000 долларов. Кроме того, набор данных требует ручной проверки 1467 выписок в месяц. Если предположить, что стоимость ручной проверки оператора такая же, как стоимость создания, общая стоимость проверки составляет 376 000 долларов США или 48,50 долларов США за сквозную передачу. Преобразованный таким образом NELL стоит 14,25 цента за выписку, что в 16 раз дешевле ручного построения.
новые критерии оценки
Использование затрат в качестве меры для создания графа знаний может также проложить путь для других методов оценки. Например, новый метод пополнения недостающей информации в графах знаний может быть обеспечен за счет проверки затрат [9]: человек, разрабатывающий граф знаний за полтора года, должен иметь возможность добавить 2800 утверждений, что должно быть числом троек. производится вручную человеком.
Еще одно интересное направление — взаимосвязь между стоимостью разработки и качеством данных. На рисунке 1 мы графически изображаем взаимосвязь между стоимостью каждого триплета и частотой ошибок в графе знаний, обсуждаемом в этой статье. Мы видим, что тройки, созданные с высокой стоимостью, также более точны, за исключением NELL, где связь между точностью и стоимостью крайне плохая.
Суммировать
В этой статье мы грубо оцениваем стоимость создания графа популярных знаний, аспект, который упускается из виду в текущих исследованиях. Мы количественно оцениваем преимущества автоматического создания графиков знаний по сравнению с ручными методами и предлагаем использовать стоимость для определения новых критериев оценки, таких как компромисс между стоимостью и точностью.
Мы также понимаем, что существует множество предположений или оценок, которые вызывают проблемы при расчетах (например, мы не учитываем стоимость сторонних библиотек или инфраструктуры) после отзывов исследователей. Во-вторых, источник или стоимость данных графа знаний в настоящее время не принимается во внимание. Однако мы считаем, что ценность самого графа знаний намного превысит сумму различных затрат на его построение.