7 Насколько большими должны быть наборы для разработки и тестирования?

Размер набора разработчика должен быть достаточно большим, чтобы различать различия в производительности между разными алгоритмами, которые вы пытаетесь использовать. Например, если классификатор A имеет точность 90,0 %, а классификатор B — 90,1 %, набор разработчиков, состоящий всего из 100 образцов, не сможет обнаружить эту разницу в 0,1 %. Размер набора разработчиков с размером выборки 100 очень мал по сравнению с проблемами машинного обучения, с которыми я столкнулся. Как правило, размер набора для разработки должен составлять от 1000 до 10 000 выборок данных, а когда размер набора для разработки составляет 10 000 выборок, вы, скорее всего, обнаружите повышение производительности на 0,1%.

Теоретически также можно определить, приведет ли изменение алгоритма к статистически значимой разнице в наборе разработчиков. На практике, однако, большинство команд не беспокоятся об этом (если только они не публикуют научно-исследовательскую работу), и я не нашел много надежных тестов статистической значимости в процессе тестирования.

Для более зрелых и важных областей применения, таких как рекламные услуги, веб-поиск и рекомендации по продуктам, я видел, как некоторые команды очень агрессивно улучшали производительность алгоритма, даже если это улучшение всего на 0,01%, потому что это напрямую влияет на прибыль компании. В этом случае размер набора разработчиков может превышать 10 000 образцов, что полезно для обнаружения этих незначительных улучшений.

Итак, как определить размер тестового набора? Он должен быть достаточно большим, чтобы вы могли с высокой степенью достоверности оценить общую производительность системы. Распространенной эвристической стратегией является использование 30% данных в качестве тестового набора, что хорошо работает для небольших объемов данных (скажем, от 100 до 10 000 выборок). Но в эпоху больших данных количество выборок для задач машинного обучения, с которыми мы сталкиваемся, иногда превышает 1 млрд. Несмотря на то, что абсолютное количество выборок в наборах для разработки и тестирования растет, доля данных, которые можно выделить для наборы для разработки и тестирования в целом уменьшаются. Видно, что нам не нужно намного превышать размер набора для разработки и набора тестов, необходимых для оценки производительности алгоритма, то есть размер набора для разработки и набора для тестирования не является максимально возможным.

Photo by Nick Hillier on Unsplash

Оставайтесь с нами для главы 8: Оптимизация с однозначными метриками оценкиОбучающие читы по машинному обучению Выпущены главы Главы 1-4 Глава 5 Глава 6 Пожалуйста, зарегистрируйтесь здесь для получения последней главы английской версииhttp://www.mlyearning.org/ Для того, чтобы все желающие как можно скорее получили доступ к китайской версии обучающих читов по машинному обучению, мы организовали работу по переводу в кратчайшие сроки. Пожалуйста, несите меня, если есть какие-либо ошибки. Содержание перевода все еще находится в стадии постоянного улучшения. Если у вас есть какие-либо комментарии и предложения, пожалуйста, оставьте нам сообщение. Добро пожаловать, чтобы отсканировать код и подписаться на нашу официальную учетную запись! Спасибо!