Некоторые моменты по большим данным и инженерии искусственного интеллекта

задняя часть Большие данные
Некоторые моменты по большим данным и инженерии искусственного интеллекта

Большие данные

Термин «большие данные» впервые появился в США в 1990-х годах и не пользовался популярностью до 2012 года. Большие данные не имеют четкого понятия.Большими они называются потому, что объем данных превышает ресурсы одного компьютера.В настоящее время необходимы средства распределенной обработки данных, чтобы данные можно было обработать за то время, которое пользователи могут выдержать. , иметь дело с. Специалисты по работе с большими данными обязательно обратятся к инструментам Google mapreduce paper и Hadoop с открытым исходным кодом. Однако массивные данные изначально статичны, и только благодаря анализу и использованию данных они могут создавать ценность. Поскольку так называемое количественное изменение порождает качественное изменение.

искусственный интеллект

Искусственный интеллект был представлен на Дартмутской конференции в 1956 году, и он изучает, как создавать интеллектуальные машины или имитировать интеллектуальное поведение людей. Можно сказать, что большие данные и искусственный интеллект дополняют друг друга.Основой искусственного интеллекта являются данные, а использование данных неотделимо от искусственного интеллекта. Сбор массивных данных в различных областях, а также после ручной обработки и идентификации становятся направляющими данными для обучения искусственного интеллекта. Основными направлениями исследований искусственного интеллекта являются: распознавание образов, машинное обучение, машинный перевод, обработка естественного языка, компьютерное зрение, экспертные системы, логическое мышление и др.

машинное обучение

Машинное обучение заключается в использовании характеристик данных самих вещей для математического выражения и построения моделей, а затем выполнения поставленной задачи.В общем случае модель представляет собой определенный математический закон от признаков до результатов задачи. Для практического проектирования наша модель максимально проста, модель не должна выглядеть высококлассно, но реальная модель проста и эффективна. Математические знания машинного обучения включают в себя высшую математику, линейную алгебру, теорию вероятностей, математическую статистику, теорию оптимизации, математическую логику и т. д.

Общие алгоритмы машинного обучения

Общие алгоритмы машинного обучения включают следующее:

  • Линейная регрессия — это относительно простой и интуитивно понятный алгоритм регрессии. Линейная регрессия может иметь n значений атрибутов, а затем линейная комбинация каждого атрибута образует функцию прогнозирования. Параметры функции прогнозирования определяются путем определения функции ошибки и последующей минимизации ошибки. общей выборки.
  • Можно сказать, что логистическая регрессия является обобщенной линейной моделью.Исходная линейная регрессия не может использоваться для задач классификации, поэтому ее можно использовать для задач классификации с помощью сигмовидной функции, которая является логистической регрессией. Линейная функция отображается в S-функцию, а точка разделения 0,5 может использоваться в качестве бинарной классификации. Обобщение логистической регрессии на множественную классификацию становится регрессией softmax, которую можно использовать для задач множественной классификации.
  • Наивный байесовский метод — очень классический метод в теории вероятностей, ядром которого является теорема Байеса, которая упрощает модель за счет предположения условной независимости и изучает совместное распределение вероятностей по выборкам, которое включает в себя априорное распределение вероятностей и условное распределение вероятностей.
  • Дерево решений строит древовидную стратегию принятия решений в соответствии с атрибутами, и конечный результат может определяться непрерывно в соответствии со значением каждого атрибута. Получение информации может быть использовано в качестве критерия во время обучения.
  • Машина опорных векторов, она предусматривает, что оптимальная линия классификации может не только правильно разделить две категории, но и максимизировать интервал классификации, разумеется, для многомерного пространства это гиперплоскость. Его существенной проблемой является минимальная задача выпуклого квадратичного программирования, которая включает теорию выпуклой оптимизации. Для линейно неразделимого случая можно ввести функцию ядра, чтобы отображать линейно неразделимые точки в низкоразмерном пространстве в многомерное пространство, тем самым делая их сепарабельными.
  • Интегрированное обучение (ускорение, накопление, накопление), основная идея интегрированного обучения состоит в том, чтобы объединить несколько алгоритмов модели для выполнения задач Это предполагает, что знания, полученные с помощью одного алгоритма, ограничены, а комбинация нескольких алгоритмов может играть большую роль. сильные стороны каждой модели алгоритма, тем самым повышая производительность модели. Бустирование, бэггинг и суммирование — это три разных метода интеграции. Отдельные учащиеся бустинга сильно зависят друг от друга. Каждый отдельный учащийся зависит от результатов предыдущего отдельного учащегося. Между отдельными учащимися бэггинга нет зависимости. Определенная комбинированная стратегия дает окончательный результат, а наложение — это иерархическая структура обучения функциям.
  • Нейронная сеть (персептрон, нейронная сеть BP, сверточная нейронная сеть, рекуррентная нейронная сеть), базовая версия нейронной сети - это персептрон и нейронная сеть BP, которая строит нейронную сеть, имитируя нервы головного мозга человека, и проходит градиентный спуск и т. д. модель обучения параметры. Позже она была развита в свёрточную нейронную сеть путём углубления количества сетевых слоёв и введения свертки, а также трансформирована в рекуррентную нейронную сеть, которая позже является глубоким обучением.
  • Кластеризация (kmean, кластеризация плотности, иерархическая кластеризация), кластеризация заключается в том, чтобы собрать вместе людей с похожими атрибутами с помощью определенного алгоритма и, насколько это возможно, изолировать людей с разными атрибутами. kmeans — это кластеризация на основе расстояния, кластеризация по плотности предназначена для поиска областей с высокой плотностью, разделенных областями с низкой плотностью, а иерархическая кластеризация разделяет большие кластеры сверху вниз.
  • Уменьшение размерности (PCA, LDA), анализ основных компонентов PCA преобразует данные из исходных координат в новые координаты, чтобы данные можно было представить с меньшим количеством измерений, а линейный дискриминантный анализ LDA проецирует выборки высокой размерности в оптимальное дискриминантное векторное пространство для достижения Эффект сжатия размерности признакового пространства.

Процесс инженерии данных

  • Сбор данных, сбор данных из разных источников данных для сбора данных в унифицированное устройство.
  • Хранение данных, в котором собранные данные сохраняются с помощью носителей, таких как жесткие диски.
  • Очистка данных заключается в выполнении специальной обработки данных, которые не соответствуют спецификациям, чтобы данные могли соответствовать требованиям точности, целостности и непротиворечивости.
  • Моделирование данных, процесс определения требований к данным для удовлетворения потребностей бизнеса, обычно требует участия разработчиков бизнес-моделей.
  • Обработка данных, сбор данных, хранение, поиск, обработка, преобразование, передача и другие операции, извлечение и извлечение ценных данных из массивов данных.
  • Анализ данных с использованием методов интеллектуального анализа данных для получения ценной информации из массивных данных.
  • Визуализация данных, отображение данных пользователям интуитивно понятным и наглядным способом.

Общие инструменты для работы с большими данными

Hadoop — это классический инструмент для обработки больших данных с открытым исходным кодом, вдохновленный статьей Google MapReduce. Текущие инструменты для работы с большими данными в основном включают следующее.

  • HDFS, распределенная файловая система.
  • HBase, распределенная база данных.
  • MapReduce — написанная пользователем параллельная программа, работающая в кластере Hadoop.
  • zookeeper, как координационный центр распределенных программ.
  • hive, инструмент управления хранилищем данных, основанный на Hadoop.
  • pig, инструмент для анализа больших данных.
  • пряжа, система управления ресурсами кластера Hadoop.
  • sqoop, инструмент для обмена данными между Hadoop и традиционными базами данных.
  • chukawa, распределенная система сбора и анализа данных.
  • hcatalog, система управления хранилищем для управления таблицами данных, созданными с помощью hadoop.
  • Redis, распределенная система кэширования.
  • kafka, распределенная система обмена сообщениями.
  • Cassandra, распределенная структура и хранилище данных.
  • neo4j, графовая база данных nosql.
  • искра, механизм распределенных вычислений.
  • Storm — распределенная вычислительная система реального времени.
  • elasticsearch, распределенный полнотекстовый поиск.
  • flume — распределенная система сбора логов.
  • flink, механизм обработки распределенных потоков.

Об авторе: псевдоним мореход, хорошо разбирается в искусственном интеллекте, информатике, математических принципах, базовых алгоритмах. Книги: "Анализ проектирования ядра Tomcat", "Структура графических данных и алгоритм", "Популяризация принципов искусственного интеллекта".

Поддержите автора, купите книгу автора!



Сосредоточьтесь на искусственном интеллекте, чтении и мышлении, расскажите о математике, информатике, распределенных технологиях, машинном обучении, глубоком обучении, обработке естественного языка, алгоритмах и структурах данных, глубине Java, ядре Tomcat и т. д.