О данных
В последние годы количество данных, производимых людьми, резко возросло: от появления мобильных интеллектуальных устройств более десяти лет назад до различных сенсорных устройств, которые люди носят сегодня, постоянно генерируются большие объемы данных 24 часа в сутки. Эти данные включают текст, речь, изображения, видео и многое другое.
Большие данные
Термин большие данные впервые появился в 1990-х годах, когда он использовался только для описания большого объема данных, но не давал четкого определения и концептуального смысла. После того, как он появился, он не привлекал особого внимания. До 2012 года большие данные привлекали внимание всех слоев общества. Многие дисциплины и отрасли будут связаны с большими данными.
С точки зрения технологии объем данных, содержащихся в больших данных, обычно превышает объем памяти одного компьютера, даже в сотни или тысячи раз больше, поэтому технически необходимо иметь инструменты, специально предназначенные для обработки массивных данных. MapReduc, предложенный Google, можно назвать новаторской работой в этом отношении, так что позже был разработан Hadoop с открытым исходным кодом, который является классическим инструментом обработки больших данных.
Большие данные впервые появились в крупных интернет-компаниях и компаниях электронной коммерции.Примерно в 2008 году данные, собранные этими компаниями, были слишком большими, чтобы их можно было обрабатывать традиционными техническими средствами, и было трудно соответствовать развитию бизнеса, поэтому концепции и последовательно внедрялись технологии, связанные с большими данными. В 2010 году, с появлением Web 2.0 и популяризацией интеллектуальных терминалов, объем генерируемых данных еще больше увеличился, и в это время большие данные интегрировались в социальную жизнь человека. В 2012 году большие данные стали одной из самых популярных областей в мире, и многие компании в стране и за рубежом предложили стратегии, связанные с большими данными. В 2015 году большие данные официально вошли в национальную стратегию развития, и с тех пор она стремительно развивается.
Основная работа с большими данными заключается в прогнозировании с помощью алгоритмов математической модели и массивных данных для прогнозирования возможности транзакций.
Возможности больших данных
- Большая емкость, сверхбольшой объем данных.
- Различные типы данных, включая структурированные данные, полуструктурированные данные и неструктурированные данные.
- Аутентичность, большие данные должны иметь аутентичность, иначе они не имеют ценности.
- Своевременность, большие данные, как правило, чувствительны ко времени.
разработка данных
Когда мы собираем данные, чтобы получить выгоду для бизнеса, мы будем обрабатывать и анализировать данные с инженерной точки зрения, чтобы получить ценную информацию.Этот процесс называется проектированием данных. Общий процесс инженерии данных:
- Сбор данных, сбор данных из разных источников данных для сбора данных в унифицированное устройство.
- Хранение данных, в котором собранные данные сохраняются с помощью носителей, таких как жесткие диски.
- Очистка данных заключается в выполнении специальной обработки данных, которые не соответствуют спецификациям, чтобы данные могли соответствовать требованиям точности, целостности и непротиворечивости.
- Моделирование данных, процесс определения требований к данным для удовлетворения потребностей бизнеса, обычно требует участия разработчиков бизнес-моделей.
- Обработка данных, сбор данных, хранение, поиск, обработка, преобразование, передача и другие операции, извлечение и извлечение ценных данных из массивов данных.
- Анализ данных с использованием методов интеллектуального анализа данных для получения ценной информации из массивных данных.
- Визуализация данных, отображение данных пользователям интуитивно понятным и наглядным способом.
искусственный интеллект
Искусственный интеллект был официально предложен в Дартмуте в 1956 году, и он изучает, как создавать интеллектуальные машины или имитировать интеллектуальное поведение человека. О введении и развитии искусственного интеллекта см. в предыдущей статье «Понимание искусственного интеллекта в одной статье — введение в дисциплину, история развития и три школы».
Основные направления ИИ
- При распознавании образов компьютер извлекает особенности образцов данных, чтобы изучить модель, а затем различает в соответствии с моделью.
- Машинное обучение, дающее машинам возможность учиться и делающее их интеллектуальными, включает когнитивную науку, нейропсихологию, логику и т. д.
- Машинный перевод, который преобразует естественный язык в другой естественный язык с помощью компьютера, является отраслью компьютерной лингвистики, включающей лингвистику, компьютеры, когнитивистику, теорию информации и другие дисциплины.
- Обработка естественного языка позволяет машинам понимать естественный язык, а также генерировать и понимать естественный язык, как люди.
- Компьютерное зрение - это способность компьютеров распознавать информацию об окружающей среде с помощью изображений, например, определять форму, положение, позу, движение и т. Д. Объекта в окружающей среде, и его необходимо понимать дальше.
- Экспертная система, система с большим объемом знаний и опыта в определенной области, подобно тому, как человек-эксперт в определенной области обладает богатыми профессиональными знаниями и опытом и может быстро решать задачи в соответствующей области.
Большие данные и ИИ
Большие данные и искусственный интеллект неразделимы. Развитие больших данных неотделимо от искусственного интеллекта. Без благословения искусственного интеллекта большие данные не могут иметь интеллекта. Развитие искусственного интеллекта неотделимо от поддержки данных, что требует массивных данных как основы для мышления и принятия решений. Принято считать, что тремя основами искусственного интеллекта являются данные, алгоритмы и вычислительная мощность, а вычислительная мощность является основой другого измерения. Потому что независимо от того, насколько хорош алгоритм, если нет благословения на вычислительную мощность, это также алгоритм без практической прикладной ценности.
Машинное обучение против искусственного интеллекта
В общем, машинное обучение является подмножеством искусственного интеллекта и способом достижения искусственного интеллекта. Когда дело доходит до машинного обучения, оно неизбежно будет включать в себя глубокое обучение, популярное в последние годы, а глубокое обучение является подмножеством машинного обучения. Так что их отношения, как русская матрешка, слой за слоем.
машинное обучение
Отправной точкой машинного обучения является изучение того, как выполнить задачу без использования явного кодирования инструкций, но позволить машине учиться на данных, чтобы получить соответствующую способность. Машинное обучение начинается с известных характеристик данных, использует математические методы, такие как вероятность и статистика, для получения определенного правила, а затем использует правило для выполнения определенной задачи прогнозирования. Если это просто описано в одном предложении: используйте математическое выражение признака данных, чтобы охарактеризовать что-то.
Формальное определение машинного обучения звучит так: «Для некоторого класса задач T и показателя производительности P говорят, что компьютерная программа учится на опыте E, если ее производительность, измеряемая P на T, улучшается с опытом E».
Машинное обучение фокусируется на том, как запрограммировать машину на изучение определенных законов из прошлых выборок данных, чтобы иметь возможность прогнозировать или принимать решения в будущем, то есть реализовать самоповедение, основанное на опыте (данных) и руководствующееся определенные нормы Оптимизированный исполнитель задач. Например, мы собираем много разных фотографий кошек и собак, и машина учит правила на основе этих фотографий, таким образом реализуя способность распознавания кошек и собак.
Сосредоточьтесь на искусственном интеллекте, чтении и мышлении, расскажите о математике, информатике, распределенных технологиях, машинном обучении, глубоком обучении, обработке естественного языка, алгоритмах и структурах данных, глубине Java, ядре Tomcat и т. д.