Интервью по машинному обучению BAT. Серия из 1000 вопросов (вопросы 1–305)

машинное обучение искусственный интеллект

Интервью по машинному обучению BAT. Серия из 1000 вопросов

Аранжировка: Июль, Юань Чао, Ли На, Дэвэй, Цзя Ру, Ван Цзянь,AntZ, Мэн Ин и другие. Большинство вопросов в этой серии исходит из общедоступной сети, бери и делись, и используй для того, чтобы делиться, а в процессе написания ответов, если цитируешь других для анализа, то обязательно указывай автора оригинала и ссылку на источник. Кроме того, многие ответы были просмотрены онлайн известными учителями в июле, в том числе Хань Сяоян, доктор Гуань, Чжан Юши, Ван Юнь и доктор Чу.
Примечание. Будучи первым банком вопросов по ИИ в Китае, эта серия была впервые опубликована в официальном аккаунте онлайн-лаборатории в июле: julyedulab, частично обновлена ​​в этом блоге и запущена в день Double Twelve в 2017 году.Июль онлайн официальный сайт,Июль Онлайн приложение для Android,Июль Онлайн-приложение для iPhone,После того, как обновление и обслуживание этой статьи было приостановлено, другие почти 3000 вопросов были обновлены до июльского онлайн-приложения илиИюль онлайн официальный сайт банк вопросовДобро пожаловать на доску, чтобы задавать вопросы каждый день. Кроме того, его можно воспроизвести и указать ссылку на источник.

 

 

предисловие

Июль Я снова вернулся.

Ранее в этом блоге были собраны тысячи вопросов для интервью от таких компаний, как Microsoft, с упором на структуры данных, алгоритмы и массовую обработку данных.Подробнее см.Интервью Microsoft, серия 100 вопросов, В 2017 году я недавно организовал серию из 1000 вопросов для интервью по машинному обучению BAT со своей командой, уделяя особое внимание машинному обучению и глубокому обучению. Мы будем использовать эту серию для индексации большинства письменных тестовых вопросов по машинному обучению и глубокому обучению и точек знаний, Это также будет достаточно большая база данных/база знаний по машинному обучению и глубокому обучению, которая является систематической и пошаговой. .

Кроме того, стоит обратить внимание на четыре момента:

  1. Хотя эта серия в основном связана с машинным обучением и глубоким обучением, и других типов вопросов не так много, это не означает, что при подаче заявки на должность машинного обучения или глубокого обучения компания или интервьюер задают только эти два вопроса, хотя это для данных или глубокого обучения.ИИ связан, но базовый язык (например, Python), способность кодирования (для разработки невозможно переоценить способность кодирования, например, простейшая рукописная быстрая сортировка, рукописный двоичный поиск), структура данных, алгоритм, Архитектура компьютера, операционные системы, статистика вероятностей и т. д. также должны быть освоены. Для структур данных и алгоритмов основное внимание уделяется серии из 100 вопросов для интервью Microsoft, упомянутой ранее (позже эта серия была организована в новую книгу «Метод программирования: интервью и уроки алгоритмов"), два чистят больше leetcode, чтение 1000 вопросов не так хорошо, как чистка 100 вопросов вручную.
  2. В этой серии мы попытаемся организовать вопросы, которые исследуют одну и ту же часть (например, связанные с моделями/алгоритмами) и в одном направлении (например, оба относятся к оптимальному алгоритму), чтобы каждый мог сделать выводы из одного случае и построить полную систему знаний в процессе подготовки к письменному тесту и собеседованию, поняв один вопрос и одну часть.
  3. Ответ на каждый вопрос из этой серии гарантирует, что логика понятна и проста для понимания (когда вы изучаете определенный пункт знаний и чувствуете, что не понимаете его, девять раз из десяти это не значит, что вы недостаточно умны , и в девяти случаях из десяти информация, которую вы читаете, недостаточно популярна, непроста для понимания), если у вас есть идеи получше, добро пожаловать к обсуждению в комментариях.
  4. Наиболее рекомендуемые способы изучения машинного обученияУчебный курс по машинному обучениюряд. От основ Python, анализа данных, сканеров до визуализации данных, больших данных и, наконец, реального боевого машинного обучения, глубокого обучения и т. д.

Кроме того, эта серия будет пополняться еще долго, пока вопросов не будет тысячи, а то и тысячи.Вы можете оставить сообщение под комментариями, чтобы поделиться вопросами, с которыми вы столкнулись в собственном письменном тестовом интервью, или вопросами, которые вы увидели или добавили в избранное в Интернете и поделились ими вместе. Помогите большему количеству людей по всему миру, спасибо.

 

 

Интервью по машинному обучению BAT. Серия из 1000 вопросов

1 Пожалуйста, кратко представьте SVM, Модель машинного обучения ML Easy SVM, полное название — машина опорных векторов, китайское название — машина опорных векторов. SVM — это алгоритм классификации, ориентированный на данные, целью которого является определение гиперплоскости классификации для разделения различных данных.
Расширение: Вот статья, в которой подробно рассказывается о принципе и выводе SVM, "
Популярное введение в машины опорных векторов (понимание трехуровневой области SVM)". Кроме того, вот видео о выводе SVM: "Чистая доска с поддержкой SVM

 

2 Пожалуйста, кратко представьте график расчета тензорного потока, в рамках глубокого обучения DL

@陈小阳&AntZ: Tensorflow — это система программирования, которая выражает вычисления в виде вычислительных графов. Вычислительные графы также называются графами потоков данных. Вычислительные графы можно рассматривать как ориентированные графы. Каждый узел в Tensorflow — это тензор на вычислительном графе. тензор, а ребра между узлами описывают зависимости между вычислениями (при определении) и математическими операциями (при работе). Следующие два рисунка представляют:

a=x*y; b=a+z; c=tf.reduce_sum(b);


3 В k-средних или kNN мы часто используем евклидово расстояние для расчета расстояния между ближайшими соседями, а иногда и манхэттенское расстояние. Пожалуйста, сравните разницу между этими двумя расстояниями. модель машинного обучения машинного обучения
Евклидово расстояние, наиболее распространенное представление расстояния между двумя или более точками, также известное как евклидова метрика, определяется в евклидовом пространстве, например точка x = (x1,...,xn) и расстояние между y = (y1 ,...,yn) это:

Евклидово расстояние, хотя и полезно, имеет существенные недостатки. Он одинаково обрабатывает разницу между различными свойствами выборки (т. е. каждым индексом или каждым переменным измерением), что иногда не может удовлетворить фактические требования. Например, в исследованиях в области образования людей часто анализируют и различают, и разные атрибуты людей имеют разное значение для различения людей. Следовательно, евклидово расстояние подходит, когда метрики компонентов вектора равномерны.

  • Манхэттенское расстояние, мы можем определить формальный смысл манхэттенского расстояния как L1-расстояние или расстояние городского квартала, то есть сумму расстояний проекции отрезка, образованного двумя точками на оси, на фиксированную прямоугольную систему координат евклидова пространства . Например, на плоскости манхэттенское расстояние между точкой P1 с координатами (x1, y1) и точкой P2 с координатами (x2, y2) равно:, следует отметить, что манхэттенское расстояние зависит от поворота системы координат, а не от перемещения или отображения системы на оси координат. При изменении оси координат расстояние между точками будет другим.

С точки зрения непрофессионала, представьте, что вы едете от одного перекрестка к другому на Манхэттене.Является ли расстояние вождения расстоянием по прямой между двумя точками? По-видимому, нет, если только вы не сможете пройти через здание. Фактическое расстояние вождения - это «Манхэттенское расстояние», которое также является источником названия «Манхэттенское расстояние».В то же время манхэттенское расстояние также называют расстоянием городского квартала.

Манхэттенское расстояние и евклидово расстояние имеют разные общие цели и не являются взаимозаменяемыми. Кроме того, для сравнения различных расстояний см.От алгоритма K-ближайшего соседа, измерения расстояния до дерева KD, алгоритма SIFT+BBF".

 

4 Является ли ядро ​​свертки CNN одноуровневым или многослойным? модель глубокого обучения DL
@AntZ: определение и понимание операций свертки можно найти в этой статье «Примечания CNN: популярное понимание сверточных нейронных сетей», ссылка:blog.CSDN.net/V_July_V/AR…, матрицу весов ядра свертки необходимо повернуть на 180 градусов, но нам не нужна форма матрицы весов до поворота, поэтому мы напрямую используем матрицу весов после поворота в качестве выражения ядра свертки, и преимущество этого заключается в том, что дискретная операция свертки становится операцией матричного скалярного произведения.
Как правило, глубокие сверточные сети представляют собой слой за слоем. Суть слоя — карта объектов, в которой хранятся входные данные или их промежуточное значение представления. Набор ядер свертки — это выражение параметра сети, которое соединяет два слоя до и после, а целью обучения является группа весовых параметров каждого ядра свертки.
Опишите толщину слоя в сетевой модели, обычно с помощью количества именных каналов каналов или количества карт объектов. Однако в народе привычнее толщину переднего слоя в качестве входных данных называть количеством каналов (например, трехцветный слой RGB числом входных каналов называют 3), а толщину последнего слоя поскольку результат свертки называется количеством карт признаков.
Ядро свертки (фильтр) обычно трехмерное многослойное.Помимо параметра площади, такого как 3x3, есть также параметр толщины H (2D рассматривается как толщина 1).Еще один атрибут - количество ядер свертки. Н.
Толщина H ядра свертки обычно равна толщине M переднего слоя (количество входных каналов или количество карт признаков) Частный случай M > H.
Количество N ядер свертки обычно равно толщине заднего слоя (количество карт признаков в заднем слое, поскольку оно равно, оно также представлено N).
Ядро свертки обычно подчинено более позднему слою, предоставляя последнему слою различные перспективы для просмотра признаков предыдущего слоя, который формируется автоматически.
Когда толщина ядра свертки равна 1, это 2D-свертка, то есть соответствующие точки плоскости умножаются отдельно, а затем суммируются, что эквивалентно операции скалярного произведения.Возможны различные анимации 2D-свертки видно здесь https://github.com/vdumoulin/conv_arithmetic

Когда толщина ядра свертки больше 1, это 3D-свертка (по глубине), и каждая плоскость делится на 2D-свертку, а затем результаты каждой свертки суммируются как результат 3D-свертки; 1x1 свертка относится к 3D-свертке. Частный случай (точечный) с толщиной, но без площади, напрямую умножает отдельные точки каждого слоя, а затем складывает их вместе.
Подводя итог, свертка означает взять область, будь то одномерный отрезок прямой, двумерную квадратную матрицу или трехмерный прямоугольный блок, все в соответствии с размерной формой ядра свертки, выкопать той же размерной формы из входных данных и умножить соответствующую точку на точку. После суммирования сжато в скалярное значение, то есть приведено к нулевому измерению, как значение точки, выводимой на карту объектов. Это очень похоже на рыбак закрывает сеть.
Его можно сравнить с группой рыбаков, сидящих в рыбацкой лодке и забрасывающих сеть, чтобы поймать рыбу.Рыбный пруд представляет собой многослойную акваторию, и в каждом слое есть разные рыбы.
Лодка перемещается на один шаг в одно место за раз, каждый рыбак забрасывает сеть, получает улов, затем меняет шаг и снова забрасывает, и так далее, пока не будет пройден пруд с рыбой.
Рыбак А смотрел на виды рыб, и, пройдя через пруд, рыбак описал распределение видов рыб в пруду;
Рыбак B уставился на вес рыбы, и после пересечения пруда с рыбой, рыбак описал распределение веса рыбы в пруду;
Есть также N-2 рыбака, каждый со своими интересами;
Наконец, получается N карт характеристик, описывающих все о пруде с рыбой!
2D-свертка означает, что рыбацкая сеть представляет собой рыболовную сеть с кругом буев и ловит рыбу только в верхнем слое воды;
Трехмерная свертка указывает на то, что рыбацкая сеть представляет собой многослойную вложенную рыболовную сеть, и рыба в верхних, средних и нижних водоемах не может убежать;
Свертку 1x1 можно рассматривать как каждый шаг смены, а ловлю на крючок вместо заброса сети;
Следующее объясняет частный случай M > H:
На самом деле, помимо относительно небольшого количества каналов ввода данных, количество карт признаков в среднем слое очень велико, поэтому вычисление свертки в среднем слое утомит компьютер (водоем для разведения рыбы слишком глубокий, каждый слой рыбы попадает в ловушку, а необходимая сеть для ловли рыбы слишком тяжелая). Поэтому многие глубокие сверточные сети разделяют все карты каналов/характеристик, и каждое ядро ​​свертки рассматривает только часть из них (рыболовная сеть рыбака А спасает только глубоководные участки, рыболовные сети рыбака Б спасают только мелководные участки). Таким образом, вся архитектура глубокой сети начала расходиться по горизонтали и только в конце объединилась. Таким образом, архитектура многих сетевых моделей не является полностью прихотью, а обусловлена ​​количеством вычисляемых параметров. Особенно сейчас, когда расчет приложений ИИ (также называемый логическим выводом) необходимо выполнять на мобильных устройствах, масштаб параметров модели должен быть меньше, поэтому существует множество сверточных форм, которые уменьшают масштаб рукопожатий, и большинство основных сетевых архитектур в настоящее время . Например, АлексНет:

Кроме того, прилагаются письменные тестовые вопросы по машинному обучению Baidu 2015:Уууу.. ITface 4.com/thread-7042…

5 на ЛР. Модели машинного обучения ML — это сложно

@rickjin: Расскажите о LR с головы до ног. Моделирование, математический вывод на месте, принцип каждого решения, регуляризация, какова связь между моделями LR и maxent и почему lr лучше, чем линейная регрессия. Есть много людей, которые могут запомнить ответ, и они сбиваются с толку, когда спрашивают логические детали. С принципом все в порядке?Тогда спросите у проекта, как сделать распараллеливание, есть несколько методов распараллеливания, и какие реализации с открытым исходным кодом вы читали. Да, тогда приготовьтесь принять его, и, кстати, поинтересуйтесь историей развития модели LR.
Кроме того, эти две статьи могут быть использованы для справки:Прошлое и настоящее логистической регрессии (теория),Алгоритмы машинного обучения и практика Python (7) Логистическая регрессия.

 

6 Как решить проблему переобучения? Основы машинного обучения ML
отсев, регуляризация, нормализация партии

@AntZ: Overfitting is overfitting. Его интуитивная производительность показана на рисунке ниже. По мере развития процесса обучения сложность модели увеличивается, и ошибка в обучающих данных постепенно уменьшается, но ошибка в проверочном наборе постепенно уменьшается. Увеличение - потому что обученная сеть превосходит обучающий набор, но не работает с данными вне обучающего набора, что называется плохой производительностью обобщения. Производительность обобщения является основной целью при оценке тренировочных эффектов.Без хорошего обобщения это равносильно обратному, и все бесполезно.


Переоснащение противоположно обобщению.Например, бабушка Лю, которая счастлива в сельской местности, будет чувствовать себя некомфортно, когда войдет в сад Grand View Garden, но Линь Дайюй, которая хорошо образована, не будет суетиться, когда она войдет в дом Цзя. . В реальной тренировке методы уменьшения переобучения обычно следующие:
Регуляризация
Регуляризация L2: добавьте сумму квадратов всех весов w параметров к целевой функции, заставив все w быть как можно ближе к нулю, но не к нулю, потому что при переоснащении функция подбора должна учитывать каждую точку, а конечный результат формируется подгонка Функция сильно колеблется, и в некоторых небольших интервалах значение функции резко меняется, то есть некоторые w очень велики.По этой причине добавление регуляризации L2 наказывает тенденцию веса становиться больше.
Регуляризация L1: увеличить сумму абсолютных значений всех весовых параметров w в целевой функции, заставив больше w быть равным нулю (то есть стать разреженным. L2, потому что его производная также стремится к 0, скорость работы к нулю не так хорош, как L1.) Все Ключевая причина интереса к разреженной регуляризации заключается в том, что она позволяет автоматически выбирать признаки. Вообще говоря, большинство элементов (то есть признаков) xi не имеют ничего общего с конечным выходом yi или не несут никакой информации.Учитывайте эти дополнительные признаки xi при минимизации целевой функции, хотя можно получить и меньшие значения. ошибка обучения, но при прогнозировании новых выборок вместо этого учитываются эти бесполезные веса признаков, что мешает прогнозированию правильного yi. Введение оператора разреженной регуляризации должно завершить славную миссию автоматического выбора признаков, Он научится удалять эти бесполезные признаки, то есть сбрасывать веса, соответствующие этим признакам, на 0.
Случайная деактивация (выпадение)
Пусть во время обучения нейрон активируется с вероятностью гиперпараметра p (то есть вероятность 1-p установлена ​​равной 0), каждый w участвует случайным образом, так что любой w необязателен, эффект Аналогично к огромному количеству модельных ансамблей.
Послойная нормализация (пакетная нормализация)
Этот метод нормализует выходные данные каждого слоя (сеть эквивалентна добавлению слоя линейного преобразования), так что входные данные следующего слоя близки к распределению Гаусса.Этот метод эквивалентен избеганию обучения w следующего слоя. Входные данные частично обобщены, поэтому эффект обобщения очень хороший.
ранняя остановка
Число теоретически возможных локальных минимумов экспоненциально растет с увеличением числа параметров, и достижение определенных точных минимумов является источником плохого обобщения.Практика показала, что погоня за мелкими минимумами имеет более высокую ошибку обобщения. Это интуитивно понятно, потому что мы обычно хотим, чтобы наша функция ошибок была гладкой, соответствующая поверхность ошибки, наблюдаемая в точном минимуме, сильно нерегулярна, а наше обобщение требует снижения точности для получения гладкого минимума, поэтому многие методы обучения предлагают стратегии раннего прекращения. Типичный метод — досрочное завершение по кросс-валидации: если перед каждым обучением обучающие данные разбиваются на несколько частей, одна берется за тестовую выборку, другая — за обучающую, и каждое обучение берет выбранную тестовую выборку за самопроверка сразу после завершения.Поскольку каждая копия может быть тестовым набором, этот метод называется перекрестной проверкой.Когда частота ошибок перекрестной проверки наименьшая, можно считать, что производительность обобщения является лучшей , а затем обучение. Хотя частота ошибок продолжает снижаться, ее необходимо остановить и продолжить обучение.

 

7 Связь и различие между LR и SVM. модель машинного обучения машинного обучения
@Восходящее солнце в поле зрения,соединять:
1. И LR, и SVM могут решать проблемы классификации и обычно используются для решения задач линейной бинарной классификации (в случае улучшения могут решаться задачи множественной классификации).
2. Оба метода могут добавлять различные условия регуляризации, такие как l1, l2 и т. д. Так что во многих экспериментах результаты двух алгоритмов очень близки. 
разница:
1. LR — параметрическая модель, а SVM — непараметрическая модель. 
2. С точки зрения целевой функции разница заключается в том, что логистическая регрессия использует логистические потери, а SVM использует потери шарнира, Цель этих двух функций потерь состоит в том, чтобы увеличить вес точек данных, которые имеют большее влияние на классификацию и уменьшить связь с классификацией Веса для меньших точек данных. 
3. Метод обработки SVM заключается в том, чтобы рассматривать только опорные векторы, то есть несколько точек, наиболее важных для классификации, чтобы изучить классификатор. Логистическая регрессия значительно снижает вес точек, удаленных от плоскости классификации, за счет нелинейного отображения и относительно увеличивает вес точек данных, наиболее важных для классификации. 
4. Логистическая регрессия относительно проще и понятнее, особенно для крупномасштабной линейной классификации. Понимание и оптимизация SVM относительно сложны. После того, как SVM преобразуется в двойную задачу, для классификации требуется только вычислить расстояние от нескольких опорных векторов. Это имеет очевидные преимущества при расчете сложной функции ядра, что может значительно упростить модель и расчет. . 
5. Что может логика, может svm, но могут быть проблемы с точностью, а какая-то логика, которую умеет svm, не может.
источник:blog.CSDN.net/Tim com PP/AR…

 

8 Расскажите мне об известных вам функциях ядра. Основы машинного обучения ML Easy

Обычно люди выбирают из каких-то часто используемых функций ядра (по разным задачам и данным, выбирая разные параметры, фактически получая разные функции ядра), например:

  • Полиномиальное ядро, очевидно, пример, который мы только что привели, является здесь частным случаем полиномиального ядра (R = 1, d = 2). Хотя это более хлопотно и ненужно, отображение, соответствующее этому ядру, действительно может быть записано.Размерность пространства равнаявляется размерностью исходного пространства.
  • Гауссово ядро, это ядро ​​— упомянутый в начале парень, который отображает исходное пространство в бесконечномерное пространство. Однако, еслиЕсли выборка очень велика, веса признаков высокого порядка на самом деле очень быстро затухают, так что фактически (численно аппроксимировано) эквивалентно низкоразмерному подпространству; и наоборот, еслиВыберите очень маленькое, и вы сможете отобразить произвольные данные, чтобы они были линейно разделимыми — конечно, это не всегда хорошо, потому что могут возникнуть очень серьезные проблемы переобучения. Однако, как правило, регулируя параметры, ядро ​​Гаусса на самом деле довольно гибкое и является одной из наиболее широко используемых функций ядра. Пример, показанный на рисунке ниже, предназначен для отображения низкоразмерных линейно неразделимых данных в многомерное пространство с помощью функции ядра Гаусса:
  • Линейное ядро, что на самом деле является внутренним произведением в исходном пространстве. Основная цель существования этого ядра состоит в том, чтобы унифицировать «задачи в пространстве после отображения» и «задачи в пространстве до отображения» по форме (имеется в виду, что мы иногда пишем код, или пишем формулы Иногда, пока вы написать шаблон или общее выражение, а потом подставить в разные ядра, можно.На данный момент форма унифицирована, и нет необходимости писать линейную и нелинейную отдельно).

 

9 Различия и связи между LR и линейной регрессией. Машинное обучение Модели машинного обучения Средний уровень
@AntZ: отрасль LR обычно относится к логистической регрессии (логистическая регрессия), а не к линейной регрессии (линейная регрессия).LR применяет сигмовидную функцию к выходному значению диапазона действительных чисел линейной регрессии, чтобы свести значение к диапазону от 0 до 1, и поэтому его целевой функцией является изменение функции разности суммы квадратов на логарифмическую функцию потерь, чтобы обеспечить производные, необходимые для оптимизации (сигмоидальная функция является бинарным частным случаем функции softmax, и все ее производные имеют форму f*(1-f) значения функции). Обратите внимание, что LR часто используется для решения задачи бинарной классификации 0/1, но она слишком тесно связана с линейной регрессией, а также неосознанно называется регрессией (жилет везде).Если требуется многомерная классификация, сигмовидная заменена со знаменитым softmax.
@nishizhen: Лично для меня логистическая регрессия и линейная регрессия являются обобщенными линейными регрессиями.
Во-вторых, целевая функция оптимизации классической линейной модели — метод наименьших квадратов, а логистическая регрессия — функция правдоподобия,
Кроме того, линейная регрессия предсказывает во всей области действительных чисел, а чувствительность постоянна, в то время как диапазон классификации должен находиться в пределах [0,1]. Логистическая регрессия — это регрессионная модель, которая уменьшает диапазон прогнозирования и ограничивает прогнозируемое значение до [0, 1].Поэтому для таких задач надежность логистической регрессии лучше, чем у линейной регрессии.
@Good Guys: Модель логистической регрессии по сути является моделью линейной регрессии, а логистическая регрессия теоретически поддерживается линейной регрессией. Но модель линейной регрессии не может работать с нелинейной формой сигмоиды, а сигмоид легко справляется с проблемой классификации 0/1.

 

10 В чем разница между GBDT и XGBoost (дерево решений, случайный лес, загрузка, Adaboot)? Модели машинного обучения ML — это сложно
@AntZ
Ансамбльный объект ансамблевого обучения - учащийся.Бэгинг и Повышение относятся к двум типам методов ансамблевого обучения.Метод Бэгинга отбирает одинаковое количество образцов с заменой для обучения каждого учащегося, а затем интегрируется вместе (простое голосование);Метод бустинга использует все образцы (регулируемые веса) обучает каждого учащегося по очереди, итеративно ансамблем (плавное взвешивание).
Дерево решений является наиболее часто используемым обучающим устройством, и его процесс обучения заключается в построении дерева из корня, то есть о том, как определить разделение конечных узлов.Дерево решений ID3/C4.5 использует информационную энтропию для расчета оптимального разделения, и дерево решений CART использует индекс Джини для расчета оптимального разделения Разделение, дерево решений xgboost использует коэффициенты расширения Тейлора второго порядка для расчета оптимального разделения.
Все ученики, упомянутые ниже, являются деревьями решений:
Способ упаковки:
Между учащимися нет сильной зависимости, учащиеся могут обучаться и генерироваться параллельно, а методом интеграции обычно является голосование;
Случайный лес является представителем бэгинга, с замещающей выборкой, каждый учащийся случайным образом выбирает некоторые функции для оптимизации;
Способ повышения:
Между учащимися существует сильная зависимость, и они должны генерироваться последовательно, а метод интеграции - взвешенная сумма;
Adaboost относится к Boosting и использует экспоненциальную функцию потерь для замены функции потерь 0/1 исходной задачи классификации;
GBDT является отличным представителем Boosting.Он выполняет градиентный спуск по приблизительному значению остатка функции, использует дерево регрессии CART в качестве обучающего элемента и интегрирует его в модель регрессии;
xgboost принадлежит мастеру Boosting.Он выполняет градиентный спуск по аппроксимации остатка функции и использует информацию о градиенте второго порядка во время итерации.Интегрированная модель может быть классифицирована или регрессирована.Поскольку ее можно рассчитать параллельно по признаку детализация, как структурный риск, так и инженерная реализация могут быть решены.Многие оптимизации, обобщение, производительность и масштабируемость лучше, чем GBDT.
По поводу деревьев решений вот статья "алгоритм дерева решений". А Random Forest — это классификатор, который содержит несколько деревьев решений. Что касается AdaBoost, это аббревиатура от «Adaptive Boosting» на английском языке.Что касается AdaBoost, вы можете прочитать эту статью «Принцип и вывод алгоритма Adaboost». GBDT (Gradient Boosting Decision Tree), алгоритм дерева принятия решений с градиентным восхождением, эквивалентен комбинированному дереву решений и алгоритму повышения градиентного восхождения.
@Xijun LI: xgboost похож на оптимизированную версию gbdt с повышенной точностью и эффективностью. По сравнению с gbdt, конкретные преимущества:
1. Функция потерь аппроксимируется биномом разложения Тейлора, а не первой производной, как в gbdt.
2. Ограничения регуляризации накладываются на структуру дерева, чтобы модель не была чрезмерно сложной и уменьшала возможность переобучения.
3. Способ разделения узлов отличается, gbdt — это используемый коэффициент Джини, а xgboost выводится после оптимизации.
Подробнее см.:Бактерии. GitHub.IO/2017/06/03/…

 

11 Почему xgboost использует расширение Тейлора и каковы его преимущества? Модели машинного обучения ML — это сложно
@AntZ: xgboost использует частные производные первого и второго порядка, а производная второго порядка способствует более быстрому и точному градиентному спуску.Используйте расширение Тейлора, чтобы получить форму производной функции второго порядка в качестве независимой переменной, можно выбрать конкретный вид функции потерь. В случае оптимизация расщепления листа может быть выполнена только с опорой на значение входных данных, что существенно отделяет выбор функции потерь от оптимизации алгоритма модели. / выбор параметра, Это разъединение увеличивает применимость xgboost, позволяя выбрать функцию потерь по мере необходимости, ее можно использовать для классификации или регрессии.

12 Как xgboost находит оптимальные функции? Вернуть или не вернуть? Модели машинного обучения ML — это сложно
@AntZ: xgboost дает оценку прироста каждой функции в процессе обучения, и функция с наибольшим приростом будет выбрана в качестве основы для разделения, таким образом запоминая важность каждой функции во время обучения модели - от корня до середины листья Количество раз, когда узел использует функцию, используется в качестве порядка важности функции.
xgboost относится к методу обучения повышающего ансамбля, и образцы не заменяются, поэтому каждый раунд расчетных образцов не повторяется.С другой стороны, xgboost поддерживает подвыборку, то есть каждый раунд расчета не может использовать все образцы для уменьшить переоснащение Кроме того, xgboost также имеет выборку столбцов, которая случайным образом выбирает часть функций в процентах в каждом раунде расчета, что не только повышает скорость расчета, но и уменьшает переобучение.

13 Говоря о стереотипах ведения переговоров и генеративных моделях? Основы машинного обучения ML Easy
Дискриминантный метод: функция принятия решений Y = f(X) определяется непосредственно из данных, или в качестве модели прогнозирования используется условная вероятность распределения P(Y|X), то есть дискриминантная модель.
Метод генерации: совместная функция распределения плотности вероятности P(X, Y) изучается из данных, а затем получается условное распределение вероятности P(Y|X) в качестве прогнозируемой модели, то есть генеративной модели.
Дискриминативную модель можно получить из генеративной модели, но генеративную модель нельзя получить из дискриминативной модели.
Общие дискриминантные модели: K-ближайший сосед, SVM, дерево решений, персептрон, линейный дискриминантный анализ (LDA), линейная регрессия, традиционная нейронная сеть, логистическая регрессия, бустинг, условное случайное поле.
Распространенными генеративными моделями являются: Наивный Байес, Скрытая модель Маркова, Модель гауссовой смеси, Модель генерации темы документа (LDA), разница между машинами Больцмана с ограничениями L1 и L2. Основы машинного обучения ML Easy
Норма L1 (норма L1) — это сумма абсолютных значений каждого элемента в указателе, и она также известна как «регуляризация Лассо». 
Например, вектор A=[1,-1,3], тогда норма L1 вектора A равна |1|+|-1|+|3|.
Подводя итог просто:
Норма L1: это сумма абсолютных значений каждого элемента вектора x. 
Норма L2: это степень 1/2 суммы квадратов каждого элемента вектора X. Норма L2 также известна как евклидова норма или норма Фробениуса.
Lp норма: это степень 1/p суммы абсолютного значения каждого элемента вектора x в степени p.
В процессе машинного обучения опорных векторов норма L1 на самом деле является процессом поиска оптимума для функции стоимости.Поэтому регуляризация нормы L1 добавляет норму L1 к функции стоимости, так что полученный результат удовлетворяет разреженности.Таким образом, людям удобно извлекать признаки. 
Норма L1 может сделать веса разреженными и облегчить извлечение признаков. 
Норма L2 может предотвратить переоснащение и улучшить способность модели к обобщению.
@AntZ: Разница между L1 и L2, почему такая большая разница, когда один минимизирует абсолютное значение, а другой минимизирует квадрат? Это видно из того, что одна из производных равна 1, а другая w. Вблизи нуля L1 падает до нуля с постоянной скоростью, а L2 полностью останавливается. Это показывает, что L1 является несущественным признаком (или , важность не на порядок) выше) устранить как можно скорее, L2 - сжать вклад признаков до минимума, но не до нуля.Два работают вместе, то есть работать вместе наравне с теми признаками, чьи важность на порядок (наиболее важная) (короче не поднимать праздных людей и не быть сверхчеловеком).

14 Каким распределениям подчиняются регулярные априоры L1 и L2 соответственно. Основы машинного обучения ML Easy
@Classmate Qi: В интервью расскажите, каким распределениям подчиняются обычные априоры L1 и L2, L1 — это распределение Лапласа, а L2 — распределение Гаусса.
@AntZ: Априорное распределение является отправной точкой для оптимизации. Преимущество априорного анализа заключается в том, что он может иметь хорошую производительность обобщения в небольших наборах данных. Конечно, это достигается, когда априорное распределение близко к реальному распределению. Из теории информации Из С точки зрения добавления правильной априорной информации в систему, безусловно, улучшится производительность системы.
Введение нормального априорного распределения Гаусса для параметров эквивалентно регуляризации L2, с которой все знакомы:

Введение Лапласа перед параметрами эквивалентно регуляризации L1, как показано на следующем рисунке:

Как видно из двух приведенных выше рисунков, априорный уровень L2 стремится к нулю, а априорный уровень L1 сам стремится к нулю.

 

15 Наиболее успешным применением CNN является CV, так почему же многие проблемы в НЛП и речи могут быть решены с помощью CNN? Почему CNN также используется в AlphaGo? В чем сходство между этими несвязанными вопросами? Как CNN уловила эту общность? Применение глубокого обучения DL сложно
@Сюй Хань, источник:zhuanlan.zhihu.com/p/25005808
Deep Learning -Yann LeCun, Yoshua Bengio & Geoffrey Hinton
Learn TensorFlow and deep learning, without a Ph.D.
The Unreasonable Effectiveness of Deep Learning -LeCun 16 NIPS Keynote
Актуальность вышеперечисленных несвязанных задач заключается в том, что существует связь между частью и целым: низкоуровневые признаки объединяются, образуя высокоуровневые признаки, и получается пространственная корреляция между разными признаками. Как показано на рисунке ниже: Элементы низкого уровня, такие как прямые линии/кривые, объединяются в разные формы, и, наконец, получается представление автомобиля.
У CNN есть четыре основных способа понять эту общность: локальное соединение/распределение веса/операция объединения/многоуровневая структура.
Локальное соединение позволяет сети извлекать локальные характеристики данных; разделение веса значительно снижает сложность обучения сети, фильтр извлекает только одну характеристику и выполняет свертку всего изображения (или голоса/текста); операция объединения и многоуровневость структура. При этом реализуется уменьшение размерности данных, а локальные признаки низкого уровня объединяются в признаки более высокого уровня для представления всей картины. Как показано ниже:

На приведенном выше рисунке, если обработка каждой точки использует один и тот же фильтр, это полная свертка, а если используется другой фильтр, это локальная конверсия.
Кроме того, про CNN вот статья "Примечания CNN: популярное понимание сверточных нейронных сетей".

 

16 Расскажите об Adaboost, формуле обновления веса. Когда слабым классификатором является Gm, вес каждой выборки равен w1, w2..., напишите формулу окончательного решения. Модели машинного обучения ML — это сложно

Учитывая набор обучающих данных T={(x1,y1), (x2,y2)…(xN,yN)}, где экземплярыx \in \mathcal{X}, а пространство экземпляра\mathcal{X} \subset \mathbb{R}^n, yi принадлежит набору меток {-1, +1}, цель Adaboost — изучить серию слабых классификаторов или базовых классификаторов из обучающих данных, а затем объединить эти слабые классификаторы в сильный классификатор.

Алгоритм работы Adaboost выглядит следующим образом:

  • **шаг1.** Во-первых, инициализируйте распределение веса обучающих данных. Каждой обучающей выборке изначально присваивается одинаковый вес: 1/N.

  • **шаг2.** Выполните несколько раундов итерации, используйте m = 1, 2, ..., M для представления количества раундов итерации.

a, Используйте набор обучающих данных с распределением веса Dm, чтобы научиться получать базовый классификатор (выберите порог с наименьшей частотой ошибок для разработки базового классификатора):

b, Рассчитайте частоту ошибок классификации Gm (x) в наборе обучающих данных.

Из приведенной выше формулы видно, что Gm(x) на обучающем наборе данныхЧастота ошибокem — сумма весов выборок, неправильно классифицированных Gm(x).

c, Рассчитайте коэффициент Gm(x), am представляет важность Gm(x) в итоговом классификаторе (цель: получить вес базового классификатора в итоговом классификаторе):

Из приведенной выше формулы видно, что при em = 0, а am увеличивается с уменьшением em, а это означает, что чем меньше частота ошибок классификации, тем лучше эффект базового классификатора в конечный классификатор большой.

d, Обновите распределение веса набора обучающих данных (цель: получить новое распределение веса выборки) для следующей итерации.

Вес неправильно классифицированных выборок по базовому классификатору Gm(x) увеличивается, а вес правильно классифицированных выборок уменьшается. Таким образом, метод AdaBoost может «сосредоточиться» или «сосредоточиться» на более сложных образцах.

где Zm — коэффициент нормализации, делающий Dm+1 распределением вероятностей:

  • Шаг 3.Объединение слабых классификаторов

Таким образом, окончательный классификатор получается следующим образом:


Подробнее читайте в этой статье: 《Принцип и вывод алгоритма Adaboost".

 

17 Вывод структуры LSTM, почему он лучше, чем RNN? Модель глубокого обучения DL Сложно
Извлекайте изменения в воротах забвения, входных воротах, состоянии ячеек, скрытой информации и т. д.; поскольку LSTM имеет вход и выход, а текущая информация о ячейках накладывается после управления входными воротами, RNN является умножением, поэтому LSTM может предотвратить исчезновение градиентов. или взрыв

Друзья, которые часто ищут что-то в Интернете, знают, что когда вы случайно вводите слово, которого не существует, поисковая система подскажет, хотите ли вы ввести определенное правильное слово, например, когда вы вводите «» в Google.Julw", система угадывает ваше намерение: искать "июль", как показано на следующем изображении:

Это называется проверкой орфографии. По словам сотрудника GoogleстатьяПоказано, что проверка орфографии Google основана на байесовском подходе. Расскажите, как вы понимаете, в частности, как Google использует байесовский метод для реализации функции «проверки орфографии». Машинное обучение ML-приложений сложно

Когда пользователь вводит слово, оно может быть написано правильно или неправильно. Если вы пишете c (для правильного написания) для правильного написания и w (для неправильного) для опечаток, то «проверка орфографии» делает следующее: пытается сделать вывод c, когда встречается w. Другими словами: известно w, а затем среди нескольких альтернатив найти наиболее вероятное c, т. е. найтимаксимальное значение .
А по теореме Байеса имеем:

Поскольку для всех альтернатив c соответствующий w один и тот же, поэтому их P(w) одинаковы, поэтому нам нужно только максимизировать

 

Вот и все. в:

  • P(c) представляет собой «вероятность» появления правильного слова, которую можно заменить «частотой». Если у нас есть достаточно большая текстовая библиотека, частота появления каждого слова в этой текстовой библиотеке эквивалентна вероятности его появления. Чем выше частота слова, тем больше P(c). Например, когда вы вводите неправильное слово «Julw», система более склонна догадываться, что вы хотите ввести слово «Jul», а не «Jult», потому что «июль» встречается чаще.
  • P(w|c) представляет вероятность неправильного написания w при попытке написать c. Для упрощения предположим, что чем ближе два слова глифически, тем больше вероятность того, что они будут написаны с ошибками, и тем больше будет P(w|c). Например, варианты написания, отличающиеся на одну букву, встречаются с большей вероятностью, чем варианты написания, отличающиеся на две буквы. Если вы хотите написать слово «июль» по буквам, то вы, скорее всего, напишете «Julw» с ошибкой (разница в одной букве), чем «Jullw» (разница в двух буквах). Стоит отметить, что эта проблема обычно называется «расстоянием редактирования», см. блогэтостатья.

Поэтому мы сравниваем частоту встречаемости всех слов с похожим написанием в текстовой базе данных, а затем выбираем слово с наибольшей частотой, то есть слово, которое пользователь хочет ввести больше всего. Конкретный процесс расчета и дефекты этого метода см.здесь.

 

18. Почему Наивный Байес такой «наивный»? Модели машинного обучения ML Easy
Потому что предполагается, что роли всех признаков в наборе данных одинаково важны и независимы. Как мы знаем, это предположение совершенно неверно в реальном мире, так что наивный байесовский алгоритм действительно «наивен».
@AntZ: Наивное (Наивное) значение наивной байесовской модели «очень простое и наивное», чтобы предположить, что признаки выборки независимы друг от друга Это предположение в основном не существует в действительности, но корреляция признаков очень мала. по-прежнему много практических ситуаций, так что эта модель все еще может работать очень хорошо.

 

19 Пожалуйста, сравните примерно разницу между plsa и LDA. Машинное обучение Модели машинного обучения Средний уровень

  • ПЛСА, после определения тематического распределения и распределения слов, с определенной вероятностью (,) для выбора конкретных тем и терминов, соответственно, для создания хорошего документа. Затем, когда распределение тем и распределение слов меняются местами в соответствии с сгенерированным документом, алгоритм EM (идея оценки максимального правдоподобия), наконец, используется для решения значений двух неизвестных, но фиксированных параметров:(Зависит отпреобразовано) и(Зависит отпреобразован).

    • Вероятность того, что документ d создает тему z, и вероятность того, что тема z создает слово w, являются двумя фиксированными значениями.

      • Например, документ d создает тему z. Для документа d распределение тем определено. Например, {P(zi|d), i = 1,2,3} может быть {0,4,0,5,0,1}, что означает z1, z2, z3, эти три Вероятность того, что тема выбрана документом d, является фиксированным значением: P(z1|d) = 0,4, P(z2|d) = 0,5, P(z3|d) = 0,1, как показано на следующем рисунке (рис. рисунок взят из Shen Bo PPT Superior):

  • Но в рамках БайесаВ ЛДА,мыбольше никогдаРаспределение тем (распределение вероятности появления каждой темы в документе) и распределение слов (распределение вероятности появления каждого слова в определенной теме) считаются однозначно определенными (вместо случайных величин), но существует много возможностей. . Но документ должен соответствовать распределению по теме и распределению по словам, что делать? LDA получает для них два априорных параметра Дирихле, которые случайным образом извлекают распределение тем и распределение слов для определенного документа.

    • Вероятность того, что документ d порождает тему z (точнее, именно Дирихле априори генерирует распределение тем Θ для документа d, а затем генерирует тему z в соответствии с распределением тем Θ), вероятность того, что тема z порождает слово w, равна нулю. определяется уже не какой-то двумя величиной, а случайной величиной.

      • Опять же, давайте возьмем пример документа d, специально создающего тему z. Для данного документа d теперь есть несколько тем z1, z2, z3, и их распределение по темам { P(zi|d), i = 1, 2, 3 } может быть {0,4, 0,5, 0,1} или {0,2 , 0,2, 0,6}, то есть вероятность выбора этих тем по d уже не считается определенной величиной, она может быть P(z1|d) = 0,4, P(z2|d) = 0,5, P(z3 | d) = 0,1, возможно также, что P(z1|d) = 0,2, P(z2|d) = 0,2, P(z3|d) = 0,6 и т. д., и мы не уверены, какое значение задает тематическое распределение (Почему? Это основная идея байесовского подхода, рассматривающего неизвестные параметры как случайные величины, больше не рассматриваемые как определенное значение), но его априорное распределение является распределением Дирихле, поэтому его можно получить из бесконечного числа распределений тем Согласно априорному принципу Дирихле, тема выбирается и распределяется случайным образом. Как показано на следующем рисунке (рисунок взят из PPT Shen Bo):

Другими словами, LDA дает эти два параметра (,) добавляет к априорному распределению два параметра (байесовское распределение): априорное распределение тематического распределения распределение Дирихле, и распределение Дирихле до распределения слов.

Подводя итог, LDA на самом деле просто байесовская версия pLSA.После того, как документ создан, оба они должны сделать вывод о его распределении тем и распределении слов в соответствии с документом, но метод вывода параметров отличается, и оценка максимального правдоподобия используется в pLSA, Идея вывода двух неизвестных фиксированных параметров, и LDA превращает эти два параметра в случайные величины и добавляет дирихле до.

Подробнее см.: 《Популярное понимание тематической модели LDA".

 

20 Пожалуйста, кратко опишите алгоритм ЭМ. Машинное обучение Модели машинного обучения Средний уровень

@tornadomeet, источник анализа этого вопроса:Блог woohoo.cn на.com/tornado, встреча…
Иногда, поскольку генерация выборок связана со скрытыми переменными (скрытые переменные не могут наблюдаться), оценка максимального правдоподобия обычно используется для нахождения параметров модели.Поскольку существуют скрытые переменные, вывод параметров функции правдоподобия вы не можете его найти, вы можете использовать алгоритм EM, чтобы найти параметры модели (может быть более одного параметра модели).Алгоритм EM обычно делится на два этапа:

Шаг E: Выберите набор параметров, чтобы найти значение условной вероятности неявной переменной под параметром;

Шаг M: Объедините условную вероятность неявной переменной, найденную на шаге E, чтобы найти максимальное значение функции нижней границы функции правдоподобия (по сути, функции ожидания).

Повторяйте вышеуказанные 2 шага до сходимости.

Формула выглядит следующим образом:

Процесс вывода функции нижней границы в формуле М-шага:

Типичным примером алгоритма EM является модель GMM.Каждая выборка может быть сгенерирована k гауссианами, но вероятность, сгенерированная каждым гауссианом, различна, поэтому каждая выборка имеет соответствующее гауссово распределение (некоторые из k гауссианов).A), скрытая переменная в это время представляет собой некоторое распределение Гаусса, соответствующее каждой выборке.

Формула E-шага GMM выглядит следующим образом (рассчитайте вероятность того, что каждая выборка соответствует каждой гауссиане):

Более конкретная формула расчета:

Формула M-шага выглядит следующим образом (рассчитайте долю каждого гауссиана, среднее значение и дисперсию этих трех параметров):

 

21 Как выбирается K в KNN? Модели машинного обучения ML Easy
О том, что такое KNN, вы можете прочитать в этой статье: "От алгоритма K-ближайшего соседа, измерения расстояния до дерева KD, алгоритма SIFT+BBF". Выбор значения K в KNN окажет значительное влияние на результаты алгоритма K-ближайшего соседа. Как говорится в книге доктора Ли Ханга «Статистические методы обучения»:

  1. Если вы выберете небольшое значение K, это эквивалентно прогнозированию с обучающими примерами в меньшем поле, ошибка аппроксимации «обучения» будет уменьшена, и только обучающие примеры, которые близки или похожи на входные примеры, будут способствовать предсказанию. результаты., в то же время, проблема заключается в том, что ошибка оценки «обучения» будет увеличиваться. Другими словами, уменьшение значения K означает, что общая модель усложняется и может происходить переобучение;
  2. Если выбрано большее значение K, это эквивалентно использованию обучающих примеров в большей области для прогнозирования.Преимущество заключается в том, что ошибка оценки обучения может быть уменьшена, но недостаток заключается в том, что ошибка аппроксимации обучения будет увеличиваться. В это время обучающие экземпляры, которые далеки (не похожи) от входного экземпляра, также будут воздействовать на предиктор, делая прогноз неверным, а увеличение значения K означает, что общая модель становится проще.
  3. K=N, совершенно недостаточно, потому что неважно, какой входной экземпляр в это время, это всего лишь простое предсказание, что он принадлежит к самому утомленному в обучающем экземпляре Модель слишком проста и игнорирует много полезного информация в учебном экземпляре.

В практических приложениях значение K обычно принимает относительно небольшое значение, например, при использованииПерекрестная проверкаметод (проще говоря, некоторые образцы используются в качестве обучающего набора, а некоторые используются в качестве тестового набора) для выбора оптимального значения K.

 

22 Методы предотвращения переобучения. Основы машинного обучения ML Easy
Причина переобучения заключается в том, что способность алгоритма к обучению слишком велика; некоторые допущения (такие как независимое и идентичное распределение выборок) могут не выполняться; слишком малое количество обучающих выборок не может оценить распределение всего пространства. 
Подход:

  • Ранняя остановка: прекратите обучение, если производительность модели значительно не улучшится после многих итераций обучения.
  • Увеличение набора данных: увеличение исходных данных, исходные данные плюс случайный шум, передискретизация
  • Регуляризация
  • Перекрестная проверка
  • Выбор функции / уменьшение функции
  • Создание проверочного набора — самый простой способ предотвратить переобучение. Цель нашей окончательной обученной модели — хорошо работать на проверочном, а не на тренировочном наборе.
  • Регуляризация может ограничить сложность модели.

 

23 Почему в машинном обучении вы часто нормализуете данные? Машинное обучение Основы машинного обучения Средний уровень

@zhanlijun, источник анализа этого вопроса:блог woo woo woo.cn на.com/LBSwhile/afraid/444…

Модели машинного обучения широко используются в интернет-индустрии, например, сортировка (см.:Сортировка учебных практик), рефералы, античит, таргетинг (см.:Наивный байесовский алгоритм локализации)Ждать. В общем, при создании приложений для машинного обучения большая часть времени тратится на обработку признаков.Ключевым шагом является нормализация данных признаков.Зачем это нормализовать? Многие студенты не понимают объяснение, данное Википедией: 1) После нормализации скорость градиентного спуска для поиска оптимального решения увеличивается; 2) Нормализация может повысить точность. Ниже приводится краткое объяснение этих двух моментов.

1 Почему нормализация увеличивает скорость градиентного спуска для поиска оптимального решения?

Видео Стэнфордского машинного обучения хорошо объясняет это:class.course RA.org/beautiful-003/traditional…

Как показано на рисунке ниже, синие кружки представляют контуры двух объектов. Интервал между двумя признаками X1 и X2 на левом изображении сильно отличается.Интервал X1 равен [0, 2000], а интервал X2 равен [1, 5]. Контурные линии, образованные ими, очень четкие. При использовании метода градиентного спуска для поиска оптимального решения очень вероятно, что он пойдет по «зигзагообразному» маршруту (вертикальная контурная линия), что приведет к сходимости множества итераций;

Рисунок справа нормализует две исходные функции, а соответствующие контурные линии выглядят очень круглыми, что может сходиться быстрее при решении градиентного спуска.

Поэтому, если модель машинного обучения использует метод градиентного спуска для нахождения оптимального решения, нормализация часто очень необходима, иначе сходимость будет затруднена или даже невозможна.

2 Нормализация может повысить точность

Некоторым классификаторам необходимо вычислять расстояние между образцами (например, евклидово расстояние), например KNN. Если диапазон диапазона признаков очень велик, расчет расстояния в основном зависит от этого признака, что противоречит фактической ситуации (например, фактическая ситуация такова, что признак с малым диапазоном значений более важен).

3 типа нормализации

1) Линейная нормализация

Этот метод нормализации больше подходит для случая численного сравнения. У этого метода есть недостаток: если max и min нестабильны, то легко сделать нестабильным результат нормализации, а также нестабильным эффект последующего использования. В реальных условиях max и min можно заменить эмпирическими постоянными значениями.

2) Нормализация стандартного отклонения

Обработанные данные соответствуют стандартному нормальному распределению, то есть среднее значение равно 0, стандартное отклонение равно 1, а функция преобразования:

где μ — среднее значение всех выборочных данных, а σ — стандартное отклонение всех выборочных данных.

3) Нелинейная нормализация

Часто используется в сценариях с большой дифференциацией данных, некоторые значения большие, а некоторые маленькие. Исходное значение отображается некоторой математической функцией. К методам относятся логарифмический, экспоненциальный, тангенциальный и т. д. Кривая нелинейной функции, такой как log(V, 2) или log(V, 10), должна определяться в соответствии с распределением данных.

Поговорите о проблеме нормализации в глубоком обучении. Основы глубокого обучения DL Easy

Подробности смотрите в этом видео:Нормализация в глубоком обучении".

 

24 Какие алгоритмы машинного обучения не требуют нормализации? Основы машинного обучения ML Easy
Вероятностные модели не нуждаются в нормализации, потому что они заботятся не о значении переменной, а о распределении переменной и условной вероятности между переменными, как деревья решений, rf. А задачи оптимизации вроде adaboost, svm, lr, KNN, KMeans нуждаются в нормализации.
@Doctor Guan: Я понимаю, что нормализация и стандартизация в основном предназначены для того, чтобы сделать вычисления более удобными.Например, размеры двух переменных могут быть разными, и значение одной может быть намного больше, чем у другой, поэтому, когда они используются как переменных одновременно, это может вызвать проблемы при численном расчете, например, говорят, что обратная матрица может быть очень неточной или сходимость метода градиентного спуска затруднена, и если необходимо вычислить евклидово расстояние, размерность также может потребоваться скорректировать, поэтому я считаю, что l и knn должны быть хорошими, если они точны. Что касается других алгоритмов, я также думаю, что было бы полезно сначала стандартизировать, если переменные размерности сильно различаются.
@汉小阳: Обычно я привык говорить о древовидной модели, и упомянутая здесь вероятностная модель может означать то же самое.

 

25 Почему нормализация не нужна для древовидных структур? Основы машинного обучения ML Easy
A: Числовое масштабирование не влияет на положение точки разделения. Поскольку первый шаг сортируется по собственным значениям, а порядок сортировки неизменен, то ветви и точки разделения, которым они принадлежат, не будут отличаться. Для линейной модели, такой как LR, у меня есть две функции: одна (0,1), а другая (0,10000), поэтому при использовании градиентного спуска контур потерь имеет форму эллипса, поэтому мне требуется много итераций для итерации до оптимальной точки, но если выполняется нормализация, то контурная линия будет круговой, тогда SGD будет выполнять итерацию до начала координат, и количество требуемых итераций будет меньше.
Кроме того, обратите внимание, что древовидная модель не может выполнять градиентный спуск, потому что древовидная модель представляет собой шаг, точка шага неуправляемая, а вывод бессмысленен, поэтому древовидная модель (дерево регрессии) находит оптимальную точку, находя оптимальную разделить Нажмите Готово.

 

26 Причины нормализации данных (или стандартизации, обратите внимание, что нормализация и нормализация разные вещи). Основы машинного обучения ML Easy
@I Love Big Bubbles, источник:blog.CSDN.net/Я люблю пушки из-за страха…
Следует подчеркнуть, что лучше не нормализовать, если это можно нормализовать Причина нормализации данных заключается в том, что размеры каждого измерения различны. И его нужно нормализовать в зависимости от ситуации.

  • После того, как некоторые модели масштабируются неравномерно по каждому измерению, оптимальное решение не эквивалентно исходному (например, SVM) и требует нормализации.
  • Некоторое масштабирование модели эквивалентно оригиналу, например: LR не нужно нормализовать, но на практике параметры модели часто решают итеративно.Если целевая функция слишком плоская (представьте себе очень плоскую модель Гаусса), итерационный алгоритм не сойдется, поэтому нормализация данных выполняется в худшем случае.

Дополнение: На самом деле суть вызвана разными функциями потерь.SVM использует расстояние Эйлера.Если признак большой, то будут преобладать другие измерения. LR может сделать функцию потерь неизменной путем корректировки веса.

27 Кратко опишите ход полного проекта машинного обучения. машинное обучение ML-приложения
@Хань Сяоян, Лун Синьчэнь
1 Аннотация к математическим задачам
Выявление проблемы — первый шаг в машинном обучении. Процесс обучения машинному обучению обычно занимает очень много времени, а временные затраты на случайные попытки очень велики.
Абстракция здесь представляет собой математическую задачу, а это означает, что мы уточняем, какие данные мы можем получить, является ли целью задача классификации, регрессии или кластеризации, если нет, классифицируется ли она как задача определенного типа.

2 Получить данные
Данные устанавливают верхнюю границу результатов машинного обучения, а алгоритмы просто пытаются максимально приблизить эту верхнюю границу.
Данные должны быть репрезентативными, иначе они неизбежно будут переобуваться.
Более того, для задач классификации перекос данных не должен быть слишком сильным, а количество данных в разных категориях не должно иметь разрыв в несколько порядков.
Кроме того, есть также оценка величины данных, сколько выборок и сколько признаков, можно оценить степень потребления памяти и судить, можно ли использовать память в процессе обучения. Если вы не можете оторваться от него, вам следует подумать об улучшении алгоритма или использовании некоторых методов уменьшения размерности. Если объем данных слишком велик, необходимо считать их распределенными.

3 Предварительная обработка признаков и выбор признаков
Хорошие данные должны быть в состоянии извлечь хорошие функции, чтобы быть действительно эффективными.
Предварительная обработка признаков и очистка данных являются важными шагами, которые часто могут значительно улучшить эффект и производительность алгоритма. Нормализация, дискретизация, факторизация, обработка пропущенных значений, удаление коллинеарности и т. д., на них тратится много времени в процессе интеллектуального анализа данных. Эти задачи просты и воспроизводимы, а выгоды стабильны и предсказуемы — это основные и необходимые шаги машинного обучения.
Отсеивание существенных функций и отбрасывание второстепенных требует от инженеров по машинному обучению многократного понимания бизнеса. Это оказало решающее влияние на многие результаты. При правильном выборе функций очень простые алгоритмы могут давать хорошие и стабильные результаты. Это требует использования соответствующих методов анализа достоверности признаков, таких как коэффициент корреляции, критерий хи-квадрат, средняя взаимная информация, условная энтропия, апостериорная вероятность, веса логистической регрессии и другие методы.

4 Обучение и настройка модели
До этого шага для обучения используется упомянутый выше алгоритм. Многие алгоритмы теперь можно упаковать в «черные ящики» для использования людьми. Но настоящим испытанием является корректировка (гипер)параметров этих алгоритмов, чтобы улучшить результаты. Это требует от нас глубокого понимания принципов алгоритма. Чем глубже понимание, тем лучше вы сможете найти суть проблемы и предложить хороший план настройки.

5 Диагностика модели
Как определиться с направлением и идеями тюнинга модели? Для этого необходимы методы диагностики моделей.
Переобучение и недообучение Суждение — важный шаг в диагностике модели. Общие методы, такие как перекрестная проверка, построение кривых обучения и т. д. Основная идея оптимизации переобучения заключается в увеличении объема данных и уменьшении сложности модели. Основная идея настройки недообучения состоит в том, чтобы увеличить количество и качество функций и повысить сложность модели.
Анализ ошибок также является важным шагом в машинном обучении. Наблюдая выборки ошибок, комплексно анализируйте причины ошибок: проблема ли это параметров или выбора алгоритма, проблема ли это характеристик или проблема самих данных...
Модель после диагностики нуждается в настройке, а новая модель после настройки нуждается в повторной диагностике Это процесс итеративной и непрерывной аппроксимации, который требует непрерывных попыток достижения оптимального состояния.

6 Слияние моделей
Вообще говоря, после слияния моделей эффект может быть в определенной степени улучшен. И это прекрасно работает.
В инженерии основным методом повышения точности алгоритма является работа над передней частью модели (очистка признаков и предварительная обработка, различные режимы выборки) и задней частью (слияние моделей). Поскольку они относительно стандартны и воспроизводимы, эффект относительно стабилен. Однако работы по непосредственной настройке параметров не так много, ведь обучение на большом количестве данных происходит слишком медленно, и гарантировать эффект сложно.

7 В прямом эфире
Эта часть содержания в основном связана с реализацией проекта. Инжиниринг ориентирован на результат, и эффект модели, работающей в режиме онлайн, напрямую определяет успех или неудачу модели. Он включает не только его точность, ошибку и т. д., но также скорость выполнения (временная сложность), потребление ресурсов (пространственная сложность) и приемлемость стабильности.
Эти рабочие процессы в основном представляют собой некоторый опыт, обобщенный в инженерной практике. Не каждый проект содержит завершенный процесс. Эта часть является лишь ориентировочным описанием.Только когда вы будете больше практиковаться и накапливать больше проектного опыта, вы сможете глубже понять себя.

Поэтому, исходя из этого, каждый онлайн-класс по алгоритму ML в июле добавляет соответствующие курсы, такие как разработка функций и настройка моделей. Например, вот видео открытого занятия»Обработка признаков и выбор признаков".

 

28 Почему логистическая регрессия дискретизирует признаки? Машинное обучение Модели машинного обучения Средний уровень
@Yan Lin, источник анализа этого вопроса:Ууху. Call.com/question/31…

В отрасли непрерывные значения редко используются напрямую в качестве входных данных для моделей логистической регрессии. Вместо этого непрерывные признаки дискретизируются в серии признаков 0 и 1 и передаются модели логистической регрессии. Преимущества этого следующее:

0. Легко увеличивать и уменьшать дискретные функции, легко и быстро повторять модель;

1. Умножение разреженного векторного внутреннего произведения выполняется быстро, а результаты вычислений легко хранить и расширять;

2. Дискретизированные признаки очень устойчивы к аномальным данным: например, признак, возраст которого >30, равен 1, в противном случае он равен 0. Если функции не дискретизированы, аномальные данные «возраст 300» вызовут большие помехи в модели;

3. Логистическая регрессия является обобщенной линейной моделью, и ее выразительная способность ограничена, после дискретизации одномерной переменной в N каждая переменная имеет отдельный вес, что эквивалентно введению нелинейности в модель, что может улучшить выразительную способность модели и увеличить посадку. ;

4. После дискретизации можно выполнить кроссовер признаков, заменив переменные M+N на переменные M*N, дополнительно введя нелинейность и улучшив способность выражения;

5. После дискретизации признаков модель будет более стабильной, например, если возраст пользователя дискретизирован, в качестве интервала используется 20-30, и пользователь не станет совсем другим человеком, потому что возраст пользователя на год старше. Конечно, выборки, примыкающие к интервалу, будут как раз наоборот, так что как делить интервал — вопрос знания;

6. После дискретизации признаков модель логистической регрессии упрощается и снижается риск переобучения модели.

Ли Му однажды сказал, что использование в модели дискретных или непрерывных функций на самом деле является компромиссом между «массивными дискретными функциями + простыми моделями» и «небольшим количеством непрерывных функций + сложными моделями». Для дискретизации можно использовать либо линейную модель, либо непрерывную функцию плюс глубокое обучение. Это зависит от того, любите ли вы выбрасывать функции или выбрасывать модели. Вообще говоря, первое несложно и может быть выполнено n людьми параллельно, при наличии успешного опыта; последнее в настоящее время очень хорошо, насколько далеко оно может зайти, еще предстоит увидеть.

 

29 Разница между new и malloc. Разработка программирования C/C++ легко
@Sommer_Xia, источник:blog.CSDN.net/Петролеум Эфир 1991/Ах…
1. malloc и free — стандартные библиотечные функции языка C++/C, а new/delete — операторы C++. Оба они могут использоваться для выделения динамической памяти и свободной памяти.
2. Для объектов не внутренних типов данных только maloc/free не может удовлетворить требования динамических объектов. Объекты автоматически выполняют конструкторы при их создании, а деструкторы автоматически выполняются перед смертью объектов. Поскольку malloc/free является библиотечной функцией, а не оператором, она не находится под управлением компилятора, и задача выполнения конструктора и деструктора не может быть возложена на malloc/free.
3. Поэтому язык C++ нуждается в операторе new, который может выполнять работу по динамическому выделению памяти и инициализации, и операторе delete, который может выполнять работу по очистке и освобождению памяти. Обратите внимание, что new/delete не являются библиотечными функциями.
4. Программы на C++ часто вызывают функции C, тогда как программы на C могут управлять динамической памятью только с помощью malloc/free

 

30 хеш-конфликтов и решения. Структуры данных/алгоритмы Умеренные
@Sommer_Xia, источник:blog.CSDN.net/Петролеум Эфир 1991/Ах…
Элементы с разными значениями ключа могут быть сопоставлены с одним и тем же адресом в хэш-таблице, что приведет к коллизии хэшей. Решение:
1) Открытый метод адресации: при возникновении конфликта в хеш-таблице формируется зондирующая (тестирующая) последовательность с использованием определенной зондирующей (также называемой зондирующей) методики. Ищите ячейку за ячейкой в ​​этой последовательности, пока не будет найдено заданное ключевое слово или не встретится открытый адрес (то есть адресная ячейка пуста) (если вы хотите вставить, когда обнаружен открытый адрес, вы можете вставить адрес в новый узел сохраняется в этой адресной единице). Если при поиске обнаруживается открытый адрес, это означает, что в таблице нет ключевых слов для поиска, то есть поиск не удался.
2) Метод повторного хэширования: создание нескольких различных хеш-функций одновременно.
3) Метод цепного адреса: все элементы, чей хэш-адрес равен i, составляют односвязный список, называемый цепочкой синонимов, а главный указатель односвязного списка хранится в i-м элементе хеш-таблицы, поэтому поиск, вставка и удаление находятся в основном в цепочке синонимов. Метод цепных адресов подходит для частых вставок и удалений.
4) Создайте общедоступную область переполнения: Разделите хеш-таблицу на две части: основную таблицу и таблицу переполнения.Все элементы, конфликтующие с основной таблицей, будут заполнены в таблице переполнения.

 

31 Что из нижеперечисленного не относится к преимуществам моделей CRF перед моделями HMM и MEMM (B) Модели машинного обучения ML Умеренная
A. Гибкие функции B. Высокая скорость C. Можно разместить больше контекстной информации D. Глобальная оптимизация
Прежде всего, CRF, HMM (модель скрытой лошади) и MEMM (модель скрытой лошади с максимальной энтропией) обычно используются для моделирования маркировки последовательностей.
Один из самых больших недостатков модели скрытой лошади заключается в том, что она не может учитывать особенности контекста из-за предположения о независимости выходных данных, что ограничивает выбор функций.
Модель скрытой лошади с максимальной энтропией решает проблему скрытых лошадей, и признаки могут быть выбраны произвольно, но, поскольку ее необходимо нормализовать в каждом узле, она может найти только локальное оптимальное значение, а также приводит к смещению меток. заключается в том, что все ситуации, которые не появляются в обучающем корпусе, игнорируются.
Условное случайное поле очень хорошо решает эту проблему, оно не нормализует каждый узел, но все признаки нормализуются глобально, поэтому можно получить глобальное оптимальное значение.
также"Инженер по машинному обучению, выпуск 8«Есть вероятностные графические модели.

 

32 Что такое энтропия. Основы машинного обучения ML Easy

Судя по названию, энтропия вызывает у людей очень загадочное чувство, я не знаю, что это такое. На самом деле определение энтропии очень простое, то есть оно используется для представления неопределенности случайных величин. Причина, по которой оно вызывает у людей таинственное чувство, вероятно, связана с тем, почему было выбрано такое имя и как его использовать.

Понятие энтропии возникло в физике и используется для измерения степени беспорядка термодинамической системы. В теории информации энтропия является мерой неопределенности.

Введение энтропии

На самом деле английским оригиналом энтропии является энтропия, первоначально предложенная немецким физиком Рудольфом Клаузиусом, и выражение ее таково:

 

 

Он представляет собой наиболее стабильное внутреннее состояние системы, когда нет внешнего возмущения. Позже, когда китайский ученый перевел энтропию, считая, что энтропия есть частное энергии Q и температуры T и связан с огнем, он перевел образ энтропии в «энтропию».

Мы знаем, что нормальным состоянием любой частицы является хаотическое движение, то есть «беспорядочное движение» Если частица «упорядочена», она должна потреблять энергию. Поэтому температуру (тепловую энергию) можно рассматривать как меру «упорядоченности», а «энтропию» можно рассматривать как меру «неупорядоченности».

Если нет внешнего источника энергии, закрытые системы становятся все более хаотичными (энтропия увеличивается). Например, если комнату не убирать, она не может становиться все более и более чистой (упорядоченной), она может становиться все более и более хаотичной (беспорядочной). Чтобы сделать систему более упорядоченной, должен быть ввод внешней энергии.

В 1948 году Шеннон Клод Э. Шеннон ввел информацию (энтропию), которая была определена как вероятность возникновения дискретных случайных событий. Чем упорядоченнее система, тем ниже информационная энтропия, и наоборот, чем хаотичнее система, тем выше информационная энтропия. Поэтому информационную энтропию можно рассматривать как меру степени упорядоченности системы.

Подробнее см. "Математический вывод в модели максимальной энтропии".

 

33 Определения энтропии, совместной энтропии, условной энтропии, относительной энтропии и взаимной информации. Машинное обучение Основы машинного обучения Средний уровень

Для лучшего понимания необходимы следующие знания о вероятности, которые необходимо понять:

  1. Заглавная буква X представляет собой случайную величину, а строчная буква x представляет конкретное значение случайной величины X;
  2. P(X) представляет собой распределение вероятностей случайной величины X, P(X, Y) представляет собой совместное распределение вероятностей случайных величин X и Y, а P(Y|X) представляет условную вероятность случайной величины Y, когда случайная величина X известна как распределенная;
  3. p(X = x) представляет собой вероятность того, что случайная величина X примет определенное значение, сокращенно обозначаемое как p(x);
  4. p(X = x, Y = y) представляет совместную вероятность, сокращенно p(x,y), p(Y = y|X = x) представляет условную вероятность, сокращенно p(y|x), и имеет : p(x,y) = p(x) * p(y|x).

энтропия: Если возможные значения случайной величины X равны X = {x1, x2,…, xk}, а ее распределение вероятностей равно P(X = xi) = pi(i = 1,2,…,n), тогда Энтропия случайной величины X определяется как:

    

Ставим в конце первый минус, получается:

Вышеупомянутые две формулы энтропии, независимо от того, какая из них используется, и они эквивалентны, имеют одно и то же значение (эти две формулы будут использоваться в дальнейшем).

 

    совместная энтропия: совместное распределение двух случайных величин X, Y может образовать совместную энтропию, которая представлена ​​H (X, Y).
Условная энтропия: в предпосылке появления случайной величины X новая энтропия, вызванная появлением случайной величины Y, определяется как условная энтропия Y, представленная H (Y | X), которая используется для измерения случайной величины при условие известной случайной величины X Неопределенность Y.

И эта формула верна: H(Y|X) = H(X,Y) – H(X), вся формула представляет энтропию, содержащуюся в появлении (X,Y), минус энтропия, содержащаяся в появлении только X . Что касается того, как его получить, см. вывод:

Кратко объясните приведенный выше процесс вывода. Вся формула состоит из 6 строк, среди которых

  • Основанием для переноса второй строки в третью является то, что предельное распределение p(x) равно сумме совместного распределения p(x, y);
  • Основанием для переноса третьей строки в четвертую является умножение общего множителя logp(x), а затем запись x и y вместе;
  • Основанием для переноса четвертой строки на пятую является следующее: поскольку обе сигмы имеют p(x,y), извлеките общий множитель p(x,y) и поместите его снаружи, а затем поместите -(log p(x, y) внутри ) - log p(x)) записывается как - log (p(x,y)/p(x) ) ;
  • Основанием для перемещения пятой строки в шестую является: p(x,y) = p(x) * p(y|x), поэтому p(x,y) / p(x) = p(y|x) ).

    Относительная энтропия:Также известна как взаимная энтропия, перекрестная энтропия, дискриминантная информация, энтропия Кульбака, дивергенция Кульбака-Лейбле и т. д. Пусть p(x) и q(x) — два распределения вероятностей значений в X, тогда относительная энтропия p к q равна:

В определенной степени относительная энтропия может измерять «расстояние» между двумя случайными величинами, и существует D(p||q) ≠ D(q||p). Кроме того, стоит отметить, что D(p||q) должно быть больше или равно 0.

    взаимная информация: Взаимная информация двух случайных величин X, Y определяется как относительная энтропия произведения совместного распределения X, Y и их независимых распределений, выраженная I (X, Y):

 

И есть I(X,Y)=D(P(X,Y) || P(X)P(Y)). Далее, давайте вычислим результат H(Y)-I(X,Y) следующим образом:

С помощью описанного выше процесса вычислений мы обнаружили, что H(Y)-I(X,Y) = H(Y|X). Следовательно, по определению условной энтропии: H(Y|X) = H(X,Y) - H(X), а по определению взаимной информации H(Y|X) = H(Y ) - I(X), Y), объединяя первое со вторым, имеем I(X,Y) = H(X) + H(Y) - H(X,Y), что и используется как определение взаимная информация большинства литературы. Подробнее см. "Математический вывод в модели максимальной энтропии".

 

34 Что такое максимальная энтропия. Основы машинного обучения ML Easy

Энтропия является мерой неопределенности случайных величин. Чем больше неопределенность, тем больше значение энтропии; если случайная величина вырождается в фиксированное значение, энтропия равна 0. Если нет внешнего вмешательства, случайная величина всегда имеет тенденцию к беспорядку, и по прошествии достаточного времени для стабильной эволюции она должна достичь максимальной степени энтропии. 

Чтобы точно оценить состояние случайных величин, мы обычно максимизируем энтропию, думая, что в наборе всех возможных вероятностных моделей (распределений) модель с наибольшей энтропией является лучшей моделью. Другими словами, в предпосылке известного частичного знания наиболее разумным выводом о неизвестном распределении является наиболее неопределенный или случайный вывод в соответствии с известным знанием Принцип состоит в том, чтобы допустить известное (знание) и ничего не делать с неизвестным. , Предположим, без каких-либо предубеждений.

Например, если бы вы бросили игральную кость и спросили: «Какова вероятность того, что каждая из них выпадет лицевой стороной вверх», вы бы сказали, что это равная вероятность, то есть вероятность выпадения каждой точки равна 1/6. Поскольку ничего нельзя сказать наверняка об этих «ничего не знающих» костях, и предположение, что каждая из них имеет равную вероятность выпадения, неверно.самый разумныйспособ сделать. С точки зрения инвестиций это наименее рискованный подход, а с точки зрения теории информации он сохраняет наибольшую неопределенность, что означает максимизацию энтропии.

3.1 Принцип беспристрастности

Вот еще один пример, который любят приводить в большинстве статей о моделях максимальной энтропии.

Например, если в статье встречается слово «обучение», является ли это слово подлежащим, сказуемым или дополнением? Другими словами, известно, что «обучение» может быть как глаголом, так и существительным, поэтому «обучение» может обозначаться как подлежащее, сказуемое, дополнение, признак и так далее.

  • Пусть x1 означает, что «обучение» помечено как существительное, а x2 означает, что «обучение» помечено как глагол.
  • Пусть y1 означает «обучение», отмеченное как субъект, y2 как предикат, y3 как объект и y4 как атрибут.

И сумма этих значений вероятности должна быть равна 1, т.е.,, то по несмещенному принципу вероятность взятия каждого значения в этом распределении считается равной, поэтому получаем:

Поскольку нет предварительного знания, это суждение разумно. Что, если есть какие-то предварительные знания?

То есть идти дальше, если известно, что вероятность того, что «обучение» будет помечено как признак, очень мала, всего 0,05, т. е., остальное по-прежнему исходя из принципа непредвзятости, можем получить:

Далее, когда «обучение» обозначено как существительное x1, вероятность того, что оно будет обозначено как предикат y2, равна 0,95, т. е.В это время все же необходимо придерживаться принципа непредвзятости, чтобы сделать распределение вероятностей как можно более равномерным. Но как мы можем получить максимально беспристрастное распределение?

Как практический опыт, так и теоретические расчеты говорят нам, что в полностью неограниченном состоянии равномерное распределение эквивалентно наибольшей энтропии (в случае ограничений это не обязательно равномерное распределение с равной вероятностью. Например, при заданных среднем значении и дисперсии , наибольшее распределение энтропии становится нормальным распределением).

Итак, задача трансформируется в следующую: Рассчитать распределение X и Y так, чтобы H(Y|X) достигало максимального значения и удовлетворяло следующим условиям:

 

Следовательно, это также приводит кСуть модели максимальной энтропии, задача, которую она должна решить, состоит в том, чтобы знать X, рассчитать вероятность Y и максимально увеличить вероятность Y.(На практике X может быть контекстной информацией слова, а Y — соответствующей вероятностью того, что слово будет переведено в «я», «я», «нас» и «мы»), чтобы как можно точнее оценить неизвестную информацию на основе существующая информация, которая является максимальной энтропией. Проблема, которую пытается решить модель.

Эквивалентно известному X, вычислить максимально возможную вероятность Y и преобразовать ее в формулу, которая должна максимизировать следующую формулуH(Y|X):

 

и удовлетворять следующим четырем ограничениям:

 

Кратко объясните разницу между обучением с учителем и обучением без учителя. Основы машинного обучения ML Easy
Обучение с учителем: обучение на размеченных обучающих выборках для максимально возможного прогнозирования классификации данных за пределами обучающей выборки. (ЛР, СВМ, БП, РФ, ГБДТ)
Неконтролируемое обучение: обучение и обучение на немаркированных образцах, а не обнаружение структурных знаний в этих образцах. (Kсредние, DL)

 

35 Знать о регуляризации. Основы машинного обучения ML Easy
Предлагается регуляризация для переобучения, думая, что лучший способ решить модель — оптимизировать наименьший эмпирический риск, а теперь добавить к эмпирическому риску элемент сложности модели (член регуляризации — норма вектора параметров модели. ), и используйте коэффициент скорости, чтобы взвесить вес сложности модели и прошлого эмпирического риска.Если сложность модели выше, структурный эмпирический риск будет больше, и теперь целью становится оптимизация структурного эмпирического риска, который может предотвратить обучение модели слишком сложный, что эффективно снижает риск переобучения.
Принцип бритвы Оккама, который хорошо объясняет известные данные и очень прост, является лучшей моделью.

 

36 В чем разница между ковариацией и корреляцией? Основы машинного обучения ML Easy
Корреляция — это стандартизированный формат ковариации. Сами ковариации трудно сравнивать. Например: если мы посчитаем ковариацию зарплаты ($) и возраста (лет), поскольку эти две переменные имеют разные меры, мы получим разные ковариации, которые нельзя сравнивать.

Чтобы решить эту проблему, мы вычисляем корреляцию, чтобы получить значение от -1 до 1, которое может игнорировать их соответствующие различные меры.

 

37 Разница между линейными классификаторами и нелинейными классификаторами, их плюсы и минусы. Основы машинного обучения ML Easy
@weiqi, линейность и нелинейность предназначены для параметров модели и входных признаков; например, вход x, модель y=ax+ax^2, тогда это нелинейная модель, если вход x и X^2, модель линейный из.
Линейный классификатор обладает хорошей интерпретируемостью и низкой вычислительной сложностью, недостатком является относительно слабый эффект подгонки модели.
Нелинейный классификатор обладает сильной подгоночной способностью, но недостатком является то, что количество данных недостаточно, его легко переобучить, высокая вычислительная сложность и плохая интерпретируемость.
Общие линейные классификаторы: LR, байесовская классификация, однослойный персептрон, линейная регрессия.
Общие нелинейные классификаторы: дерево решений, RF, GBDT, многослойный персептрон.
SVM имеет оба (см. линейное ядро ​​​​или ядро ​​Гаусса)

 

38 Логическая структура хранения данных (например, массивы, очереди, деревья и т. д.) оказывает очень важное влияние на разработку программного обеспечения.Попробуйте кратко проанализировать различные известные вам структуры хранения с точки зрения скорости работы, эффективности хранения и применимых случаев. . Структуры данных/алгоритмы Умеренные

  скорость бега эффективность хранения Приложения  
множество быстрый высокий Он больше подходит для операций поиска, а также таких операций, как матрицы и т. д.  
связанный список Быстрее выше Он больше подходит для частых операций добавления, удаления и модификации, а также для динамического выделения памяти.  
очередь Быстрее выше Больше подходит для планирования задач и т. д.  
куча в целом выше Больше подходит для переписывания рекурсивных программ  
бинарное дерево (дерево) Быстрее в целом Все проблемы с иерархическими отношениями можно описать деревьями.  
рисунок в целом в целом Помимо классических применений, таких как минимальное остовное дерево, кратчайший путь, топологическая сортировка и т. д. Он также используется в областях искусственного интеллекта, таких как нейронные сети и т. д.  
         

 

39 Что такое распределенная база данных? базовая компьютерная база данных
Распределенная система баз данных разработана на основе зрелой технологии централизованной системы баз данных, но это не просто децентрализованная реализация централизованной базы данных, она имеет свою природу и характеристики. Многие концепции и методы централизованных систем баз данных, такие как независимость данных, совместное использование данных и сокращение избыточности, управление параллелизмом, целостность, безопасность и восстановление, имеют другое и более богатое содержание в системах распределенных баз данных.
В частности, файловая система кластера относится к файловой системе, которая работает на нескольких компьютерах и взаимодействует друг с другом определенным образом для интеграции и виртуализации всех ресурсов дискового пространства в кластере и предоставления служб доступа к файлам для внешнего мира. Она отличается от локальных файловых систем, таких как NTFS и EXT.Первая предназначена для масштабируемости, а вторая работает в автономной среде и полностью управляет сопоставлением между блоками, файлами и атрибутами файлов.

Кластерные файловые системы делятся на несколько категорий.В соответствии с методом доступа к пространству хранения их можно разделить на кластерные файловые системы с общим хранилищем и распределенные кластерные файловые системы.Первая состоит в том, что несколько компьютеров распознают одно и то же пространство для хранения и координируют друг с другом для управления ими Это также известно как общая файловая система, последний заключается в том, что каждый компьютер предоставляет свое собственное пространство для хранения и координирует и управляет файлами на всех компьютерных узлах. Veritas VxFS/VCS, Quantum Stornext, Zhongke Blue Whale BWFS и EMC MPFS представляют собой кластерные файловые системы с общим хранилищем. Крупномасштабные кластерные файловые системы, обычно используемые в Интернете, такие как HDFS, Gluster, Ceph и Swift, все без исключения являются распределенными кластерными файловыми системами. Файловая система распределенного кластера является более масштабируемой, и в настоящее время известно, что она может расширяться максимум до 10 000 узлов.

По методу управления метаданными их можно разделить на симметричную кластерную файловую систему и асимметричную кластерную файловую систему. В первом каждый узел играет равную роль, совместно управляет файловыми метаданными и выполняет синхронизацию информации и блокировку взаимного исключения между узлами через высокоскоростную сеть Типичным представителем является Veritas VCS. В асимметричной файловой системе кластера есть один или несколько выделенных узлов, отвечающих за управление метаданными, а другим узлам необходимо часто взаимодействовать с узлами метаданных для получения последних метаданных, таких как атрибуты файлов списка каталогов и т. д. Последние обычно представляют собой, например, HDFS. , GFS, BWFS, Stornext и т. д. Для файловой системы кластера это может быть распределенная + симметричная, распределенная + асимметричная, совместно используемая + симметричная, совместно используемая + асимметричная и любая комбинация любых двух.

В соответствии с методом доступа к файлам файловую систему кластера можно разделить на тип последовательного доступа и тип параллельного доступа, последний также широко известен как параллельная файловая система.
Последовательный доступ означает, что клиент может обращаться к файловым ресурсам в кластере только с определенного узла в кластере, а параллельный доступ означает, что клиент может напрямую отправлять и получать данные с любого одного или нескольких узлов в кластере одновременно, поэтому как добиться параллельного доступа Доступ к данным, ускорение.
Кластерные файловые системы, такие как HDFS, GFS и pNFS, поддерживают параллельный доступ и требуют установки специальных клиентов.Традиционные клиенты NFS/CIFS не поддерживают параллельный доступ.

 

40 Кратко объясните теорему Байеса. Модели машинного обучения ML Easy
Прежде чем представить теорему Байеса, давайте выучим несколько определений:

  • Условная возможность(также известная как апостериорная вероятность) — это вероятность того, что событие А произойдет при условии, что другое событие В уже произошло. Условная вероятность выражается как P(A|B), что читается как «вероятность A при условии B».

Например, для событий или подмножеств A и B в одном и том же пространстве выборок Ω, если элемент, случайно выбранный из Ω, принадлежит B, то вероятность того, что этот случайно выбранный элемент также принадлежит A, определяется как предпосылка B Условная вероятность A, поэтому: P(A|B) = |A∩B|/|B|, затем разделите числитель и знаменатель на |Ω|, чтобы получить

  • совместная вероятностьПредставляет вероятность одновременного возникновения двух событий. Совместная вероятность A и B выражается какили.
  • Предельная вероятность(также известная как априорная вероятность) — это вероятность того, что событие произойдет. Предельные вероятности получаются следующим образом: в совместной вероятности те нежелательные события в конечном результате объединяются в их полные вероятности, и они исключаются (используя суммирование для дискретных случайных величин для получения полных вероятностей и интеграл для непрерывных случайных величин). называется маргинализацией.Например, предельная вероятность A выражается как P(A), а предельная вероятность B выражается как P(B). 

Далее рассмотрим задачу: P(A|B) — это вероятность того, что произойдет A, если произойдет B.

  1. Во-первых, до наступления события B у нас есть базовое вероятностное суждение о наступлении события A, называемое априорной вероятностью A, представленное P(A);
  2. Во-вторых, после наступления события B мы повторно оцениваем вероятность возникновения события A, которая называется апостериорной вероятностью A, выражаемой как P(A|B);
  3. Точно так же до того, как произойдет событие A, у нас есть базовое вероятностное суждение о возникновении события B, которое называется априорной вероятностью B, представленной P (B);
  4. Точно так же после того, как произошло событие A, мы повторно оцениваем вероятность события B, которая называется апостериорной вероятностью B и обозначается как P(B|A).

Теорема Байеса основана на следующей формуле Байеса:

 

 

Вывод приведенной выше формулы на самом деле очень прост, то есть он выводится из условной вероятности.

 

Согласно определению условной вероятности вероятность того, что событие А произойдет при условии, что произойдет событие В, равна

 

 

 

 

Точно так же вероятность того, что событие B произойдет при условии, что произойдет событие A

Составив и объединив два приведенных выше уравнения, мы можем получить:

 

Затем разделите обе части приведенного выше уравнения на P (B), если P (B) отличен от нуля, мы можем получитьтеорема БайесаВыражение формулы для:

Следовательно, формула Байеса может быть напрямую выведена из определения условной вероятности. То есть, поскольку P(A,B) = P(A)P(B|A) = P(B)P(A|B), P(A|B) = P(A)P(B|A) / П(В). Подробнее читайте в этой статье: "От байесовских методов к байесовским сетям".

 

41 В чем разница между #include и #include "имя_файла.h"? Основы работы с компьютером Принципы компиляции Easy
Используйте формат #include для ссылки на заголовочные файлы стандартной библиотеки (компилятор начнет поиск из каталога стандартной библиотеки).
Используйте формат #include "filename.h" для ссылки на заголовочные файлы нестандартных библиотек (компилятор начнет поиск из рабочего каталога пользователя). 

42 Супермаркет изучил данные о продажах и обнаружил, что люди, которые покупают пиво, с высокой вероятностью покупают подгузники К какой проблеме относится интеллектуальный анализ данных? (A) Модель интеллектуального анализа данных Easy
A. Обнаружение правила ассоциации B. Кластеризация
C. Классификация D. Обработка естественного языка

43 Какой из следующих шагов является задачей интегрирования, преобразования, размерного сокращения и числового преобразования необработанных данных? (C) Основы интеллектуального анализа данных Easy
A. Интеллектуальный анализ частых шаблонов B. Классификация и прогнозирование C. Предварительная обработка данных D. Интеллектуальный анализ потока данных

44 Что из следующего не является методом предварительной обработки данных? (D) Простая основа DM для интеллектуального анализа данных
A Подстановка переменных B Дискретизация C Агрегация D Расчетные отсутствующие значения

45 Что такое КДД? (A) Data Mining DM Foundation Easy
A. Интеллектуальный анализ данных и обнаружение знаний B. Обнаружение знаний в предметной области
C. Обнаружение знаний документа D. Обнаружение динамических знаний

46 Когда метки данных неизвестны, какие методы можно использовать для отделения данных с одинаковыми метками от других данных? (B) Модель Data Mining DM Easy
A. Классификация B. Кластеризация C. Ассоциативный анализ D. Скрытые цепи Маркова

47 Установите модель, с помощью которой модель предсказывает значение какой-либо другой переменной в соответствии с известным значением переменной. К какому виду задач интеллектуального анализа данных относится? (C) Основы интеллектуального анализа данных Easy
A. Поиск по содержанию B. Описание моделирования
C. Прогнозное моделирование D. Поиск шаблонов и правил

48 Какой из следующих методов не является стандартным методом выбора признаков: (D) Data Mining DM Basics Easy
A Заливка B Фильтрация C Упаковка D Отбор проб

49 Пожалуйста, напишите функцию find_string на python для поиска и вывода содержимого из текста.Это необходимо для поддержки подстановочных знаков звездочек и вопросительных знаков. Python язык Python легко
пример:

 >>>find_string('hello\nworld\n','wor')
['wor']
>>>find_string('hello\nworld\n','l*d')
['ld']
>>>find_string('hello\nworld\n','o.')
['or']
Отвечать
def find_string(str,pat):
import re
return re.findall(pat,str,re.I) 

 

50 Опишите пять свойств красно-черных деревьев. дерево структуры данных легко
Красно-черное дерево, бинарное дерево поиска, но с добавлением бита памяти к каждому узлу для указания цвета узла, который может быть красным или черным.
Ограничивая цвет отдельных узлов на любом пути от корня к листу, красно-черные деревья гарантируют, что ни один путь не будет в два раза длиннее других и, таким образом, не будет близок к равновесию.
Красно-черное дерево, как бинарное дерево поиска, удовлетворяет общим свойствам бинарного дерева поиска. Далее давайте разберемся в общих свойствах нижнего бинарного дерева поиска.
Двоичное дерево поиска, также известное как упорядоченное двоичное дерево или отсортированное двоичное дерево, относится к пустому дереву или двоичному дереву со следующими свойствами:
Если левое поддерево любого узла не пусто, значение всех узлов левого поддерева меньше значения его корневого узла;
Если правое поддерево любого узла не пусто, значение всех узлов в правом поддереве больше, чем значение его корневого узла;
Левое и правое поддеревья любого узла также являются бинарными деревьями поиска соответственно.
Нет повторяющихся узлов с одинаковыми ключами.
Поскольку высота бинарного дерева поиска, построенного случайным образом из n узлов, равна lgn, логично, что время выполнения общей операции бинарного дерева поиска равно O(lgn). Но если бинарное дерево поиска вырождается в линейную цепочку с n узлами, время выполнения этих операций в худшем случае равно O(n).
Хотя красно-черное дерево по сути является бинарным деревом поиска, оно добавляет к бинарному дереву поиска окраску и связанные свойства, чтобы сделать красно-черное дерево относительно сбалансированным, тем самым обеспечивая поиск, вставку и удаление красно-черного дерева. наихудшая временная сложность - O (log n).
Но как обеспечить, чтобы высота красно-черного дерева с n узлами всегда оставалась равной logn? Это приводит к 5 свойствам красно-черных деревьев:
Каждый узел либо красный, либо черный. 
Корневой узел черный. 
Каждый листовой узел (листовой узел относится к указателю NIL или узлу NULL в конце дерева) окрашен в черный цвет. 
Если узел красный, то оба его потомка черные. 
Для любого узла каждый путь к указателю NIL в конце дерева листовых узлов содержит одинаковое количество черных узлов. 
Именно эти пять свойств красно-черного дерева заставляют красно-черное дерево с n узлами всегда поддерживать высоту logn, что объясняет упомянутое выше «время поиска, вставки и удаления красно-черного дерева». сложность в худшем случае - O(log n)". Подробнее читайте в этой статье: "Научит вас предварительному пониманию красно-черных деревьев".

 

51 Кратко о сигмовидной функции активации. Основы глубокого обучения DL Easy

Обычно используемыми нелинейными функциями активации являются сигмовидная, тангенциальная, релу и т. д. Первые две сигмоидальная/тангенциальная чаще встречаются в полносвязном слое, а последняя релю распространена в сверточном слое. Вот краткое введение в самую основную сигмовидную функцию (кстати, упомянутую в начале статьи SVM в этом блоге).

Функциональное выражение сигмоиды выглядит следующим образом

 

Где z — линейная комбинация, например, z может быть равна: b +* + *. При подстановке большого положительного числа или небольшого отрицательного числа в функцию g(z) результат будет близок к 0 или 1.

Следовательно, графическое представление сигмовидной функции g(z) выглядит следующим образом (горизонтальная ось представляет область определения z, а вертикальная ось представляет область значений g(z)):

Это,Функция сигмоидальной функции состоит в том, чтобы сжать действительное число между 0 и 1. Когда z — очень большое положительное число, g(z) будет приближаться к 1, а когда z — очень маленькое отрицательное число, g(z) будет приближаться к 0..

Какая польза от сжатия от 0 до 1? Полезность заключается в том, что функцию активации можно рассматривать как «вероятность классификации», например, если выход функции активации равен 0,9, ее можно интерпретировать как 90% вероятность того, что образец является положительным.

Например, как показано на следующем рисунке (рисунок взят из Стэнфордского открытого курса по машинному обучению).

逻辑与

 

    z = b + * + *, где b - член смещения. Предположим, что -30,,Оба принимаются за 20

  • если = 0 = 0, то z = -30, g(z) = 1/( 1 + e^-z ) приближается к 0. Кроме того, из графика сигмовидной функции на приведенном выше рисунке также видно, что при z=-30 значение g(z) приближается к 0.
  • если = 0 = 1 или =1 = 0, то z = b +* + *= -30 + 20 = -10, снова значение g(z) приближается к 0
  • если = 1 = 1, то z = b +* + *= -30 + 20*1 + 20*1 = 10, в этот момент g(z) приближается к 1.

Другими словами, толькоиКогда оба получают 1, g(z)→1, это оценивается как положительный образец;илиКогда берется 0, g (z) → 0 определяется как отрицательный образец, чтобы достичь цели классификации.
Подводя итог, sigmod функция является функцией сжатия логистической регрессии, Его природа заключается в том, что он может сжимать разделительную плоскость до числа (вектора) в интервале [0,1].Когда значение линейной разделительной плоскости равно 0 , он как раз соответствует значению сигмод 0,5, больше 0 соответствует значению сигмод больше 0,5, меньше 0 соответствует значению сигмод меньше 0,5, 0,5 можно использовать как порог для классификации, удобнее решить максимальное значение в виде exp, а форма умножения используется в качестве функции логистических потерь, так что функция потерь является выпуклой функцией; недостатком является то, что функция sigmod имеет мертвую зону, когда y стремится к 0 или 1, и управление нехорошее, и легко вызвать градиент массы, когда потери передаются в виде б.п.

 

52 Что такое свертка. Основы глубокого обучения DL Easy

Для изображения (различные данные окна данных) и матрицы фильтра (набор фиксированных весов: поскольку множественные веса каждого нейрона фиксированы, его можно рассматривать как постоянный фильтр фильтра)Внутренний продуктОперация (поэлементное умножение и суммирование) является так называемой операцией «свертки», которая также является источником названия сверточной нейронной сети.

В нестрогом смысле часть, выделенную красным цветом на рисунке ниже, можно понимать как фильтр, то есть набор нейронов с фиксированными весами. Несколько фильтров накладываются друг на друга, образуя сверточный слой.

Хорошо, вот конкретный пример. Например, на рисунке ниже левая часть рисунка — исходные входные данные, средняя часть рисунка — фильтр-фильтр, а правая часть рисунка — выходные новые двумерные данные.

Разбери картинку выше

В соответствующей позиции числа сначала умножаются, а затем складываются. =

Промежуточный фильтр-фильтр и окно данных выполняют внутренний продукт, а конкретный процесс вычисления: 4*0 + 0*0 + 0*0 + 0*0 + 0*1 + 0*1 + 0*0 + 0* 1 + -4 * 2 = -8

 

53 Что такое объединяющий слой CNN. Модель глубокого обучения DL Easy

Пулинг, короче говоря, занимает среднюю или максимальную площадь, как показано на рисунке ниже (рисунок взят из cs231n)

На приведенном выше рисунке показана максимальная площадь, то есть 6 — это наибольшая в матрице 2х2 в верхнем левом углу в левой части вышеприведенного рисунка, 8 — наибольшая в матрице 2х2 в верхнем правом углу, 3 — это самая большая площадь в матрице 2х2 в верхнем правом углу наибольшее в матрице 2х2 в левом нижнем углу, а 4 в матрице 2х2 в правом нижнем углу максимум, поэтому получаем результат в правой части картинки выше: 6 8 3 4. Просто, не так ли?

 

54 Кратко опишите, что такое генеративно-состязательные сети. Расширения глубокого обучения DL
Причина, по которой GAN является конфронтационной, заключается в том, что внутренняя часть GAN представляет собой конкурентные отношения.Одна сторона называется генератором.Его основная задача — генерировать изображения и пытаться сделать так, чтобы они выглядели так, как будто они получены из обучающих выборок. Другая сторона — дискриминатор, задача которого — определить принадлежность входного изображения к реальной обучающей выборке.
Говоря более прямо, думайте о генераторе как о производителе фальшивомонетчиков, а о распознавателе — как о полиции. Цель генератора состоит в том, чтобы сделать поддельные монеты как можно более реальными, чтобы иметь возможность обмануть дискриминатор, то есть сгенерировать образцы и заставить их выглядеть так, как будто они взяты из реальных обучающих образцов.


Левая и правая сцены на следующем рисунке:

Для получения дополнительной информации см. этот курс: 《Класс генеративно-состязательной сети".

 

55 Каков принцип изучения живописи Ван Гога? Применение глубокого обучения DL сложно
Вот экспериментальный урок, как рисовать в стиле Ван Гога.Научите вас использовать DL, чтобы изучить живопись Ван Гога от начала до конца: GTX 1070 cuda 8.0, версия GPU с тензорным потоком, а что касается его принципа, то посмотрите это видео:Художественные картины NeuralStyle (изучение принципов живописи Ван Гога).

Теперь имеется 26 элементов от a до z, напишите программу для печати любой комбинации из 3 элементов от a до z (например, вывод a b c , dy z и т. д.) Математическая логика перестановки и комбинации
Ссылка на разбор:blog.CSDN.net/LV на VE/Ariti…

 

56 Расскажите о градиентном спуске. Основы машинного обучения ML

@LeftNotEasy, источник анализа этого вопроса:woo woo woo.cn blog on.com/left не просто…

 

   image

Мы используем X1, X2..Xn для описания компонентов в признаке, таких как x1 = площадь комнаты, x2 = ориентация комнаты и т. д., мы можем сделать функцию оценки:

image

θ здесь называется параметром, что означает настройку влияния каждого компонента в признаке, то есть, что важнее: площадь дома или расположение дома. Так что, если мы установим X0 = 1, его можно представить вектором:

image

Нашей программе также нужен механизм для оценки того, лучше ли наша θ, поэтому нам нужно оценить созданную нами функцию h. Обычно эта функция оценки называется функцией потерь, которая описывает, насколько плоха функция h. Далее мы назовем эту функцию J-функцией

Здесь мы можем сделать следующую функцию потерь:

image

Другими словами, мы положилиВ качестве функции потерь используется сумма квадратов разности между оценочным значением x(i) и истинным значением y(i)., 1/2, умноженная впереди, предназначена для вывода, этот коэффициент исчезает.

Существует множество способов настроить θ таким образом, чтобы J(θ) могло достигать минимального значения, среди них есть метод наименьших квадратов (минимальный квадрат), который полностью математически описывается, а другой — градиентный спуск. метод.

Поток алгоритма метода градиентного спуска выглядит следующим образом:

1) Сначала присвойте значение θ.Это значение может быть случайным или θ может быть вектором всех нулей.

2) Измените значение θ так, чтобы J(θ) уменьшалось в направлении градиентного спуска.

Для более наглядного описания приведен следующий рисунок:

imageЭто график, показывающий взаимосвязь между параметром θ и функцией ошибок J(θ). Красная часть указывает на то, что J(θ) имеет относительно высокое значение. Нам нужно сделать значение J(θ) как можно более низким насколько это возможно, т. е. темно-синяя часть. θ0, θ1 представляют два измерения вектора θ.

Как упоминалось выше, первым шагом метода градиентного спуска является присвоение начального значения θ, предполагая, что начальное значение, заданное случайным образом, является точкой пересечения на графике.

Затем мы корректируем θ в соответствии с направлением градиентного спуска, что заставит J (θ) измениться в более низком направлении, Как показано на рисунке ниже, конец алгоритма будет, когда θ упадет до точки, где он не может продолжаться спуститься.

imageКонечно, конечной точкой градиентного спуска может быть не точка глобального минимума, то есть она может быть и точкой локального минимума, как показано на следующем рисунке:

image

Вышеприведенная картина представляет собой описанную точку локального минимума, которая получается путем повторного выбора начальной точки.Похоже, что наш алгоритм будет сильно зависеть от выбора начальной точки и попадет в точку локального минимума.

Ниже я использую пример для описания процесса снижения градиента и нахожу частную производную J для нашей функции J(θ):

   image

Далее следует процесс обновления, то есть θi будет уменьшаться в направлении наименьшего градиента. θi представляет собой значение до обновления, - последняя часть представляет собой величину уменьшения в направлении градиента, а α представляет собой размер шага, то есть насколько он изменяется в направлении уменьшения градиента каждый раз.

imageОчень важно отметить, что градиент является направленным. Для вектора θ каждый размерный компонент θi может найти направление градиента, и мы можем найти общее направление. При изменении мы Минимальная точка может быть достигнута простым внесением изменений в направлении наибольшего падения, локального или глобального.

Опишите шаг 2) на более простом математическом языке следующим образом:

   image

 

57 Находит ли метод градиентного спуска самое быстрое направление спуска? Основы машинного обучения ML
Метод градиентного спуска — это не направление наискорейшего убывания, это просто направление наискорейшего убывания целевой функции на касательной плоскости к текущей точке (разумеется, многомерные задачи плоскостями назвать нельзя). В практической реализации направление Ньютона (учитывая матрицу Гессе) обычно считается направлением с самым быстрым спадом, которое может достичь сверхлинейной скорости сходимости. Скорость сходимости алгоритмов градиентного спуска обычно является линейной или даже сублинейной (в некоторых задачах со сложными ограничениями). Линь Сяоси (Ууху. Call.com/question/30…
Обычно объясняется градиентный спуск, а в качестве примера используется спуск. Предположим, вы сейчас находитесь на вершине горы и должны добраться до озера у подножия горы (то есть самой низкой точки долины). Но головная боль в том, что у тебя завязаны глаза и ты не можешь сказать, куда идешь. Другими словами, вы больше не можете сразу увидеть, какой путь является самым быстрым спуском, как показано ниже (источник изображения: http://blog.csdn.net/wemedia/details.html?id=45460):

Лучший способ — сделать один шаг и сосчитать один шаг, сначала сделать шаг во всех направлениях ногами, протестировать окружающую местность и с помощью ног почувствовать, в каком направлении находится направление наибольшего падения. Другими словами, каждый раз, когда вы переходите к позиции, решайте градиент текущей позиции и делайте шаг в отрицательном направлении градиента (вниз от текущей позиции с наибольшей крутизной). Таким образом, каждый раз, когда мы делаем шаг, мы выбираем текущее самое крутое и быстрое направление спуска, чтобы сделать следующий шаг в соответствии с положением предыдущего шага, и спускаемся шаг за шагом, пока не почувствуем, что достигли подножия горы. гора.
Конечно, если мы будем продолжать в том же духе, мы можем не обязательно прийти к настоящему подножию горы, а только к нижней части какой-то местной горы. Другими словами, градиентный спуск не обязательно может найти глобальное оптимальное решение, а может быть только локальным оптимальным решением. Конечно, если функция потерь является выпуклой функцией, решение, полученное методом градиентного спуска, должно быть глобальным оптимальным решением.

 

 

@zbxzc (blog.CSDN.net/U014568921/…


В приведенной выше формуле D представляет все входные экземпляры или образцы, d представляет образец экземпляра, od представляет выход персептрона, а td представляет наш ожидаемый результат.
Таким образом, наша цель ясна, то есть мы хотим найти набор весов, чтобы минимизировать значение этой ошибки Очевидно, что для нас будет хорошим выбором использовать ошибку для получения веса. производная должна обеспечить направление, вдоль которого изменение веса в этом направлении увеличит общую ошибку, которая более ярко называется градиентом.



Поскольку градиент определяет направление наискорейшего подъема E, правило обучения градиентному спуску:

Градиентный подъем и градиентный спуск на самом деле представляют собой одну и ту же идею.В приведенной выше формуле знак + обновления веса заменен на знак -, который представляет собой градиентное восхождение. Градиентный подъем используется для нахождения максимального значения функции, а градиентный спуск — для нахождения минимального значения.

Таким образом, определяется направление каждого движения, но расстояние каждого движения неизвестно. Это можно определить по размеру шага (также называемому скоростью обучения), обозначаемому α. Эта корректировка веса может быть выражена как:

Короче говоря, идея оптимизации метода градиентного спуска состоит в том, чтобы использовать направление отрицательного градиента текущей позиции в качестве направления поиска, потому что это направление является самым быстрым направлением спуска текущей позиции, поэтому его также называют «самым крутым». метод спуска». Чем ближе метод наискорейшего спуска к целевому значению, тем меньше размер шага и медленнее прогресс. Схематическая диаграмма итерации поиска метода градиентного спуска показана на следующем рисунке:

Поскольку метод градиентного спуска имеет значительно меньшую скорость сходимости в области, близкой к оптимальному решению, для решения задачи методом градиентного спуска требуется много итераций. В машинном обучении были разработаны два метода градиентного спуска на основе базового метода градиентного спуска, а именно стохастический градиентный спуск и пакетный градиентный спуск. автор @wtq1993,blog.CSDN.net/Netcom District 1993/art…

 

 

58 Стохастический градиентный спуск

Обычный алгоритм градиентного спуска должен пройти весь набор данных при обновлении коэффициентов регрессии.Это пакетный метод.Когда обучающие данные особенно загружены и огромны, могут возникнуть следующие проблемы:

1) процесс сходимости может быть очень медленным;

2) Если на поверхности ошибки имеется несколько локальных минимумов, нет гарантии, что процесс найдет глобальные минимумы.

Для решения вышеуказанной проблемы на практике мы применяем вариант градиентного спуска, называемый стохастическим градиентным спуском.

Ошибка в приведенной выше формуле получена для всех обучающих выборок, и идея стохастического градиентного спуска состоит в обновлении весов на основе каждой отдельной обучающей выборки, так что наша приведенная выше формула градиента становится:

После вывода мы можем получить окончательную формулу обновления веса:

 

С помощью приведенной выше формулы обновления для весов мы можем постоянно корректировать веса в соответствии с нашими ожидаемыми результатами, вводя большое количество выборок экземпляров, чтобы, наконец, получить набор весов, чтобы наш алгоритм мог ввести новую выборку для получения правильного или бесконечно близкие результаты.

Вот сравнение

Пусть функция стоимости

 

 

пакетный градиентный спуск

 

 

Параметры обновлены до:

         

i — индекс номера выборки, j — индекс размерности выборки, m — количество выборок, а n — количество признаков. Таким образом, обновление θj требует прохождения всего набора выборок.

 

Стохастический градиентный спуск

 

Параметры обновлены до:

        

 

i — индекс номера выборки, j — индекс размерности выборки, m — количество выборок, а n — количество признаков. Таким образом, для обновления θj требуется только одна выборка.

 

Следующие две картинки можно использовать для визуального сравнения различных методов оптимизации (источник:Себастьян как people.com/optimizing-…

contours_evaluation_optimizers

Производительность каждого метода оптимизации SGD на поверхности потерь

Как видно из приведенного выше рисунка, Adagrad, Adadelta и RMSprop могут сразу перейти к правильному направлению движения на поверхности потерь для достижения быстрой сходимости. Импульс и NAG приведут к отклонению (отклонению от курса). В то же время NAG может быстро скорректировать свой курс после отклонения, потому что он улучшает реакцию в соответствии с коррекцией градиента.

saddle_point_evaluation_optimizers

Производительность каждого метода оптимизации SGD в седловой точке поверхности потерь

 

59 В чем разница между методом Ньютона и градиентным спуском. Основы машинного обучения ML

@wtq1993,blog.CSDN.net/Netcom District 1993/art…
1) метод Ньютона

Метод Ньютона — это метод приближенного решения уравнений в вещественных и комплексных полях. Метод использует первые несколько членов ряда Тейлора функции f(x) для нахождения корней уравнения f(x) = 0. Самая большая особенность метода Ньютона заключается в том, что скорость его сходимости очень высока.

Конкретные шаги:

Во-первых, выберите x0 близко к нулю функции f(x), вычислите соответствующую f(x0) и наклон касательной f'(x0) (где f' представляет собой производную функции f). Затем вычисляем x-координату пересечения линии, проходящей через точку (x0, f(x0)) с наклоном f'(x0) и осью x, которая является решением следующего уравнения:

Назовем x-координату вновь полученной точки x1, и обычно x1 будет ближе к решению уравнения f(x) = 0, чем x0. Итак, теперь мы можем начать следующую итерацию с x1. Итеративную формулу можно упростить следующим образом:

Доказано, что если функция f' непрерывна и искомая нулевая точка x изолирована, то вокруг нулевой точки x существует область, и пока начальное значение x0 находится в этой соседней области, то метод Ньютона должны сходиться. А если f '(x) не равно 0, то метод Ньютона будет иметь квадратичную сходимость. Грубо говоря, это означает, что на каждой итерации значащие цифры результата метода Ньютона будут удваиваться.

Поскольку метод Ньютона определяет следующее положение на основе касательной к текущему положению, метод Ньютона также ярко называется «методом касательной». Путь поиска метода Ньютона (двумерный случай) показан на следующем рисунке:

О сравнении эффективности метода Ньютона и метода градиентного спуска:

а) С точки зрения скорости сходимости метод Ньютона — это сходимость второго порядка, градиентный спуск — сходимость первого порядка, а прежний метод Ньютона сходится быстрее. Однако метод Ньютона по-прежнему является локальным алгоритмом, но он более детализирован локально. Метод градиента учитывает только направление. Метод Ньютона учитывает не только направление, но и размер шага. При оценке размера шага используется приближение второго порядка.

б) Согласно объяснению в вики, с геометрической точки зрения, метод Ньютона использует квадратичную поверхность, чтобы соответствовать локальной поверхности вашего текущего местоположения, в то время как метод градиентного спуска использует плоскость, чтобы соответствовать текущей локальной поверхности, обычно в этом случае квадратичная поверхность подойдет лучше, чем плоскость, поэтому траектория спуска, выбранная методом Ньютона, будет больше соответствовать реальной оптимальной траектории спуска.

Примечание. Итеративный путь метода Ньютона выделен красным цветом, а итерационный путь метода градиентного спуска — зеленым.

Резюме преимуществ и недостатков метода Ньютона:

Преимущества: сходимость второго порядка, высокая скорость сходимости;

Недостатки: метод Ньютона представляет собой итерационный алгоритм, на каждом шаге необходимо решать обратную матрицу матрицы Гессе целевой функции, а расчет относительно сложен.

Что такое квазиньютоновские методы? Основы машинного обучения ML

@wtq1993,blog.CSDN.net/Netcom District 1993/art…
Квазиньютоновский метод — один из наиболее эффективных методов решения задач нелинейной оптимизации — был предложен физиком У. К. Дэвидоном из Аргоннской национальной лаборатории в США в 1950-х годах. Алгоритм, разработанный Дэвидоном, считался одним из самых инновационных изобретений в области нелинейной оптимизации того времени. Вскоре Р. Флетчер и М. Дж. Д. Пауэлл продемонстрировали, что этот новый алгоритм намного быстрее и надежнее других методов, что позволило дисциплине нелинейной оптимизации стремительно развиваться в одночасье.

Существенная идея квазиньютоновского метода состоит в том, чтобы исправить дефект, который метод Ньютона должен каждый раз решать обратной матрицей комплексной матрицы Гессе.Он использует положительно определенную матрицу для аппроксимации обратной матрицы Гессе, тем самым упрощение сложности операции. Квазиньютоновский метод, как и метод наискорейшего спуска, требует только, чтобы градиент целевой функции был известен на каждой итерации. Путем измерения изменения градиента строится модель целевой функции, достаточная для получения сверхлинейной сходимости. Этот класс методов значительно превосходит метод наискорейшего спуска, особенно для сложных задач. Кроме того, поскольку квазиньютоновский метод не требует информации о второй производной, он иногда более эффективен, чем метод Ньютона. Сегодня программное обеспечение для оптимизации включает в себя большое количество квазиньютоновских алгоритмов для решения задач оптимизации без ограничений, с ограничениями и крупномасштабных задач.

Конкретные шаги:

Основная идея квазиньютоновского метода заключается в следующем. Сначала построим квадратичную модель целевой функции на текущей итерации xk:

Здесь Bk — симметричная положительно определенная матрица, поэтому в качестве направления поиска мы берем оптимальное решение этой квадратичной модели и получаем новую точку итерации:

где мы требуем, чтобы размер шага ak удовлетворял условию Вульфа. Такая итерация аналогична методу Ньютона, отличие состоит в том, что используется приближенная матрица Гессе Bk

вместо реальной матрицы Гессе. Поэтому наиболее важной частью квазиньютоновского метода является матрица Bk на каждой итерации.

 

обновление. Теперь предположим, что мы получили новую итерацию xk+1 и получили новую квадратичную модель:

 

 

 

 

 

 

 

 

Мы максимально используем информацию из предыдущего шага, чтобы выбрать Bk. В частности, мы требуем

 

получить

Эта формула называется уравнением секущих. Обычно используемые квазиньютоновские методы включают алгоритм DFP и алгоритм BFGS.

 

60 Пожалуйста, расскажите о проблемах и проблемах стохастического градиентного спуска? Основы машинного обучения ML

Так как же оптимизировать метод стохастического градиента? Для получения подробной информации нажмите:Первый этап дипломной работы в открытом классе: подробное объяснение различных алгоритмов оптимизации, таких как градиентный спуск (включая видео и загрузку PPT).

61 Говорите о методе сопряженных градиентов? Основы машинного обучения ML
@wtq1993,blog.CSDN.net/Netcom District 1993/art…
Метод сопряженного градиента - это метод между методом градиентного спуска (методом наискорейшего спуска) и методом Ньютона.. Ему нужно использовать только информацию о производной первого порядка, но он преодолевает недостатки медленной сходимости метода градиентного спуска и позволяет избежать необходимости в методе Ньютона.Недостаток хранения и вычисления матрицы Гессе и ее обращения, метод сопряженных градиентов является не только одним из наиболее полезных методов решения больших линейных уравнений, но и одним из наиболее эффективных алгоритмов решения большие нелинейные оптимизации. Среди различных алгоритмов оптимизации очень важным является метод сопряженных градиентов. Его преимущества заключаются в том, что он требует небольшого объема памяти, имеет постепенную сходимость, высокую стабильность и не требует каких-либо внешних параметров.

На следующем рисунке представлена ​​схема сравнения путей между методом сопряженных градиентов и методом градиентного спуска для поиска оптимального решения:

 

Примечание: зеленый — метод градиентного спуска, красный — метод сопряженного градиента.

 

62 Можно ли для всех задач оптимизации найти лучшие алгоритмы, чем известные в настоящее время? Основы машинного обучения ML
@abstractmonkey, источник:Ууху. Call.com/question/41…
Теоремы бесплатного обеда не существует:
Для обучающих выборок (черные точки) разные алгоритмы A/B имеют разную производительность в разных тестовых выборках (белые точки), что означает: для алгоритма обучения A, если он лучше, чем алгоритм обучения B на некоторых задачах Ну, должно быть какая-то проблема, где B лучше, чем A.
То есть: для всех задач, независимо от того, насколько умен алгоритм обучения A и насколько неуклюж алгоритм обучения B, они имеют одинаковую ожидаемую производительность.
Однако бесплатного обеда не бывает. Предполагается, что все проблемы имеют одинаковую вероятность возникновения. В практических приложениях разные сценарии будут иметь разное распределение проблем. Поэтому при оптимизации алгоритма анализ конкретных проблем является ядром оптимизации алгоритма.

 

63 Что такое метод наименьших квадратов? Основы машинного обучения ML

Мы часто говорим в устах: В общем, в среднем. Например, в среднем здоровье некурящих лучше, чем у курильщиков.Причина добавления слова «средний» в том, что во всем есть исключения.Всегда есть особый человек, который курит, но из-за регулярных физических упражнений его здоровье может быть, было бы лучше, чем его некурящий друг. Одним из простейших примеров наименьших квадратов является среднее арифметическое.

Метод наименьших квадратов (также известный как метод наименьших квадратов) — это метод математической оптимизации. Он находит наилучшее функциональное совпадение данных, сводя к минимуму сумму квадратов ошибок. Неизвестные данные могут быть легко получены методом наименьших квадратов, а сумма квадратов ошибок между полученными данными и фактическими данными может быть минимизирована. Выражается в виде функции:

Метод минимизации квадрата суммы ошибки «так называемая ошибка, конечно, разница между наблюдаемым значением и фактическим истинным значением» для поиска оценочного значения называется методом наименьших квадратов, и оценка, полученная с помощью метод наименьших квадратов называется методом наименьших квадратов. Конечно, использование суммы квадратов в качестве целевой функции — лишь один из многих желательных подходов.

Общая форма метода наименьших квадратов может быть выражена как:

 

Эффективный метод наименьших квадратов был опубликован Лежандром в 1805 году. Основная идея состоит в том, чтобы думать, что в измерении есть ошибка, поэтому совокупная ошибка всех уравнений равна

 

Мы можем решить параметры, которые приводят к наименьшей кумулятивной ошибке:

 

 

Лежандр сделал несколько замечаний о превосходстве метода наименьших квадратов в своей статье:

  • Метод наименьших квадратов минимизирует сумму квадратов ошибок и устанавливает баланс между ошибками различных уравнений, предотвращая доминирование одной крайней ошибки.
  • При расчете требуется только частная производная для решения системы линейных уравнений, а процесс расчета понятен и удобен
  • Метод наименьших квадратов может вывести среднее арифметическое как оценку

Что касается последнего пункта, это очень важное свойство со статистической точки зрения. Рассуждения следующие: предположим, что истинное значение равноθx1,...,x n– значение n измерений, а погрешность каждого измерения равнаe i=x iθ, по методу наименьших квадратов ошибка накапливается как

Решать сделатьдостичь минимума, который является в точности средним арифметическим.

Поскольку среднее арифметическое является испытанным и испытанным методом, а приведенные выше рассуждения показывают, что среднее арифметическое является частным случаем метода наименьших квадратов, оно иллюстрирует превосходство метода наименьших квадратов с другой точки зрения, которая делает нас более уверенными в наименьшей степени. метод квадратов...
Один из принципов метода наименьших квадратов: когда ошибка оценки следует нормальному распределению, метод наименьших квадратов эквивалентен оценке максимального правдоподобия. Если y = f(x) + e, где y — целевое значение, f(x) — оценочное значение, а e — ошибка. Если e следует нормальному распределению, то детали можно увидеть:Ууху. Call.com/question/20…

Метод наименьших квадратов был быстро признан и принят всеми после его публикации и быстро стал широко применяться в практике анализа данных. Однако некоторые люди в истории приписывают Гауссу изобретение метода наименьших квадратов. Гаусс также опубликовал метод наименьших квадратов в 1809 году и утверждал, что использовал его в течение многих лет. Гаусс изобрел математический метод позиционирования астероидов и использовал метод наименьших квадратов в анализе данных, чтобы точно предсказать положение Цереры.
Кстати, какое отношение метод наименьших квадратов имеет к SVM? Видеть"Популярное введение в машины опорных векторов (понимание трехуровневой области SVM)".

64 Посмотрите на напечатанную на вашей футболке: Жизнь слишком коротка, я использую Python, не могли бы вы сказать мне, что это за язык **** Python? Вы можете сравнить другие технологии или языки, чтобы ответить на свой вопрос. Python язык Python легко
@ Дэвид9,не более fit.com/боюсь/15%E4%B8…

Вот несколько ключевых моментов: Python — это интерпретируемый язык. Это означает, что, в отличие от C и других языков, Python не нужно компилировать перед запуском. Другие интерпретируемые языки включают PHP и Ruby.

  • Python имеет динамическую типизацию, что означает, что вам не нужно указывать тип при объявлении переменной. вы можете определитьx=111,然后x = «Я строка».
  • Python — это объектно-ориентированный язык, все классы могут быть определены и могут быть унаследованы и составлены. Python не имеет идентификаторов доступа, как в C++.publicprivate, 这就非常信任程序员的素质,相信每个程序员都是“成人”了~
  • В Python функции являются гражданами первого класса. Это означает, что им можно присваивать значения, возвращать значения из других функций и передавать объекты функций. Классы не являются гражданами первого класса.
  • Написание кода на Python происходит быстро, но работает медленнее, чем на скомпилированных языках. К счастью, Python позволяет писать программы с использованием расширений C, поэтому узкие места можно устранить. Хорошим примером является библиотека Numpy, потому что большая часть кода не написана непосредственно на Python, поэтому она работает очень быстро.
  • Python используется во многих сценариях — разработка веб-приложений, приложения для работы с большими данными, наука о данных, искусственный интеллект и многое другое. Его также часто считают «связующим» языком, который позволяет соединять разные языки.
  • Python упрощает работу, чтобы программист мог заботиться о том, как переписать код, вместо того, чтобы подробно рассматривать низкоуровневую реализацию.

@July: Python уже стал первым языком в эпоху ИИ.Чтобы помочь вам лучше изучить язык Python, анализ данных, поисковый робот и другие сопутствующие знания, в июле будет открыта серия специальных онлайн-серий.курс Python, нуждающиеся родители могут посмотреть на это, например, "Учебный лагерь по анализу данных Python".

 

65 Как Python управляет памятью? Основы Python
@Tom_junsong, источник:блог woo woo woo.cn на.com/Tom-High/Fear/6…
Ответ: три аспекта: один механизм подсчета ссылок на объекты, два механизма сборки мусора, три механизма пула памяти.
Во-первых, механизм подсчета ссылок на объекты
Python использует внутренний подсчет ссылок для отслеживания объектов в памяти, и все объекты имеют подсчет ссылок.
Когда счетчик ссылок увеличивается:
1 объекту присваивается новое имя
2, поместите его в контейнер (например, список, кортеж или словарь)
Когда счетчик ссылок уменьшается:
1. Используйте оператор del, чтобы отобразить уничтожение псевдонима объекта.
2 ссылка выходит за рамки или переназначается
Функция sys.getrefcount() может получить текущий счетчик ссылок на объект.
В большинстве случаев счетчик ссылок намного больше, чем вы можете предположить. Для неизменяемых данных (таких как числа и строки) интерпретатор разделяет память между различными частями программы для экономии памяти.
2. Переработка мусора
1. Когда счетчик ссылок на объект обнуляется, он удаляется механизмом сборки мусора.
2. Когда два объекта a и b ссылаются друг на друга, оператор del может уменьшить счетчики ссылок a и b и уничтожить имя, используемое для ссылки на нижележащий объект. Однако, поскольку каждый объект содержит приложение к другим объектам, счетчик ссылок не обнуляется и объект не уничтожается. (тем самым вызывая утечку памяти). Чтобы решить эту проблему, интерпретатор периодически запускает детектор циклов, который ищет циклы недоступных объектов и удаляет их.
3. Механизм пула памяти
Python предоставляет механизм сборки мусора для памяти, но он помещает неиспользуемую память в пул памяти, а не возвращает ее операционной системе.
1. Механизм Пималлока. Чтобы повысить эффективность выполнения Python, Python представляет механизм пула памяти для управления приложением и освобождения небольших блоков памяти.
2. Все объекты меньше 256 байт в Python используют распределитель, реализованный pymalloc, в то время как большие объекты используют системный malloc.
3. Для объектов Python, таких как целые числа, числа с плавающей запятой и списки, все они имеют свои собственные частные пулы памяти, а объекты не используют общие пулы памяти. То есть, если вы выделяете и освобождаете большое количество целых чисел, память, используемая для кэширования этих целых чисел, больше не может быть выделена для чисел с плавающей запятой.

 

66 Пожалуйста, напишите фрагмент кода Python для удаления повторяющихся элементов в списке. Python Разработка на Python
@Tom_junsong,блог woo woo woo.cn на.com/Tom-High/Fear/6…
отвечать:
1, используйте функцию набора, установите (список)
2, используя функцию словаря,
>>>a=[1,2,4,2,4,5,6,5,7,8,9,0]
>>> b={}
>>>b=b.fromkeys(a)
>>>c=list(b.keys())
>>> c

67 Программирование с сортировкой, чтобы отсортировать, а затем судить по последнему элементу? Python Разработка на Python
a=[1,2,4,2,4,5,7,10,5,5,7,8,9,0,3]
@Tom_junsong,блог woo woo woo.cn на.com/Tom-High/Fear/6…
a.sort()
last=a[-1]
for i inrange(len(a)-2,-1,-1):
if last==a[i]:
del a[i]
else:last=a[i]
print(a)

68 Как генерировать случайные числа в Python? Python Разработка на Python
@Tom_junsong,блог woo woo woo.cn на.com/Tom-High/Fear/6…
Ответ: случайный модуль
Случайное целое: random.randint(a,b): возвращает случайное целое число x, arandom.randrange(start,stop,[step]): возвращает случайное целое число в диапазоне (start,stop,step), исключая конечное значение.
Случайное вещественное число: random.random(): возвращает число с плавающей запятой в диапазоне от 0 до 1.
random.uniform(a,b): возвращает число с плавающей запятой в указанном диапазоне. Дополнительные вопросы для письменного тестового собеседования на Python см.:python.jobbole.com/85231/

69 Расскажите об общих функциях потерь? Основы машинного обучения ML Easy

Для заданного входа X соответствующий выход Y задается как f(X), а прогнозируемое значение f(X) этого выхода может совпадать или не совпадать с истинным значением Y (знайте, что иногда потери или ошибки неизбежны) , используя функцию потерь для измерения степени ошибки предсказания. Функция потерь обозначается как L(Y, f(X)).

Обычно используемые функции потерь следующие (в основном цитируются из «Статистических методов обучения»):

      

Таким образом, у SVM есть второе понимание, то есть оптимизация + минимальные потери, или, как сказал @xiafen_Baidu, «SVM, повышение, LR и другие алгоритмы можно рассматривать с точки зрения функции потерь и алгоритма оптимизации, и может быть разные прибыли». Для получения более подробной информации об SVM см.:Популярное введение в машины опорных векторов (понимание трехуровневой сферы SVM).)

 

70 Кратко представить логистическую регрессию? Модели машинного обучения ML Easy

Целью логистической регрессии является изучение модели классификации 0/1 на основе признаков, и эта модель использует линейную комбинацию признаков в качестве независимой переменной, поскольку диапазон значений независимой переменной находится в пределах от отрицательной бесконечности до положительной бесконечности. Поэтому используйте логистическую функцию (или сигмовидную функцию) для сопоставления независимой переменной с (0,1), и считается, что сопоставленное значение принадлежит вероятности y = 1.

Гипотетическая функция

Где x — n-мерный вектор признаков, а функция g — логистическая функция.

иИзображение

 

 

 

 

 

Как видите, бесконечность отображается на (0,1).

А функция гипотезы — это вероятность того, что признак принадлежит y=1.

 

 

Поэтому, когда мы хотим определить, к какому классу относится новая функция, нам нужно толькоможет, еслиБольше 0,5 — это класс y=1, в противном случае он принадлежит классу y=0.

также,только сСвязанный,>0, то, а g(z) используется только для отображения, реальное решение о категории по-прежнему лежит в. Кроме того, когдачас,=1, иначе=0. Если мы только начнем сНачиная, я надеюсь, что цель модели состоит в том, чтобы сделать функцию y = 1 в обучающих данных, но свойство y=0. Логистическая регрессия заключается в том, чтобы учиться, так что признаки положительных примеров намного больше 0, а признаки отрицательных примеров много меньше 0, и эта цель должна быть достигнута на всех обучающих примерах.

Затем попытайтесь преобразовать логистическую регрессию. Сначала замените используемые метки результатов y = 0 и y = 1 на y = -1, y = 1, затем замените()серединаЗамените на b и, наконец, замените следующеезаменить(который). Таким образом, есть. То есть, за исключением того, что y изменяется от y=0 до y=-1, формальное представление функции линейной классификации и логистической регрессииНет разницы.

Далее, функция гипотезы может бытьУпростите g(z) и сопоставьте его с y=-1 и y=1. Отношения отображения следующие:

Наконец, добавляется, что оценка максимального правдоподобия нормального распределения. Если распределения двух групп точек в n-мерном пространстве подчиняются многомерному нормальному распределению, то логистическая регрессия эквивалентна использованию оценки максимального правдоподобия для выполнения анализ по точкам в пространстве Классификация. Для получения подробной информации см.:blog.science net.talent/blog-508318…

 

71 Учитывая, что вы визуальный художник, с какими CV-фреймворками вы знакомы, кстати, как насчет истории развития CV за последние пять лет? Применение глубокого обучения DL сложно

Оригинальный английский: adeshpande3.github.io
Адит Дешпанде, аспирант UCLA CS
Переводчики: Синьчжиюань Вэньфэй, Ху Сянцзе
Ссылка на перевод:Tickets.WeChat.QQ.com/Yes?__Author=mz i…
Структура этого параграфа следующая:

АлексНет (2012)

ЗФ Нетто (2013)

Сеть ВГГ (2014)

Гугленет (2015)

Майкрософт Реснет (2015)

Региональный CNN (R-CNN - 2013, Fast R-CNN - 2015, Faster R-CNN - 2015)

Генеративно-состязательные сети (2014)

Создание описаний изображений (2014)

Сеть космических трансформаторов (2015)

АлексНет (2012)

Все началось здесь (хотя некоторые скажут, что статья Яна Лекуна 1998 года действительно положила начало эпохе). Эта статья под названием «Классификация ImageNet с глубокими свёрточными сетями» была процитирована 6184 раза и обычно считается одной из самых важных статей в отрасли. Алекс Крижевский, Илья Суцкевер и Джеффри Хинтон создали «крупномасштабную глубокую сверточную нейронную сеть», которая выиграла ILSVRC 2012 года (2012 ImageNet Large Scale Visual Recognition Challenge). В двух словах, это соревнование позиционируется как ежегодная олимпиада по компьютерному зрению, где команды со всего мира собираются вместе, чтобы увидеть, какая визуальная модель является лучшей. 2012 год был годом, когда CNN впервые достигла 15,4% частоты ошибок в Топ-5 (Коэффициент ошибок 5 относится к вероятности того, что данное изображение имеет метку, которая не входит в число 5 результатов, которые модель считает наиболее вероятными). пункт в то время Коэффициент ошибок составляет 26,2%. Излишне говорить, что это выступление потрясло все сообщество компьютерного зрения. Возможно, с тех пор имя CNN стало нарицательным.

В статье авторы обсуждают архитектуру сети (названной AlexNet). По сравнению с современными архитектурами они используют относительно простую компоновку, а вся сеть состоит из 5 сверточных слоев, слоя с максимальным объединением, слоя отсева и 3 полностью сверточных слоев. Сеть способна классифицировать 1000 скрытых классов.

 

Архитектура AlexNet: выглядит немного странно, так как для обучения используются два графических процессора, поэтому есть два «потока». Причина использования двух графических процессоров для обучения заключается в том, что объем вычислений слишком велик и может быть только дизассемблирован.

главный пункт

Сеть обучается с использованием данных ImageNet, которые содержат более 15 миллионов помеченных изображений в более чем 22 000 категорий.

Используйте ReLU вместо традиционной функции тангенса, чтобы ввести нелинейность (ReLU в несколько раз быстрее, чем традиционная функция тангенса, что сокращает время обучения).

Используются методы увеличения данных, такие как перевод изображения, горизонтальное отражение и извлечение патчей.

Используйте слой отсева, чтобы решить проблему переобучения обучающих данных.

Обучите модель с помощью пакетного стохастического градиентного спуска, отметив значения затухания импульса и веса.

От 5 до 6 дней обучения с использованием двух графических процессоров GTX 580

Почему это важно?

Эта нейронная сеть, разработанная Крижевским, Суцкевером и Хинтоном в 2012 году, является крупным дебютом CNN в области компьютерного зрения. Это первый случай в истории, когда модель так хорошо работает в базе данных ImageNet, что, как известно, сложно. Методы, предложенные в статье, такие как аугментация и отсев данных, также используются сейчас, и эта статья действительно показывает преимущества CNN, и это подтверждается рекордными результатами соревнований.

ЗФ Нетто (2013)

В 2012 году внимание привлекла AlexNet, и на ILSVRC 2013 появилось большое количество моделей CNN. Победителем 2013 года стала ZF Net, сеть, разработанная Мэтью Зейлером и Робом Фергусом из Нью-Йоркского университета, с уровнем ошибок 11,2%. Модель ZF Net представляет собой более точно настроенную и оптимизированную версию архитектуры AlexNet, но все же содержит некоторые ключевые идеи по оптимизации производительности. Также есть причина, по которой статья написана так хорошо, что авторы тратят много времени на объяснение интуитивно понятных концепций сверточных нейронных сетей, показывая правильный способ визуализации фильтров и весов.

В этой статье под названием «Визуализация и понимание сверточных нейронных сетей» Цейлер и Фергус обсуждают, как мало исследователи знают о внутренних механизмах моделей, начиная с возрождения интереса к CNN благодаря большим данным и вычислительной мощности графических процессоров. на самом деле лучшая модель — это процесс проб и ошибок». Хотя сейчас мы знаем немного больше, чем 3 года назад, проблема, поднятая в статье, существует и сегодня!Основной вклад этой статьи состоит в том, чтобы предложить немного лучшую модель, чем у AlexNet, и предоставить детали, а также предоставить некоторые методы для создания Карты визуальных признаков заслуживают изучения.

 

главный пункт

За исключением некоторых незначительных изменений, общая архитектура очень похожа на AlexNet.

AlexNet был обучен на 15 миллионах изображений, в то время как ZFNet использовал только 1,3 миллиона.

AlexNet использует размер фильтра 11x11 в первом слое, тогда как ZF использует размер фильтра 7x7, и общая скорость обработки также замедлена. Причина этой модификации заключается в том, что для входных данных первый сверточный слой помогает сохранить большое количество исходной информации о пикселях. Фильтр 11×11 упускает много важной информации, тем более что это первый сверточный слой.

По мере роста сети количество используемых фильтров увеличивается.

Используя функцию активации ReLU, функция кросс-энтропийной стоимости используется в качестве функции ошибки, а для обучения используется пакетный стохастический градиентный спуск.

Тренировался 12 дней с графическим процессором GTX 580.

Разработайте метод визуализации «Деконволюционная сеть», который помогает исследовать различные активации функций и их пространственное отношение к входным данным. Название «deconvnet», потому что оно отображает объекты в пиксели (полная противоположность сверточному слою).

DeConvNet

Основной принцип работы DeConvNet заключается в том, что за каждым слоем обученной CNN следует слой «деконвертирования», который обеспечивает обратный путь к пикселям изображения. После того, как входное изображение попадает в CNN, активации рассчитываются на каждом уровне. Однако пройдите вперед. Теперь предположим, что мы хотим узнать значение активации функции 4-го сверточного слоя, мы сохраним значение активации этой карты функций, установим другие значения активации этого слоя равными 0, а затем используем эту карту функций как input Feed в deconvnet. Deconvnet имеет те же фильтры, что и оригинальный CNN. Ввод проходит через серию распаковок (максимальный пулинг меняется на противоположный), корректируется, и предыдущий слой фильтруется до тех пор, пока не заполнится пространство ввода.

Логика этого процесса заключается в том, что мы хотим знать, какая структура активирует определенную карту функций. Давайте посмотрим на визуализацию первого и второго слоев.

 

Первым уровнем ConvNet всегда является низкоуровневый детектор признаков, который здесь представляет собой простое обнаружение границ и цвета. Второй слой имеет более округлую форму. Затем посмотрите на третий, четвертый и пятый слои.

 

Эти слои показывают более продвинутые функции, такие как морды собак и цветы. Стоит отметить, что после первого сверточного слоя мы обычно следуем объединенному слою, чтобы уменьшить изображение (например, с 32x32x32 до 16x16x3). Результатом этого является расширение представления второго слоя исходного изображения. Подробнее читайте в статье.

Почему это важно?

ZF Net не только стала победителем конкурса 2013 года, но и предоставила отличное представление о том, как работают CNN, продемонстрировав дополнительные способы повышения производительности. Описанный в статье метод визуализации не только помогает прояснить внутренний механизм CNN, но и предоставляет полезную информацию для оптимизации сетевой архитектуры. Метод визуализации Deconv и эксперимент с окклюзией также сделали эту бумагу моей любимой.

Сеть ВГГ (2015)

Простая и глубокая, это модель VGG Net с уровнем ошибок 7,3% в 2014 году (не чемпион ILSVRC 2014). Карен Симонян и Эндрю Зиссерман из Оксфордского университета создали 19-слойную CNN со строго фильтрами 3x3 (шаг = 1, площадка = 1) и слоями максимального объединения 2x2 (шаг = 2). Простой не так ли?

 

главный пункт

Используемый здесь фильтр 3x3 полностью отличается от фильтра 11x11, используемого AlexNet в первом слое, и фильтра ZF Net 7x7. Автор считает, что сочетанием двух сверточных слоев 3х3 можно добиться эффективного рецептивного поля 5х5. Это имитирует большой фильтр, сохраняя при этом небольшой размер фильтра и уменьшая параметры. Кроме того, наличие двух сверточных слоев позволяет использовать двухслойный ReLU.

3 сверточных слоя имеют эффективное рецептивное поле 7x7.

Количество фильтров после каждого слоя maxpool удваивается. Еще больше усиливает идею уменьшения размера пространства, но сохраняя при этом глубину.

И классификация изображений, и задачи локализации работают хорошо.

Смоделировано с помощью инструментария Caffe.

При обучении используется метод увеличения данных масштабного дрожания.

За каждым сверточным слоем следует слой ReLU и обучение пакетному градиентному спуску.

Тренировался в течение двух-трех недель с 4 графическими процессорами Nvidia Titan Black.

Почему это важно?

На мой взгляд, VGG Net — одна из наиболее важных моделей, поскольку она еще раз подчеркивает, что CNN должна быть достаточно глубокой, чтобы иерархическое представление визуальных данных было полезным. Глубокий, но простой по структуре.

Гугленет (2015)

Понимаете концепцию упрощения архитектуры нейронных сетей, о которой мы только что говорили?Вводя модель Inception, Google в какой-то степени отбрасывает эту концепцию. GoogLeNet — это 22-слойная сверточная нейронная сеть, которая вошла в пятерку лучших с частотой ошибок 6,7% на ILSVRC2014 в 2014 году. Насколько я знаю, это первая архитектура сверточной нейронной сети, которая действительно не использует общий подход.Традиционный подход сверточной нейронной сети заключается в простом наложении слоев свертки, а затем наложении слоев в последовательную структуру. Авторы статьи также подчеркивают, что эта новая модель ориентирована на потребление памяти и энергии. Это важный момент, который я часто упускаю из виду: наложение всех слоев, добавление большого количества фильтров требует больших вычислительных ресурсов и памяти, а риск переобучения возрастает.

 

Другой способ взглянуть на GoogLeNet:

 

Начальная модель

Впервые увидев построение GoogLeNet, мы сразу заметили, что не все делалось последовательно, в отличие от архитектур, которые мы видели раньше. У нас есть сети, которые реагируют параллельно в одно и то же время.

 

Эта коробка называется начальной моделью. Его состав можно увидеть вблизи.

 

Зеленое поле внизу — это наш входной слой, а вверху — выходной слой (поверните это изображение на 90 градусов вправо, и вы увидите модель, соответствующую изображению, показывающему всю сеть). По сути, на каждом уровне в традиционной сверточной сети вам приходится выбирать между пулом или сверткой (и выбором размера фильтров). Модель Inception позволяет вам выполнять все операции параллельно. По сути, это самая «оригинальная» идея, пришедшая в голову автору.

 

Теперь давайте посмотрим, почему это работает. Это приводит к множеству разных результатов, и мы получаем чрезвычайно большие каналы глубины в объеме выходного слоя. Авторский способ решения этой проблемы заключается в добавлении операции свертки 1X1 перед слоями 3X3 и 5X5. Свертки 1X1 (или сети в сетевых слоях) позволяют уменьшить размерность. Например, допустим, у вас есть входной слой с объемом 100x100x60 (это не обязательно три измерения изображения, просто вход для каждого слоя в сети). Добавление 20 сверточных фильтров 1X1 позволит вам уменьшить входной объем до 100X100X20. Это означает, что слоям 3X3 и 5X5 не нужно иметь дело с объемом входного слоя. Это можно рассматривать как «объединение функций», потому что мы уменьшаем высоту тома, аналогично уменьшению ширины и длины, используя обычно используемые слои максимального объединения. Еще одна вещь, которую следует отметить, это то, что за этими сверточными слоями 1X1 следуют блоки ReLU, что, безусловно, не повредит.

Вы можете спросить: «Какая польза от этой архитектуры?» Скажем так, модель состоит из сети на сетевом уровне, свертки фильтрации среднего размера, свертки фильтрации большого размера и операции объединения. Сеть на сверточном уровне сети может извлекать информацию во всех деталях во входном объеме, а фильтр 5x5 также может покрывать большую часть входных данных принимающего слоя, который затем может извлекать информацию. Вы также можете выполнить операцию объединения, чтобы уменьшить размер пространства и уменьшить переоснащение. Помимо этих слоев, у вас есть ReLU после каждого сверточного слоя, что улучшает нелинейность сети. По сути, когда сеть выполняет эти основные функции, она также может одновременно учитывать вычислительную мощность. В документе также представлены рассуждения более высокого уровня, включая такие темы, как разреженные и плотные соединения (см. разделы 3 и 4 документа).

главный пункт

Во всей архитектуре используются девять начальных моделей, в общей сложности более 100 слоев. Это уже глубоко... не используя полносвязные слои. Вместо этого они используют средний пул, который уменьшает объем с 7x7x1024 до 1x1x1024, что позволяет сэкономить массу параметров. В 12 раз меньше параметров, чем у AlexNet.При тестировании строятся несколько вырезок одного и того же изображения, затем они вводятся в сеть, вычисляется среднее значение вероятностей softmax, после чего мы можем получить окончательное решение. В модели восприятия используются концепции из R-CNN. Существует несколько обновленных версий Inception (версии 6 и 7), и «несколько высокопроизводительных графических процессоров» могут завершить обучение в течение недели.

Почему это важно?

GoogLeNet была первой моделью, в которой было представлено представление о том, что слои CNN не нужно все время последовательно накладывать друг на друга. Используя начальную модель, авторы демонстрируют творческий иерархический механизм, который может привести к повышению производительности и эффективности вычислений. Эта работа действительно закладывает основу для удивительной архитектуры, которую мы можем увидеть в ближайшие несколько лет.

Майкрософт Реснет (2015)

Представьте себе глубокую архитектуру CNN, независимо от того, насколько глубокая, глубокая, глубокая, по оценкам, нет чемпиона ILSVRC 2015, 152-уровневая архитектура ResNet Microsoft глубока. Помимо установки рекорда по количеству слоев, уровень ошибок ResNet также удивительно низок, достигая 3,6%, а у людей — примерно от 5% до 10%.

Почему это важно?

С частотой ошибок всего 3,6% этого должно быть достаточно, чтобы убедить вас. Модель ResNet в настоящее время является лучшей архитектурой CNN и крупным нововведением в концепции остаточного обучения. С 2012 года процент ошибок год от года снижался, и я сомневаюсь, что он продолжит снижаться до ILSVRC2016. Я считаю, что мы не добьемся огромного прироста производительности, накладывая сейчас больше слоев. Мы должны создавать новые архитектуры.

Региональные CNN: R-CNN (2013 г.), Fast R-CNN (2015 г.), Faster R-CNN (2015 г.)

Кто-то может возразить, что появление R-CNN оказало большее влияние, чем любая предыдущая статья о новых сетевых архитектурах. Первая статья на R-CNN цитировалась более 1600 раз. Росс Гиршик и его команда из Калифорнийского университета в Беркли добились самых значительных успехов в области машинного зрения. Как написано в их статье, Fast R-CNN и Faster R-CNN позволяют моделям становиться быстрее и лучше подходить для современных задач распознавания объектов.

Цель R-CNN — решить проблему распознавания объектов. После получения определенного изображения мы хотим иметь возможность рисовать края всех объектов на изображении. Этот процесс можно разделить на два компонента: один — региональное предложение, а другой — классификация.

Авторы статьи подчеркивают, что любой предложенный метод классификации агностических регионов должен применяться. Выборочный поиск посвящен RCNN. Что делает выборочный поиск, так это собирает 2000 различных областей, которые с наибольшей вероятностью содержат объект. После того, как мы разработали ряд предложений по регионам, эти предложения объединяются в область размером с изображение, которую можно заполнить в обученной CNN (примером в статье является AlexNet), которая может извлекать соответствующий регион для каждой функции региона. Затем этот вектор используется в качестве входных данных для линейного SVM, обученного для каждого типа и выходной классификации. Векторы также могут быть заполнены ограниченной областью регрессии для наиболее точной согласованности.

 

Затем неэкстремальное подавление используется для подавления граничных областей, которые имеют большое повторение друг друга.

Быстрый R-CNN

Первоначальная модель была улучшена по трем основным причинам: обучение требует нескольких шагов, что является дорогостоящим в вычислительном отношении и медленным. Fast R-CNN может быстро решать проблемы, фундаментально анализируя вычисления сверточных слоев в различных предложениях, нарушая при этом плавность генерации предложений регионов и запуска CNN.

 

Быстрее R-CNN

Работа Faster R-CNN заключается в преодолении сложности конвейера обучения, продемонстрированного R-CNN и Fast R-CNN. Авторы вводят сеть предложений региона (RPN) на последнем сверточном уровне. Эта сеть способна создавать предложения по регионам, просто взглянув на особенности последнего слоя. С этого уровня доступен тот же конвейер R-CNN.

 

Почему это важно?

Способность идентифицировать объект на изображении — это одно, но способность определять точное местоположение объекта — это огромный скачок в компьютерных знаниях. Сегодня Faster R-CNN стала стандартной программой распознавания объектов.

Генеративно-состязательные сети (2015)

По словам Яна Лекуна, генеративно-состязательные сети могут стать следующим большим прорывом в глубоком обучении. Предположим, что есть две модели: генеративная модель и дискриминативная модель. Задача дискриминационной модели состоит в том, чтобы решить, является ли изображение реальным (из базы данных) или сгенерировано машиной, в то время как задача генеративной модели состоит в том, чтобы генерировать изображения, которые могут обмануть дискриминационную модель. Эти две модели образуют «противостояние» друг другу и в конечном итоге достигнут баланса в развитии.Изображение, созданное генератором, неотличимо от реального изображения, и дискриминатор не может различить их.

 

Левая колонка — это изображение в базе данных, то есть реальное изображение, а правая колонка — это изображение, сгенерированное машиной.Хотя невооруженным глазом оно выглядит в основном одинаково, в CNN оно выглядит совсем по-другому.

Почему это важно?

Звучит просто, но эту модель можно построить, только если вы понимаете «внутреннее представление данных», вы можете научить сеть понимать разницу между реальными изображениями и изображениями, сгенерированными машиной. Следовательно, эту модель также можно использовать в CNN для извлечения признаков. Кроме того, вы можете использовать генеративно-состязательные модели для создания поддельных картинок.

Создание описаний изображений (2014)

Что происходит, когда вы комбинируете CNN и RNN?В этой статье Андрея Карпати и Фейфей Ли исследуется проблема объединения CNN и двунаправленных RNN для создания естественно-языковых описаний различных областей изображения. Проще говоря, эта модель умеет принимать картинку и выводить

 

Это потрясающе. В традиционной CNN каждое изображение в обучающих данных имеет одну метку. Модель, описанная в этой статье, представляет собой предложение (или картинку) с каждым изображением. Такие маркеры называются слабыми маркерами, и, используя эти обучающие данные, глубокая нейронная сеть «делает вывод о скрытом выравнивании между частями предложения и областями, которые они описывают», а другая берет изображение в качестве входных данных, генерируя описание текста.

Почему это важно?

Использование, казалось бы, несвязанных моделей RNN и CNN создает очень полезное приложение, объединяющее компьютерное зрение и обработку естественного языка. В этой статье представлен новый взгляд на то, как моделировать междоменные задачи и справляться с ними.

Сеть пространственного трансформатора (2015)

Наконец, давайте посмотрим на недавнюю статью в этой области. Эта статья была написана год назад командой Google DeepMind. Основным вкладом этой статьи является введение модуля Spatial Transformer. Основная идея заключается в том, что этот модуль преобразует входное изображение, чтобы последующие слои могли его легче классифицировать. Вместо того, чтобы менять саму основную архитектуру CNN, авторы пытаются изменить изображение до того, как оно достигнет определенного уровня. Модуль хочет исправить две вещи: нормализацию позы (объекты, наклоненные или масштабированные в сцене) и пространственное внимание (фокусировку на правильных объектах в плотных изображениях). Для традиционных CNN, если вы хотите, чтобы ваша модель оставалась неизменной для изображений разных размеров и поворотов, вам нужно большое количество обучающих выборок для обучения модели. Давайте посмотрим, как этот модуль может помочь решить эту проблему.

В традиционной модели CNN именно слой maxpooling имеет дело с пространственной инвариантностью. Причина этого в том, что, как только мы знаем, что конкретная функция также является начальным входом (имеет высокое значение активации), ее точное местоположение становится менее важным, чем ее относительное расположение по отношению к другим функциям, столь же важным для других функций. Этот новый космический преобразователь является динамическим, он будет вести себя по-разному (различное деформирование/деформация) для каждого входного изображения. Это не так просто и предопределено, как традиционный макспул. Давайте посмотрим, как работает этот модуль. Этот модуль включает в себя:

Сеть локализации, которая принимает входные данные и выводит параметры пространственного преобразования, которое следует применить. Параметр может быть 6-мерным аффинным преобразованием.

Сетка выборки, которая является результатом комбинации изогнутой регулярной сетки и аффинного преобразования (тета), созданного в сети позиционирования.

Сэмплер, целью которого является деформация входного графа признаков.

 

Этот модуль может быть размещен в любом месте CNN и может помочь сети научиться преобразовывать карты объектов таким образом, чтобы минимизировать функцию стоимости во время обучения.

 

Почему это важно?

Улучшение CNN не обязательно должно достигаться за счет серьезных изменений в сетевой архитектуре. Нам не нужно создавать следующую модель ResNet или Inception. В этой статье реализована простая идея аффинного преобразования входного изображения, чтобы сделать модель инвариантной к перемещению, масштабированию и вращению. Подробнее см. "Десять классических статей CNN".

 

72 Каковы передовые достижения глубокого обучения в области зрения? Применение глубокого обучения DL сложно
@元峰, источник анализа этого вопроса:zhuanlan.zhihu.com/p/24699780

введение

На крупнейшей в этом году конференции по нейронным сетям NIPS2016 профессор Янн Лекун, один из трех великих коров глубокого обучения, прочитал лекцию о машинном обучении.контролируемое обучение,неконтролируемое обучениеиобучение с подкреплениемОн сказал интересную аналогию: если интеллект уподобить пирогу, тонеконтролируемое обучениеЭто сам торт.обучение с подкреплениемвишенки на торте, токонтролируемое обучение, считается лишь вишенкой на торте (Рисунок 1).

 

Рисунок 1. Метафора Яна Лекуна о ценности контролируемого, подкрепляющего и неконтролируемого обучения

 

 

1. Прогресс глубокого обучения с учителем в области компьютерного зрения

1.1 Классификация изображений

Поскольку Алекс и его наставник Хинтон (создатель глубокого обучения) в конкурсе крупномасштабного распознавания изображений ImageNet 2012 года (ILSVRC2012) превзошли второе место на 10 процентных пунктов (точность Top5 83,6%), они разгромили второе место (74,2 %, используя традиционные методы). методы компьютерного зрения), глубокое обучение действительно стало набирать популярность, а сверточные нейронные сети (CNN) стали нарицательными, от AlexNet (83,6%) в 2012 году до победителя крупномасштабных соревнований по распознаванию изображений ImageNet в 2013 году 88,8%, затем 92,7% VGG в 2014 году и 93,3% GoogLeNet в том же году, наконец, в 2015 году в 1000 категориях распознавания изображений Microsoft ResNet (ResNet) имеет показатель точности Top5 96,43%, достигнув уровня, превышающего уровень люди (правильный показатель людей составляет всего 94,9%).
Точность Top5 означает, что когда задано изображение, модель дает 5 наиболее вероятных меток, если правильная метка включена в предсказанные 5 результатов, она верна.

Рис. 2. Тенденция развития частоты ошибок распознавания изображений на соревнованиях ILSVRC с 2010 по 2015 гг.

 

1.2 Обнаружение изображения

Наряду с задачей классификации изображений существует еще одна более сложная задача - обнаружение изображений.Обнаружение изображений относится к окружению объектов прямоугольными прямоугольниками при классификации изображений. С 2014 по 2016 год последовательно появлялись известные фреймворки, такие как R-CNN, Fast R-CNN, Faster R-CNN, YOLO, SSD, и их средняя точность обнаружения (mAP) находится на PASCAL VOC, хорошо известных данных. установлен в компьютерном зрении. Средняя точность обнаружения (mAP) R-CNN также колеблется от 53,3% R-CNN до 68,4% Faster RCNN, а затем до 75,9% Faster R-CNN. Последние эксперименты показывают, что Faster RCNN в сочетании с остаточной сетью (Resnet-101). Точность обнаружения может достигать 83,8%. Скорость обнаружения глубокого обучения также становится все быстрее и быстрее: от исходной модели RCNN для обработки изображения требовалось более 2 секунд, до 198 мс/изображение Faster RCNN, а затем до 155 кадров/секунду YOLO недостаток в том, что точность низкая, всего 52,7%), и в итоге вышел SSD с высокой точностью и скоростью, с точностью 75,1% и скоростью 23 кадра в секунду. 

 

Рисунок 3. Пример обнаружения изображения

 

1.3 Сегментация изображения (семантическая сегментация)

Сегментация изображения также является интересной областью исследований.Его цель состоит в том, чтобы сегментировать различные объекты на изображении с разными цветами.Как показано на рисунке ниже, средняя точность (mIoU, который представляет собой пересечение прогнозируемой площади и фактической площади, деленное на объединение прогнозируемой площади и фактической площади.), а также из исходной модели FCN (полносвязная сеть семантической сегментации изображений, статья выиграла лучшую статью на главной конференции по компьютерному зрению CVPR2015) 62,2%, до 72,7% платформы DeepLab, а затем в CRF Оксфордского университета как RNN 74,7%. Эта область все еще развивается, и есть еще много возможностей для совершенствования.

Рисунок 4. Пример сегментации изображения

 

 

1.4 Аннотации к изображениям — подписи к изображениям

Аннотация к изображению - это привлекательная область исследования, ее цель исследования - дать изображение, вы даете мне абзац, чтобы описать его, как показано на рисунке, первое изображение на картинке, программа автоматически дает описание "человек, едущий верхом". мотоцикл на пыльной грунтовой дороге», а второе изображение — «две собаки играют в траве». Из-за огромной коммерческой ценности этого исследования (например, поиска изображений) в последние годы Baidu, Google и Microsoft в отрасли и Беркли в академических кругах, а также Университет Торонто, центр исследований глубокого обучения, проводят соответствующие исследования.**

Рис. 5. Аннотация к изображению, генерирующая текст описания на основе изображения

 

1.5 Генерация изображения — преобразование текста в изображение (генератор изображений)

Задача аннотации изображения изначально представляет собой полукруг.Поскольку мы можем генерировать текст описания из изображений, мы также можем генерировать изображения из текста. Как показано на рисунке 6, первый столбец "в голубом небе летит большой пассажирский самолет", модель автоматически формирует 16 картинок по тексту, третий столбец более интересен, "группа слонов, идущих по сухой траве" (это немного противоречит здравому смыслу, т.к. слоны в основном живут в тропических лесах и не ходят по сухой траве), модель тоже генерирует соответствующие картинки, хотя качество сгенерированных не очень, но вполне удовлетворительное.


Рисунок 6. Создание изображений из текста

 

 

2. Обучение с подкреплением

В задачах обучения с учителем мы все присваиваем образцам фиксированную метку, а затем обучаем модель.Однако в реальной среде нам сложно дать метки всем образцам.В этот момент на помощь приходит обучение с подкреплением. Проще говоря, мы даем некоторые награды или наказания.Обучение с подкреплением заключается в том, чтобы позволить модели пробовать и совершать ошибки самостоятельно, и как оптимизировать модель, чтобы получить больше баллов. AlphaGo, которая была популярна в 2016 году, использовала обучение с подкреплением для обучения и освоила оптимальную стратегию посредством непрерывных самостоятельных проб, ошибок и игр. Используя обучение с подкреплением, играя в игру «Flyppy Bird», удалось заработать десятки тысяч очков.

Рисунок 7. Обучение игре Flappy Bird с подкреплением

 

Google DeepMind опубликовала информацию об использовании обучения с подкреплением для игр Atari. Одна из классических игр — прорыв. Модель, предложенная DeepMind, использует в качестве входных данных только пиксели без каких-либо других предварительных знаний. Другими словами, модель не знает, что такое мяч. , во что он играет, удивительно, после 240 минут обучения он не только учится правильно ловить мяч, бить по кирпичам, он даже учится последовательно попадать в одно и то же место, игра Чем быстрее вы выигрываете (и тем выше награда). Ссылка на видео:Youtbe(нужно лезть на стену),Юку

 

Рисунок 8. Игра в Atari Breakout с глубоким обучением с подкреплением

Обучение с подкреплением имеет большое прикладное значение в области робототехники и автономного вождения, в настоящее время соответствующие статьи на arxiv появляются практически раз в несколько дней. Роботы учатся путем проб и ошибок, чтобы добиться оптимальной производительности.Это может быть лучшим путем для развития искусственного интеллекта, и, по оценкам, это также единственный путь к сильному искусственному интеллекту.

 

3 Глубокое обучение без присмотра — обучение с прогнозированием

В отличие от ограниченных данных контролируемого обучения, в природе существует бесконечное количество немаркированных данных. Только представьте, если искусственный интеллект сможет автоматически учиться у огромного мира природы, не откроет ли это новую эру? В настоящее время наиболее многообещающей областью исследований может быть обучение без учителя, поэтому профессор Янн Лекун сравнивает обучение без учителя с большим пирогом искусственного интеллекта.
Эксперт по глубокому обучению Ян Гудфеллоу предложил в 2014 г.Генеративно-состязательные сетиС тех пор эта область становилась все более и более популярной и стала одной из самых популярных областей исследований за последние 16 лет. Даниэль Янн ЛеКун однажды сказал: «Состязательная сеть — самая захватывающая вещь со времен изобретения нарезанного хлеба». 
Простое объяснение генеративно-состязательной сети выглядит следующим образом: предположим, что есть две модели, одна из которых является генеративной моделью (далее сокращенно G), а другая — дискриминационной моделью (далее сокращенно D), задача дискриминационной модели ( D) Это судить о том, является ли экземпляр реальным или созданным моделью. Задача генеративной модели (G) состоит в том, чтобы создать экземпляр, чтобы обмануть дискриминантную модель (D). Две модели противостоят друг другу, и баланс будут достигнуты в процессе разработки Генеративная модель генерирует Экземпляры, неотличимые от реальных, а дискриминативная модель не может отличить естественные экземпляры от сгенерированных моделью. Возьмем, к примеру, торговца подделками, торговец подделками (генерирующая модель) производит поддельные картины Пикассо, чтобы обмануть эксперта (модель различения D), торговец подделками повышает свой высокий уровень имитации, чтобы отличить эксперта, а эксперт также изучая настоящие и поддельные картины Пикассо. Чтобы улучшить свои способности идентификации, они оба играли в игры. В конце концов, поддельные картины Пикассо, которым подражали торговцы подделками, достигли уровня поддельных и настоящих, и это было трудно эксперты, чтобы отличить оригинал от подделки. На следующем рисунке показаны некоторые сгенерированные изображения в статье Гудфеллоу о генеративно-состязательных сетях. Видно, что модель, сгенерированная моделью, все еще сильно отличается от реальной, но это статья 14-летней давности. В 2016 году эта область прогрессировали очень быстро, одно за другим.Условно-генеративные состязательные сетииИнформационно-генерирующие состязательные сети (InfoGAN),Глубокая сверточная генеративно-состязательная сеть (DCGAN),Что еще более важно, современные генеративно-состязательные сети распространили свои щупальца на область видеопрогнозирования.Как мы все знаем, люди в основном полагаются на видеопоследовательности, чтобы понять мир природы, а изображения составляют лишь очень небольшую часть.Когда искусственный интеллект научится понимать видео, он действительно начнет показывать свою силу.

Вот обзорная статья, написанная Яном Гудфеллоу в начале 2017 года в сочетании с его речью на NIPS2016.NIPS 2016 Tutorial: Generative Adversarial Networks

 

 

 

 

 

Рисунок 9. Некоторые изображения, сгенерированные генеративно-состязательной сетью, последний столбец — наиболее похожие производственные изображения на изображения в обучающем наборе.

 

3.1 Условно-генеративные состязательные сети (CGAN)

Генеративно-состязательные сети обычно генерируют определенные типы изображений и других экземпляров на основе случайного шума Условно-генеративно-состязательные сети определяют выходные данные на основе определенных входных данных, например, генерируют определенные экземпляры на основе нескольких описательных существительных, что в чем-то похоже на то, что описано в разделе 1.5. Изображение сгенерировано из текста.Следующее изображение представляет собой изображение из статьи Conditioanal Generative Adversarial Nets.Изображение сгенерировано в соответствии с конкретным описанием существительного. (Примечание: текст описания картинки в левой колонке не существует в обучающей выборке, то есть это картинка, сгенерированная моделью на основе ранее не виденного описания, и описание изображение в правом столбце существует в тренировочном наборе)

Рисунок 10. Генерация изображений из текста

Еще одна интересная статья об условных генеративных состязательных сетях - это перевод изображения в изображение. Модель, предложенная в этой статье, может принимать входное изображение, а затем выдавать изображение, сгенерированное моделью. Следующее изображение представляет собой изображение в документе, в котором вверху слева Первая пара ракурсов очень интересна, модель берет результат сегментации изображения и дает результат сгенерированной реальной сцены, что похоже на реверс-инжиниринг сегментации изображения.

Рисунок 11. Генерация некоторых интересных выходных изображений на основе определенных входных данных

Генеративные состязательные сети также используются в сверхвысоком разрешении изображений, которое было предложено в 2016 году.модель СРГАН, он уменьшает исходное изображение высокой четкости и пытается использовать модель генеративно-состязательной сети для восстановления изображения, чтобы создать более естественное изображение, которое ближе к исходному изображению. Крайнее правое изображение на изображении ниже является исходным изображением.После субдискретизации изображение, полученное с помощью бикубической интерполяции, относительно размыто.Версия с использованием остаточной сети (SRResNet) намного чище.Мы можем видеть изображение, сгенерированное SRGAN.более реальное.

 

рисунок 12. Пример генерации состязательных сетей для суперразрешения, крайний справа — исходное изображение

Еще одна влиятельная статья о генеративно-состязательных сетях:Глубокая сверточная генеративно-состязательная сеть DCGAN,Автор сочетает сверточные нейронные сети и генеративные состязательные сети.Автор указывает, что структура может очень хорошо изучать характеристики вещей.Бумага дает очень интересные результаты в генерации изображений и манипулировании изображениями, такие как рисунок 13,мужчина с глазами - мужчина без очков + женщина без глаз = женщина с глазами, модель дает аналогичную операцию векторизации для изображений.

 

 

 

 

 

 

Рисунок 13. Пример диаграммы из документа DCGAN

Разработка генеративно-состязательных сетей настолько популярна, что перечислить статью полностью сложно.Друзья, интересующиеся этим, могут поискать соответствующие статьи в Интернете для изучения.
Блог openAI, описывающий генеративно-состязательные сети, великолепен, и, поскольку Ян Гудфеллоу работает в OpenAI, качество этого блога вполне гарантировано. Ссылка:Блог Open AI Generative Adversarial Networks

 

3.2 Прогноз видео

Это направление является направлением, которое больше всего интересует автора. Янн ЛеКун также предложил «заменить неконтролируемое обучение прогностическим обучением». Прогностическое обучение работает, наблюдая и понимая, как устроен мир, а затем делая прогнозы об изменениях в мире. воспринимать изменения в мире, а затем делать выводы о состоянии мира.
В этом году на NIPS ученые Массачусетского технологического института Вондрик и другие опубликовали статью под названиемGenerating Videos with Scene DynamicsВ документе предлагается, чтобы на основе статического изображения модель автоматически делала вывод о следующей сцене, например, учитывая изображение человека, стоящего на пляже, модель автоматически дает небольшое видео следующей волны. Модель обучается на большом количестве видео без присмотра. Модель показывает, что она может автоматически изучать полезные функции в видео. Следующее изображение - это изображение, размещенное на официальной домашней странице автора. Это динамическое изображение. Если вы не можете просмотреть его в обычном режиме, перейдите наОфициальный сайт
Пример генерации видео. Видео на картинке ниже автоматически генерируется моделью. Мы видим, что картинка не идеальна, но уже вполне может представлять сцену. 

**

 

 

Рис. 14. Случайно сгенерированное видео с волнами на пляже и сценой с бегущим поездом

Условная генерация видео, изображение ниже предназначено для ввода статического изображения, и модель автоматически выводит небольшое видео.

 

 

**

 

 

Рисунок 15. По статичному изображению травы модель автоматически делает вывод о движущихся сценах с людьми. Это изображение является движущимся. Если вы не можете его просмотреть, Пожалуйста, посетите

Рисунок 16. Учитывая карту железных дорог, модель автоматически делает вывод, как будет проходить поезд. Это изображение является движущимся изображением. Если вы не можете просмотреть его,Пожалуйста, посетите

Лаборатория CSAIL Массачусетского технологического института также выпустила блог под названием«Обучающие машины предсказывать будущее», модель присутствует в видео и сериалах на YouTube (например,The Officeи «Отчаянные домохозяйки»), после обучения, если вы дадите модели картинку перед поцелуем, модель может автоматически сделать вывод об объятиях и поцелуях. Конкретный пример см. на рисунке ниже. 

Рисунок 17. Учитывая статический график, модель автоматически угадывает следующее действие

Лоттер Гарварда и др.PredNet, модель тоже естьНабор данных КИТТИПосле обучения модель может предсказывать следующие несколько кадров видеорегистратора на основе предыдущего видео.Модель обучается с помощью нейронной сети с долговременной кратковременной памятью (LSTM). Конкретный пример показан на рисунке ниже.По нескольким первым изображениям с регистратора автоматически предсказываются следующие пять кадров сцен.После того, как модель вводит несколько кадров изображений, она предсказывает следующие пять кадров.Как может быть видно из рисунка, чем дальше назад, модель предсказывает более размытое,Но модель уже может давать ценные прогнозы. Изображение является движущимся изображением, если вы не можете просмотреть его в обычном режиме, посетите страницуБлог автора

 


Рисунок 18. При наличии первых нескольких изображений видеорегистратор автоматически предскажет следующие пять кадров сцен. Это движущееся изображение. Если вы не можете просмотреть его,Пожалуйста, посетите

 

4 Резюме

Слишком много статей о создании состязательных сетей и неконтролируемом обучении видеопрогнозированию, а моя энергия действительно ограничена Заинтересованные читатели могут каждый день чистить раздел компьютерного зрения в arxiv.Компьютерное зрение и распознавание моделей,Нейронные сети и эволюционные вычисленияиискусственный интеллектЖдите соответствующий раздел, в основном каждый день появляются новые работы в этой области. Обнаружение и сегментация изображений, обучение с подкреплением, генеративные состязательные сети и прогностическое обучение — все это горячие направления развития искусственного интеллекта.Мы надеемся, что те, кто интересуется глубоким обучением, смогут добиться некоторых успехов в этом отношении. Спасибо за ваше чтение, друзья, которые заинтересованы в глубоком неконтролируемом обучении, приглашаем учиться и общаться вместе, пожалуйста, отправьте мне личное сообщение.

5 ссылок

В процессе написания этой статьи я постарался прикрепить URL статьи к тексту в виде ссылки.Большинство блогов и статей, упомянутых в этой статье, организованы следующим образом, что удобно для вас и самостоятельно изучить и просмотреть в будущем.

Справочный блог

  1. Основной доклад NIPS: Янн ЛеКун: Замена неконтролируемого обучения прогностическим обучением
  2. Одиннадцать вех в развитии компьютерного зрения и CNN
  3. Generative Models
  4. Generating Videos with Scene Dynamics
  5. Teaching machines to predict the future
  • Справочные документы
  1. Модель Resnet, классификация изображений, превосходит уровень распознавания человеческого компьютера.Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification
  2. Обнаружение изображенияFaster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
  3. Сегментация изображенияConditional Random Fields as Recurrent Neural Networks
  4. Аннотация к изображению, смотрите картинки и говоритеShow and Tell: A Neural Image Caption Generator
  5. текст к изображениюGenerative Adversarial Text to Image Synthesis
  6. Подкрепление учится играть в флаппи птичкуUsing Deep Q-Network to Learn How To Play Flappy Bird
  7. Обучение игре в игры Atari с подкреплениемPlaying Atari with Deep Reinforcement Learning
  8. Генеративно-состязательные сетиGenerative Adversarial Networks
  9. Условно-генеративные состязательные сетиConditional Generative Adversarial Nets
  10. Генеративно-состязательные сети для изображений сверхвысокого разрешенияPhoto-Realistic Single Image Super-Resolution Using a Generative Adversarial Network
  11. Глубокие сверточные генеративные состязательные сетиUnsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks
  12. Видео из картинокGenerating Videos with Scene Dynamics
  13. Прогнозирование видео и обучение без учителяDeep Predictive Coding Networks for Video Prediction and Unsupervised Learning

73 В чем разница между HashMap и HashTable? хэш-таблица структуры данных
Комментарии: HashMap реализован на основе Hashtable. Разница в том, что HashMap асинхронный и допускает null, то есть значение null и ключ null, а Hashtable не допускает null. Подробнее см.:oznyang.iteye.com/blog/30690. Кроме того, помните одну вещь: hashmap/hashset и другие элементы с хеш-словами реализованы на основе хеш-таблицы, а элементы без хэш-слов, такие как set/map, реализованы на основе красно-черных деревьев, первый неупорядоченный, а второй упорядоченный Подробности смотрите здесь Первая часть текста: "Научу вас быстро убивать: 99% вопросов на собеседовании о массовой обработке данных".
Тем не менее, считается, что более наглядно смотреть прямо на изображение, поэтому я загружу изображение напрямую (источник изображения: PPT интервью и лекции по алгоритмам в Шанхайском университете Цзяотун 28 июля)v disk.twitter.com/yes/as FL6ox кг…):

 

74 В задачах классификации мы часто сталкиваемся с ситуациями, когда количество данных положительной и отрицательной выборки различается. Например, положительная выборка содержит данные 10w, а отрицательная выборка имеет только данные 1w. Ниже приведен наиболее подходящий метод обработки ( )? Основы машинного обучения ML
A Повторите отрицательный образец 10 раз, чтобы получить размер выборки 10 Вт, и участвуйте в классификации в случайном порядке.
B Прямая классификация для максимального использования данных
C случайным образом выбрать 1w из 10w положительных образцов для участия в классификации
D Установите вес каждого отрицательного образца на 10, вес положительного образца на 1 и примите участие в процессе обучения.
@Doctor Guan: Если быть точным, то на самом деле эти методы в вариантах имеют свои преимущества и недостатки, а конкретные проблемы требуют подробного анализа.Есть статья, в которой анализируются преимущества и недостатки различных методов, что хорошо , Заинтересованные студенты могут обратиться к:Woohoo.аналитика vi.com/blog/2017/0…

 

Следующие вопросы с 69 по 83 взяты из:blog.csdn.net/u011204487
75 Глубокое обучение — очень популярный алгоритм машинного обучения.В глубоком обучении задействовано большое количество матричных умножений.Теперь необходимо вычислить произведение ABC трех плотных матриц A, B и C, предполагая, что размеры три матрицы равны m соответственно *n, n*p, p*q и m
A.(AB)C
B.AC(B)
C.A(BC)
D. Так что эффективность одинакова
Правильный ответ: А
@BlackEyes_SGC: m*n*p

 

76 Nave Bayes — это специальный байесовский классификатор, характерная переменная — X, метка класса — C, одно из его предположений — () модель машинного обучения ML в
A. Априорная вероятность P(C) каждой категории равна
B. Нормальное распределение с 0 в качестве среднего и sqr(2)/2 в качестве стандартного отклонения.
C. Каждое измерение характеристической переменной X является условной независимой случайной величиной категории.
D.P(X|C) — распределение Гаусса.
Правильный ответ: С
@BlackEyes_SGC: основное предположение Наивного Байеса состоит в том, что каждая переменная независима друг от друга.

 

77 Что касается метода опорных векторов SVM, следующее утверждение неверно () в модели машинного обучения ML
Регулярный термин A.L2, функция состоит в том, чтобы максимизировать интервал классификации, чтобы классификатор имел более сильную способность к обобщению.
B. Функция потерь шарнира, роль которой заключается в минимизации эмпирической ошибки классификации.
C. Интервал классификации равен 1/||w||, а ||w|| представляет собой модуль вектора
D. Когда параметр C меньше, интервал классификации больше, ошибка классификации больше, и она имеет тенденцию к недоучению.
Правильный ответ: С
@BlackEyes_SGC:
А правильно. Рассмотрим причину добавления члена регуляризации: представьте идеальный набор данных, y>1 — положительный класс, yБ правильно. 
ошибка С. Интервал должен быть равен 2/||w||, а вторая половина предложения должна быть правильной.Модуль вектора обычно относится к его второй норме. 
Д правильно. При рассмотрении мягких полей влияние C на задачу оптимизации заключается в ограничении диапазона a от [0, +inf] до [0, C]. Чем меньше C, тем меньше будет a. Если производная функции Лагранжа от целевой функции равна 0, можно получить w = sum ai∗yi∗xi. Чем меньше a, тем меньше w, поэтому интервал равен 2/||w| | становится больше

 

78 В HMM, если известна последовательность наблюдений и последовательность состояний, которая произвела последовательность наблюдений, какой из следующих методов можно использовать для непосредственной оценки параметров () Модель машинного обучения ML
Алгоритм А.ЭМ
Б. Алгоритм Витерби
C. Прямой обратный алгоритм
D. Оценка максимального правдоподобия
Правильный ответ: Д
@BlackEyes_SGC:
Алгоритм EM: для изучения параметров модели используется только последовательность наблюдений, когда нет последовательности состояний, то есть алгоритм Баума-Уэлча.
Алгоритм Витерби: решение задач прогнозирования HMM с помощью динамического программирования, а не оценки параметров
Алгоритм «вперед-назад»: используется для расчета вероятностей.
Оценка максимального правдоподобия: то есть алгоритм обучения с учителем, когда для оценки параметров существуют как последовательность наблюдений, так и соответствующая последовательность состояний.
Обратите внимание, что оценка параметров модели для данной последовательности наблюдений и соответствующей последовательности состояний может быть оценена с использованием максимального правдоподобия. Если нет соответствующей последовательности состояний для данной последовательности наблюдений, EM используется для просмотра последовательности состояний как неизмеримых скрытых данных.

 

79 Если предположить, что учащийся случайно повторил два измерения обучающих данных при использовании модели классификации наивного байесовского (НБ), каково правильное утверждение о НБ? модель машинного обучения машинного обучения
А. Решающая роль этого повторяющегося признака в модели будет усилена
B. Точность модельного эффекта будет снижена по сравнению со случаем без повторяющихся признаков.
C. Если все функции повторяются, результирующий прогноз модели будет таким же, как и прогноз модели без повторения.
D. Когда два столбца признаков сильно коррелированы, невозможно использовать выводы, полученные при совпадении двух столбцов признаков, для анализа проблемы.
E.NB можно использовать для регрессии методом наименьших квадратов.
F. Приведенное выше утверждение неверно.
Правильный ответ: БД
@BlackEyes_SGC: Суть NB заключается в том, что он предполагает независимость всех компонентов вектора. В системе байесовской теории существует важное предположение об условной независимости: предполагается, что все признаки независимы друг от друга, так что совместная вероятность может быть разделена

 

80 Какой из следующих методов нельзя использовать для непосредственной классификации текста? Модели машинного обучения ML Easy
А. Кминс
Б. Дерево решений
C. Машина опорных векторов
D. Правильный ответ KNN: классификация отличается от кластеризации.
@BlackEyes_SGC: A: Kmeans — это метод кластеризации, типичный метод обучения без учителя. Классификация — это контролируемый метод обучения, а BCD — распространенный метод классификации.

81 Зная ковариационную матрицу P набора данных, следующее утверждение о главном компоненте неверно () Machine Learning ML Foundation Easy
A. Наилучшим критерием для анализа основных компонентов является разложение набора данных в соответствии с набором ортонормированных базисов, и при условии, что берется только одинаковое количество компонентов, для вычисления минимальной ошибки обрезки используется среднеквадратическая ошибка. .
B. После разложения главных компонент ковариационная матрица становится диагональной матрицей
C, анализ главных компонентов представляет собой KL-преобразование
D. Главная компонента получается путем вычисления собственных значений ковариационной матрицы
Правильный ответ: С
@BlackEyes_SGC: KL-преобразование и PCA-преобразование - это разные концепции Матрица преобразования PCA - это ковариационная матрица, а матрица преобразования KL-преобразования может быть многих видов (матрица второго порядка, ковариационная матрица, матрица полной внутриклассовой дисперсии, и т.д.). Когда матрица преобразования K-L является ковариационной матрицей, она эквивалентна PCA.

Сложность kmeans? Модели машинного обучения ML Easy

Временная сложность: O(tKmn), где t — количество итераций, K — количество кластеров, m — количество записей, n — размерность Пространственная сложность: O((m+K)n), где K — кластер Число , m - количество записей, n - размерность

 

82 Что неверно в логит-регрессии и SVM (A) в моделях машинного обучения ML
A. Логит-регрессия — это, по сути, метод оценки весов методом максимального правдоподобия на основе выборок, а апостериорная вероятность пропорциональна произведению априорной вероятности и функции правдоподобия. Логит просто максимизирует функцию правдоподобия, а не максимизирует апостериорную вероятность, не говоря уже о минимизации апостериорной вероятности. Ошибка
B. Результатом логит-регрессии является вероятность того, что образец относится к положительной категории, и эту вероятность можно рассчитать, исправить
C. Цель SVM состоит в том, чтобы найти гиперплоскость, которая максимально разделяет обучающие данные и максимизирует интервал классификации, который должен минимизировать структурный риск.
D. SVM может контролировать сложность модели с помощью коэффициента регуляризации и избегать переобучения.
@BlackEyes_SGC: Целевой функцией логит-регрессии является минимизация апостериорной вероятности.Логит-регрессия может использоваться для прогнозирования вероятности возникновения событий.Цель SVM - минимизировать структурный риск, а SVM может эффективно избежать переобучения модели.

83 Размер входного изображения 200×200, и оно проходит через один слой свертки (размер ядра 5×5, заполнение 1, шаг 2), объединение (размер ядра 3×3, заполнение 0, шаг 1) и еще один уровень свертки (после размера ядра 3 × 3, отступ 1, шаг 1), размер карты выходных объектов равен () Основы глубокого обучения DL
A 95
B 96
C 97
D 98
E 99
F 100
Правильный ответ: С
@BlackEyes_SGC: некратный вычислительный размер встречается только в GoogLeNet. Свертка округляет в меньшую сторону, а объединение округляет в большую сторону.
Этот вопрос (200-5+2*1)/2+1 равен 99,5, возьмите 99
(99-3)/1+1 равно 97
(97-3+2*1)/1+1 равно 97
Если вы изучали сеть, вы можете видеть, что когда шаг равен 1, когда ядро ​​равно 3 и заполнение равно 1 или ядро ​​равно 5 и заполнение равно 2, видно, что размер до и после свертки не меняется.
То же самое справедливо и для расчета размера всего процесса GoogLeNet.

84 Основными факторами, влияющими на результаты алгоритмов кластеризации, являются (B, C, D) Модель машинного обучения ML Easy
A. Качество образцов известных классов;
Б. Критерии классификации;
C. Выбор функции;
D. Мера подобия шаблона

 

85 В распознавании образов преимущество лошадиного расстояния над евклидовым расстоянием (C, D) Machine Learning ML Model Easy
А. Трансляционная инвариантность;
B. Инвариантность вращения;
инвариантность масштаба C;
D. Рассмотрено распределение паттернов

 

86 Основными факторами, влияющими на базовый алгоритм K-средних, являются (BD) Machine Learning ML Model Easy
A. Образец порядка ввода;
B. Мера сходства с образцом;
C. Критерии кластеризации;
D. Выбор центра начального класса

 

87 В задачах классификации статистических закономерностей, когда априорные вероятности неизвестны, можно использовать (BD) модели машинного обучения ML.
А. Критерий минимальных потерь;
B. Минимальные и максимальные критерии потерь;
C. Критерий минимальной вероятности ошибочного суждения;
D. Решение N-P

 

88 Если коэффициент корреляции вектора признаков используется в качестве меры сходства шаблонов, основными факторами, влияющими на результаты алгоритма кластеризации, являются (BC) Machine Learning ML Model Easy
A. Качество образцов известной категории;
Б. Критерии классификации;
C. Выбор функции;
D. Размерное евклидово расстояние имеет (AB);

 

89 Расстояние, похожее на лошадь, с (A B C D ) Машинное обучение Основы машинного обучения Легко
А. Трансляционная инвариантность;
B. Вращательная инвариантность;
C. Масштабная инвариантность;
D. Свойства, на которые не влияет измерение

90 Какой у вас опыт настройки параметров глубокого обучения (rnn, cnn)? Основы глубокого обучения DL
@bleak, источник:Ууху. Call.com/question/41…

инициализация параметра

Выберите один из следующих методов, и результаты в основном будут такими же. Но это должно быть сделано. В противном случае это может замедлить скорость сходимости, повлиять на результаты сходимости и даже вызвать ряд проблем, таких как Nan.

Следующее n_in — входной размер сети, n_out — выходной размер сети, n — n_in или (n_in+n_out)*0,5.

Первоначальный юридический документ Ксавьера:две сестры.org/proceedings…

Бумага инициализации:АР Вест V.org/ABS/1502.01…

  • Инициализация равномерного равномерного распределения: w = np.random.uniform(low=-scale, high=scale, size=[n_in,n_out])

    • Начальный метод Ксавьера, подходящий для обычной функции активации (tanh, сигмоид): масштаб = np.sqrt(3/n)
    • Инициализация, подходящая для ReLU: scale = np.sqrt(6/n)
  • Инициализация нормального распределения Гаусса: w = np.random.randn(n_in,n_out) * stdev # stdev — это стандартное отклонение распределения Гаусса, а среднее значение равно 0

    • Начальный метод Ксавьера, подходящий для обычной функции активации (tanh, сигмовидная): stdev = np.sqrt(n)
    • Инициализация, подходящая для ReLU: stdev = np.sqrt(2/n)
  • Инициализация svd: лучше влияет на RNN. Справочные документы:АР Вест V.org/ABS/1312.61…

предварительная обработка данных

  • zero-center , это довольно распространено. X -= np.mean(X, axis = 0) # zero-centerX /= np.std(X, axis = 0) # нормализовать
  • Отбеливание PCA используется реже.

тренировочные навыки

  • Чтобы нормализовать градиент, то есть разделить рассчитанный градиент на размер минипакета
  • clip c (отсечение градиента): ограничение максимального градиента, которое на самом деле является значением = sqrt(w1^2+w2^2....), если значение превышает пороговое значение, оно считается коэффициентом затухания, а значение значение равно порогу: 5,10 ,15
  • Dropout хорошо влияет на предотвращение переобучения малых данных.Значение обычно установлено на 0,5.В большинстве моих экспериментов dropout+sgd на малых данных имеет очень очевидный эффект.Поэтому, если возможно, рекомендуется попробовать его. Положение отсева является более конкретным.Для RNN рекомендуется поместить его в положение input->RNN и RNN->output.Чтобы узнать, как использовать отсев в RNN, вы можете обратиться к этой статье:АР Вест V.org/ABS/1409.23…
  • Adam, adadelta и т. д. На малых данных эффект от моего эксперимента здесь не так хорош, как у sgd, и скорость сходимости sgd будет медленнее, но окончательные результаты сходимости в целом лучше. Если вы используете sgd, вы можете начать с скорости обучения 1,0 или 0,1. Через некоторое время проверьте набор проверки. Если стоимость не падает, уменьшите вдвое скорость обучения. Я видел много статей, делающих это , сам Результаты эксперимента тоже очень хорошие.Конечно, вы также можете использовать серию ada для запуска сначала, а когда он быстро сходится, заменить его на sgd, чтобы продолжить обучение.Это также улучшится.Говорят, что adadelta как правило, лучше влияет на проблемы классификации, и Адам создает проблему лучше.
  • Помимо таких мест, как гейт, вам нужно ограничить вывод до 0-1, старайтесь не использовать сигмоид, вы можете использовать функции активации, такие как tanh или relu 1. Сигмоидальная функция находится в диапазоне от -4 до 4. большой градиент. Вне интервала градиент близок к 0, что легко может вызвать проблему исчезновения градиента. 2. Ввод 0 означает, что выход сигмовидной функции не равен 0.
  • Размер затемнения и встраивания rnn обычно регулируется от 128 до 128. Размер пакета обычно регулируется от 128. Самое главное, чтобы размер пакета был подходящим, а не чем больше, тем лучше.
  • Инициализация word2vec на небольших данных может не только эффективно повысить скорость сходимости, но и улучшить результаты.
  • Перетасуйте данные как можно больше
  • Смещение вентиля забывания LSTM, инициализированное значением 1,0 или выше, может дать лучшие результаты из этой статьи:две сестры.org/proceedings…, я установил его на 1,0 в эксперименте здесь, что может улучшить скорость сходимости.В реальных условиях для разных задач могут потребоваться разные значения.
  • Говорят, что пакетная нормализация улучшает эффект, но я не пробовал ее. Она рекомендуется как последнее средство для улучшения модели.
  • Если ваша модель содержит полносвязный слой (MLP), а размеры входных и выходных данных совпадают, вы можете рассмотреть возможность замены MLP на Highway Network. Я пытаюсь немного улучшить результаты. Рекомендуется в качестве окончательного средства улучшение модели.Принцип очень прост.К выходу добавляется вентиль для управления потоком информации.Подробности см. в статье:АР Вест V.org/ABS/1505.00…
  • Советы от @张新宇: Один раунд с регулярностью, один раунд без регулярности, повторите.

Ensemble

Ансамбль является абсолютным ядерным оружием для результатов статьи.Как правило, в глубоком обучении используются следующие методы:

  • Те же параметры, разные методы инициализации
  • Различные параметры, путем перекрестной проверки, выбирают лучшие группы
  • Одни и те же параметры, разные этапы обучения модели, т.е. модели с разными итерациями.
  • Различные модели выполняют линейное слияние, например, RNN и традиционные модели.

Дополнительные методы глубокого обучения см. в столбце:Алхимическая лаборатория - Знай колонку

 

91 Кратко рассказать о принципе RNN? модель глубокого обучения DL
Когда мы поступаем на третий год старшей школы, чтобы подготовиться к вступительным экзаменам в колледж, знания, полученные в это время, синтезируются из знаний, полученных до второго года старшей школы и второго года старшей школы, плюс знания, полученные на третьем году. Когда в подзаголовке фильма появляется «Я есть», вы, естественно, думаете: «Я китаец».

Что касается RNN, вот курсы, в которых подробно рассказывается о RNN, включая подробное объяснение условной генерации RNN, внимания, LSTM и т. д.:Глубокое обучение [лучшие в той же категории, обучайте инженеров ГО].

92 Что такое РНН? модель глубокого обучения DL

@ Птичье небо, источник анализа этого вопроса:blog.CSDN.net/Как использовать Roja…
Целью RNN является обработка данных последовательности. В традиционной модели нейронной сети от входного слоя к скрытому слою и выходному слою слои полностью связаны, а узлы между каждым слоем не связаны. Но эта обычная нейросеть бессильна перед многими задачами. Например, если вы хотите предсказать следующее слово предложения, вам обычно нужно использовать предыдущие слова, потому что передние и задние слова в предложении не являются независимыми. Причина, по которой RNN называют рекуррентными нейронными сетями, заключается в том, что текущий вывод последовательности также связан с предыдущим выводом. Конкретная форма заключается в том, что сеть запоминает предыдущую информацию и применяет ее для расчета текущего выхода, то естьУзлы между скрытыми слоями уже не несвязаны, а связаны, и вход скрытого слоя включает в себя не только выход входного слоя, но и выход скрытого слоя в предыдущий момент.. Теоретически RNN могут обрабатывать данные последовательности любой длины. Но на практике, чтобы уменьшить сложность, часто предполагается, что текущее состояние связано только с предыдущими состояниями.На следующем рисунке показан типичный RNN:
RNN_2

RNN_3 
From Nature 
RNN содержат входные единицы, входные наборы помечены как {x0,x1,...,xt,xt+1,...}, а выходные единицы (выходные единицы) помечены как {y0, y1,...,yt ,yt+1.,..}. RNN также содержат скрытые единицы, выходной набор которых мы помечаем как {s0,s1,...,st,st+1,...}, эти скрытые единицы выполняют большую часть работы. На рисунке вы обнаружите: есть односторонний поток информации от входной единицы к скрытой единице, а другой односторонний поток информации течет от скрытой единицы к выходной единице.В некоторых случаях RNN нарушают последнее ограничение, направляя информацию от выходной единицы обратно к скрытой единице, они называются «обратными проекциями», и вход скрытого слоя также включает состояние предыдущего скрытого слоя, т.е. уровень Узлы могут быть самоподключенными или взаимосвязанными
На приведенном выше рисунке рекуррентная нейронная сеть расширяется до полной нейронной сети. Например, для предложения, содержащего 5 слов, развернутая сеть представляет собой нейронную сеть с пятью слоями, каждый слой представляет слово. Процесс расчета для этой сети выглядит следующим образом:

  • xt представляет собой ввод t, t=1, 2, 3... шага (шага). Например, x1 — вектор второго слова (согласно приведенному выше рисунку, x0 — первое слово);
  • st — состояние t-го шага скрытого слоя, являющегося единицей памяти сети. st вычисляется на основе выходных данных текущего входного слоя и состояния предыдущего скрытого слоя. st=f(Uxt+Wst−1), где f обычно представляет собой нелинейную функцию активации, такую ​​какtanhилиReLU, при вычислении s0, то есть состояния скрытого слоя первого слова, необходимо использовать s-1, но оно не существует, и в реализации обычно устанавливается равным 0 вектору;
  • ot — результат t-го шага, представленный вектором следующего слова, ot=softmax(Vst). 
    Подробнее см. в этой статье:Введение в рекуррентные нейронные сети (RNN, рекуррентные нейронные сети).

 

93 Как шаг за шагом строится RNN из однослойной сети? Модель глубокого обучения DL Сложно
@He Zhiyuan, источник анализа этого вопроса:zhuanlan.zhihu.com/p/28054589

1. Начиная с однослойной сети

Прежде чем изучать RNN, мы должны сначала понять самую простую однослойную сеть, ее структура показана на рисунке:

Вход — это x, а выход y получается путем преобразования Wx+b и функции активации f. Я полагаю, что вы уже хорошо знакомы с этим.

Во-вторых, классическая структура RNN (N vs N)

В практических приложениях мы также столкнемся с большим количеством последовательных данных:

как:

  • Проблемы обработки естественного языка. x1 можно рассматривать как первое слово, x2 можно рассматривать как второе слово и так далее.
  • обработка речи. В это время x1, x2, x3... являются звуковыми сигналами каждого кадра.
  • проблема временных рядов. такие как ежедневные курсы акций и т. д.

Данные в форме последовательности не так просто обрабатывать с помощью необработанных нейронных сетей. Чтобы моделировать проблемы с последовательностями, RNN вводит понятие скрытого состояния h (скрытого состояния), которое может извлекать признаки из данных в форме последовательности, а затем преобразовывать их в выходные данные. Начнем с расчета h1:

Значения символов на иллюстрации следующие:

  • Круги или квадраты представляют векторы.
  • Стрелка представляет преобразование вектора. Как показано на рисунке выше, h0 и x1 соответственно соединены стрелкой, что означает, что каждый из h0 и x1 преобразуется один раз.

Подобные обозначения также появляются во многих статьях.Когда вы новичок, легко запутаться, но пока вы понимаете два вышеуказанных момента, вы можете легко понять смысл диаграмм.

Вычисление h2 аналогично вычислению h1. Следует отметить, что при расчетеПараметры U, W и b, используемые на каждом шаге, одинаковы, то есть параметры каждого шага являются общими., что является важной особенностью RNN и должно быть принято во внимание.

Остальное рассчитайте по очереди (используя те же параметры U, W, b):

Для удобства мы нарисуем только случай, когда длина последовательности равна 4. На самом деле этот процесс вычисления может продолжаться бесконечно.

Наша текущая RNN не имеет выходных данных, и способ получить выходное значение — вычислить напрямую через h:

Как было сказано ранее,Стрелка означает выполнение преобразования, аналогичного f(Wx+b), для соответствующего вектора, а здесь стрелка означает выполнение преобразования h1 для получения результата y1.

Остальная часть вывода выполняется аналогично (с использованием тех же параметров V и c, что и y1):

В ПОРЯДКЕ! Готово! Это самая классическая структура RNN, и мы устанавливаем ее как строительные блоки. Его входы x1, x2, .....xn, а выходы y1, y2, ...yn, то естьВходные и выходные последовательности должны быть одинаковой длины.

Из-за этого ограничения область применения классической RNN относительно невелика, но есть также некоторые проблемы, которые подходят для моделирования с помощью классической структуры RNN, такие как:

3. НВС 1

Иногда вход проблемы, с которой мы имеем дело, представляет собой последовательность, а выход — одно значение, а не последовательность Как мы должны ее моделировать? На самом деле, мы просто делаем выходное преобразование для последнего h и все:

Эта структура часто используется для решения проблем классификации последовательностей. Например, введите текст, чтобы определить категорию, к которой он принадлежит, введите предложение, чтобы определить его эмоциональную направленность, введите видео и определите его категорию и т. д.

4. 1 ВС Н

Как поступить в случае, когда ввод не является последовательностью, а вывод является последовательностью? Мы можем просто выполнить входные вычисления в начале последовательности:

Существует также структура, которая принимает входную информацию X в качестве входных данных каждого этапа:

На следующем рисунке пропущено несколько кружков X, и это эквивалентное представление:

Проблемы, с которыми может справиться эта структура 1 VS N:

  • Сгенерируйте текст из изображения (подпись к изображению), где вход X — это характеристика изображения, а выходная последовательность y — предложение.
  • Создание речи или музыки и т. д. из категорий

5. Н против М

Давайте представим один из самых важных вариантов RNN: N vs M. Эта структура также называется моделью кодировщика-декодера, которую также можно назвать моделью Seq2Seq.

Исходный N vs N RNN требует последовательностей одинаковой длины. Однако большинство проблемных последовательностей, с которыми мы сталкиваемся, имеют разную длину. Например, в машинном переводе предложения на исходном и целевом языках часто не имеют одинаковой длины.

С этой целью структура Encoder-Decoder сначала кодирует входные данные в вектор контекста c:

Есть много способов получить с. Самый простой способ — присвоить последнему скрытому состоянию кодировщика значение с. Вы также можете выполнить преобразование последнего скрытого состояния, чтобы получить с, и вы также можете преобразовать все скрытые состояния.

Получив c, используйте другую сеть RNN для его декодирования., эта часть сети RNN называется Декодером. Конкретный метод заключается в том, чтобы ввести c как предыдущее начальное состояние h0 в декодер:

Другой способ - использовать c в качестве входных данных для каждого шага:

Поскольку эта структура кодировщик-декодер не ограничивает длину последовательности ввода и вывода, она имеет широкий спектр приложений, таких как:

  • машинный перевод. Самое классическое применение Encoder-Decoder, фактически эта структура была впервые предложена в области машинного перевода.
  • Текстовое резюме. Входные данные представляют собой последовательность текста, а выходные данные представляют собой последовательность сводок последовательности текста.
  • Понимание прочитанного. Кодируйте входной артикль и вопрос отдельно, а затем декодируйте его, чтобы получить ответ на вопрос.
  • Распознавание речи. Вход представляет собой последовательность речевых сигналов, а выход — последовательность слов.

 

94 Можно ли использовать в качестве функции активации в RNN только tanh вместо ReLu? модель глубокого обучения DL
Подробнее см.:Ууху. Call.com/question/61…

95 Deep Learning (CNN RNN Attention) для крупномасштабных задач классификации текста. Применение глубокого обучения DL сложно
zhuanlan.zhihu.com/p/25928551

96 Как решить проблему взрыва и рассеивания градиента RNN? Модель глубокого обучения DL Сложно
Источник этого анализа:Глубокое обучение и обработка естественного языка (7)_Стэнфордская языковая модель cs224d, RNN, LSTM и GRU

Чтобы решить проблему взрыва градиента, Томас Миколов сначала предложил простое эвристическое решение, заключающееся в усечении градиента до меньшего числа, когда оно превышает определенный порог. В частности, как описано в Алгоритме 1:

Алгоритм: обрезать градиенты, когда они взрываются (псевдокод)


г ^ ←∂E∂W

если ∥g^∥≥порог, то

г ^ ← порог ∥ ∥ г ^ ∥ ∥ г ^


Изображение ниже визуализирует эффект усечения градиента. Он показывает поверхность решения небольшого rnn (где W — матрица весов, а b — член смещения). Модель составлена ​​из rnn единиц за короткий промежуток времени, сплошными стрелками показан процесс обучения градиентного спуска на каждом шаге. Когда целевая функция модели достигает высокой ошибки во время градиентного спуска, градиент будет отправлен за пределы поверхности принятия решения. Усеченная модель создает пунктирную линию, которая возвращает градиент ошибки ближе к исходному градиенту.

 


1.png 
Взрыв градиента, визуализация усечения градиента

 

Для решения проблемы градиентной дисперсии введем два метода. Первый метод состоит в том, чтобы изменить случайную инициализацию W(hh) на ассоциативную матричную инициализацию. Второй метод заключается в использовании ReLU (выпрямленных линейных единиц) вместо сигмовидной функции. Производная ReLU равна либо 0, либо 1. Следовательно, градиент нейрона всегда будет равен 1, а не будет уменьшаться после того, как градиент распространится в течение определенного времени.

 

97 Как понимать сети LSTM. Модель глубокого обучения DL Сложно
@Not_GOD, источник анализа этого вопроса:woo woo. Краткое описание.com/afraid/9 9 41 0 на этом…  

Recurrent Neural Networks

Люди не всегда начинают думать с пустым мозгом. Когда вы читаете это, вы делаете вывод об истинном значении текущего слова, основываясь на уже имеющемся у вас понимании слова, которое вы видели раньше. Мы не бросаем все и не думаем пустым мозгом. Наши мысли имеют постоянство.
Традиционные нейронные сети не могут этого сделать, и это кажется огромным недостатком. Например, предположим, что вы хотите классифицировать тип времени каждой временной точки в фильме. Традиционным нейронным сетям должно быть трудно справиться с этим — использовать предыдущие события в фильме для вывода последующих событий.
РНН решает эту проблему. RNN — это сети, содержащие петли, обеспечивающие сохранение информации.

RNN 包含循环

RNN содержит петли

На приведенной выше примерной диаграмме модуль нейронной сети A считывает некоторые входные данные x_i и выводит значение h_i. Циклы позволяют передавать информацию от текущего шага к следующему.
Эти петли делают RNN очень загадочными. Однако, если подумать, понять это не сложнее, чем обычную нейронную сеть. RNN можно рассматривать как несколько копий одной и той же нейронной сети, где каждый модуль нейронной сети передает сообщение следующему. Итак, если мы развернем этот цикл:

 

展开的 RNN

Расширенный РНН


Сцепленные функции показывают, что RNN по своей сути связаны с последовательностями и списками. Это наиболее естественная архитектура нейронной сети для такого рода данных.
И RNN также использовался людьми! За последние несколько лет RNN с умеренным успехом использовались в распознавании речи, языковом моделировании, переводе, подписях к изображениям и многом другом, и этот список растет. Я рекомендую всем обратиться к сообщению в блоге Андрея Карпаты -The Unreasonable Effectiveness of Recurrent Neural NetworksДавайте посмотрим на более интересные и успешные применения RNN.
Ключом к этим успешным приложениям является использование LSTM, специальной RNN, которая превосходит стандартные RNN во многих задачах. Почти все захватывающие результаты о RNN достигаются с помощью LSTM. Этот пост в блоге также будет посвящен LSTM.

Долгосрочные зависимости

Одним из ключевых моментов RNN является то, что их можно использовать для соединения предыдущей информации с текущими задачами, например, с использованием прошлых сегментов видео, чтобы сделать вывод о понимании текущего сегмента. Если RNN могут это сделать, они становятся очень полезными. Но действительно ли это возможно? Ответ заключается в том, что существует гораздо больше зависимостей.
Иногда нам просто нужно знать предыдущую информацию, чтобы выполнить текущую задачу. Например, у нас есть языковая модель, которая предсказывает следующее слово на основе предыдущих слов. Если мы попытаемся предсказать последнее слово «облака в небе», нам не нужен никакой другой контекст, поэтому следующим словом, очевидно, должно быть небо. В таком сценарии разрыв между релевантной информацией и предсказанной позицией слова очень мал, и RNN может научиться использовать предыдущую информацию.

不太长的相关信息和位置间隔

Не слишком длинные интервалы релевантной информации и местоположений

Но будут и более сложные сценарии. Предположим, мы пытаемся предсказать последнее слово фразы «Я вырос во Франции… Я бегло говорю по-французски». Текущая информация предполагает, что следующее слово может быть названием языка, но если нам нужно выяснить, что это за язык, нам нужен ранее упомянутый контекст Франции, который находится далеко от текущего местоположения. Это означает, что разрыв между релевантной информацией и текущим прогнозируемым положением должен стать достаточно большим.
К несчастью,По мере увеличения этого интервала RNN теряет способность учиться связывать информацию так далеко..

相当长的相关信息和位置间隔

Относительно длинные интервалы релевантной информации и местоположений

Теоретически RNN определенно могут справиться с такими долгосрочными зависимостями. Можно тщательно подобрать параметры для решения самых элементарных форм такого рода задач, но на практике RNN определенно не могут успешно изучить эти вещи.Bengio, et al. (1994)и др. глубоко исследуют эту проблему, и они находят некоторые довольно фундаментальные причины, которые делают обучение RNN очень трудным.
Однако, к счастью, у LSTM нет этой проблемы!

LSTM-сеть

Долгосрочные сети — широко известные какLSTM — это особый тип RNN, который изучает долгосрочные зависимости.. Как сказал @HAN Xiaoyang: LSTM и базовая RNN не сильно отличаются по структуре, но они используют разные функции для вычисления скрытого состояния. "Память" LSTM называется ячейками / ячейками. Вы можете напрямую думать о них как о черных ящиках. Вход этого черного ящика - это предыдущее состояние ht-1 и текущий вход xt. Эти «клетки» решают, какую предыдущую информацию и состояния сохранить/запомнить, а какую стереть. В практических приложениях установлено, что этот метод позволяет эффективно сохранять связанную информацию давно.
LSTM отHochreiter & Schmidhuber (1997)предложено и было недавноAlex GravesУлучшается и продвигается. Во многих задачах LSTM добились значительных успехов и широко используются.
LSTM избегают долгосрочных зависимостей благодаря преднамеренному дизайну. Помните, что долгосрочная информация — это поведение LSTM по умолчанию на практике, а не очень дорогая возможность!
Все RNN представляют собой цепочку повторяющихся модулей нейронной сети. В стандартной RNN этот повторяющийся модуль имеет очень простую структуру, например слой tanh.

标准 RNN 中的重复模块包含单一的层

Повторяющиеся модули в стандартных RNN содержат один слой

 

LSTM имеют одинаковую структуру, но повторяющиеся модули имеют другую структуру. Вместо одного слоя нейронной сети здесь четыре, взаимодействующих очень специфическим образом.

LSTM 中的重复模块包含四个交互的层

Повторяющийся модуль в LSTM состоит из четырех взаимодействующих слоев.

 

Не беспокойтесь о деталях здесь. Мы шаг за шагом разберем граф разбора LSTM. А пока давайте познакомимся с иконками различных элементов, используемых на схеме.

LSTM 中的图标

Иконки в LSTM

 

На приведенном выше рисунке каждая черная линия передает весь вектор от выхода одного узла к входу других узлов. Розовые кружки представляют точечные операции, такие как сумма векторов, а желтые матрицы — изученные слои нейронной сети. Линии, которые собираются вместе, представляют собой конкатенацию векторов, линии, которые разделяются, представляют контент, который копируется, а затем распределяется по разным местам.

Основная идея LSTM

Ключом к LSTM является состояние ячейки с горизонтальной линией, проходящей через верхнюю часть графика.
Состояния ячеек подобны конвейерным лентам. Работает непосредственно по всей цепочке, всего с несколькими небольшими линейными взаимодействиями. Было бы легко распространять информацию о нем, чтобы она оставалась неизменной.

Paste_Image.png

LSTM имеют возможность удалять или добавлять информацию о состоянии ячейки с помощью тщательно разработанных структур, называемых «воротами». Ворота — это способ выборочного пропуска информации. Они содержат слой сигмовидной нейронной сети и операцию поточечного умножения.

     Paste_Image.png

 

Сигмовидный слой выводит число от 0 до 1, описывающее, сколько каждой части может пройти. 0 означает «не пропускать любую сумму», а 1 означает «пропускать любую сумму»!

LSTM имеет три ворот для защиты и управления состоянием ячейки.

Понимание LSTM шаг за шагом

Первый шаг в нашем LSTM — решить, какую информацию мы будем отбрасывать из состояния ячейки. Это решение принимается череззабыть воротаЗаканчивать. Ворота будут читатьh_{t-1}иx_t, выводит значение от 0 до 1 для каждого состояния ячейкиC_{t-1}числа в . 1 означает «полностью зарезервировано», 0 означает «полностью отброшено».
Вернемся к примеру с языковой моделью для предсказания следующего слова на основе того, что мы видели. В этой задаче состояние ячейки может содержать текущийпредметпол и, следовательно, правильныйместоимениеможно выбрать. когда мы увидим новыепредмет, мы хотим забыть староепредмет.

 

决定丢弃信息

решение об отказе от информации


Следующим шагом является определение того, какая новая информация хранится в состоянии ячейки. Здесь две части. Во-первых, сигмовидный слой, называемый «слоем входных ворот», решает, какие значения мы будем обновлять. Затем слой tanh создает новый вектор значений-кандидатов,\tilde{C}_t, будут добавлены к состоянию. Далее мы будем использовать эти две части информации для создания обновления состояния.
В нашем примере с языковой моделью мы хотим добавить пол нового субъекта к состоянию ячейки, чтобы заменить старый подлежащий забвению.确定更新的信息

Подтвердить обновленную информацию

Настало время обновить старое состояние ячейки,C_{t-1}обновить доC_t. Предыдущие шаги уже определили, что будет сделано, теперь мы собираемся это сделать.
Ставим старое состояние сf_tУмножение, отбрасывание информации, которую мы уверены, нужно отбросить. Затем добавьтеi_t * \tilde{C}_t. Это новое значение-кандидат, которое изменяется в зависимости от того, насколько сильно мы решили обновить каждое состояние.
В случае с языковыми моделями именно здесь мы фактически удаляем информацию о роде старых местоимений и добавляем новые, исходя из целей, которые мы определили ранее.

更新细胞状态

обновить состояние ячейки

В конечном итоге нам нужно определить, какое значение выводить. Этот вывод будет основан на состоянии нашей ячейки, а также на отфильтрованной версии. Во-первых, мы запускаем сигмовидный слой, чтобы определить, какая часть состояния ячейки будет выведена. Затем мы обрабатываем состояние ячейки с помощью tanh (чтобы получить значение от -1 до 1) и умножаем его на выход сигмовидного вентиля, и в итоге мы выводим только часть вывода, которую мы определили.
В примере с языковой моделью, потому что он видитместоимение, может потребоваться вывод сглаголрелевантная информация. Например, можно было бы вывести, является ли местоимение единственным или отрицательным, так что, если это глагол, мы также знаем, какое склонение нужно сделать глаголу.

输出信息

выходная информация

Варианты LSTM

До сих пор мы вводили обычные LSTM. Но не все LSTM выглядят одинаково. Фактически, почти во всех статьях, включающих LSTM, используются крошечные варианты. Разница очень небольшая, но о ней стоит упомянуть.
Один из вариантов LSTM многообразия задается выражениемGers & Schmidhuber (2000)Предложено, добавлено «глазковое подключение». То есть мы делаем так, чтобы слой ворот также принимал входные данные о состоянии ячейки.

peephole 连接

глазок соединение

В приведенном выше примере мы добавили глазки на каждые ворота, но многие газеты добавляют некоторые глазки, а не все сразу.

Другой вариант — использование спаренных вентилей «забыть-и-ввести». Вместо того, чтобы решать, что забыть и какую новую информацию нужно добавить отдельно, решение принимается вместе. Мы просто забываем, когда собираемся вводить текущую позицию. Мы вводим новые значения только в те состояния, где забыли старую информацию.

 

coupled 忘记门和输入门

спаренные ворота забывания и входные ворота


Другой вариант с большими изменениями — Gated Recurrent Unit (GRU), созданныйCho, et al. (2014)предложить. Он объединяет шлюзы забывания и входные ворота в один шлюз обновления. Также смешано состояние ячейки и скрытое состояние, а также некоторые другие изменения. Окончательная модель проще стандартной модели LSTM и является очень популярным вариантом.

 

GRU

GRU


Вот лишь некоторые из популярных вариантов LSTM. Конечно, есть много других, таких какYao, et al. (2015)Предлагаемый RNN с ограничением по глубине. Есть также несколько совершенно разных точек зрения на долгосрочные зависимости, такие какKoutnik, et al. (2014)Предлагаемый Заводной РНН.
Спросить, какой вариант лучше? Разница действительно имеет значение?Greff, et al. (2015)Дается сравнение популярных вариантов и делается вывод, что они в основном одинаковы.Jozefowicz, et al. (2015)Мы протестировали более 10 000 архитектур RNN и обнаружили, что некоторые архитектуры также достигли лучших результатов, чем LSTM, в определенных задачах.Jozefowicz等人论文截图

Скриншот статьи Jozefowicz et al.

в заключении

В начале я упомянул получение важных результатов с помощью RNN. По сути, все это можно сделать с помощью LSTM. Он показывает лучшую производительность для большинства задач!
Поскольку LSTM обычно представляются серией уравнений, это делает LSTM немного запутанным. Однако пошаговое объяснение в этой статье проясняет большую часть этой путаницы.
LSTM — это наш большой успех с RNN. Естественно, мы также считаем: где будут более существенные прорывы? Среди исследователей преобладает мнение: "Да! Следующий шаг уже есть - т.е.внимание! Идея состоит в том, чтобы каждый шаг RNN выбирал информацию из большего набора информации.Например, если вы используете RNN для создания описания изображения, вы можете выбрать часть изображения и использовать эту часть информации для генерации выходного слова.Xu, et al. (2015)Уже сделано - если хотите копнуть глубжевниманиеМожет быть, это интересная отправная точка! Есть также довольно интересные исследования по использованию внимания, и, похоже, есть еще что исследовать...
Внимание также не является единственной разработкой в ​​области исследования RNN. Например,Kalchbrenner, et al. (2015)Предлагаемый Grid LSTM также выглядит многообещающе. RNN, использующие генеративные модели, такие какGregor, et al. (2015) Chung, et al. (2015)иBayer & Osendorfer (2015)Предлагаемая модель не менее интересна. В последние несколько лет исследования RNN были очень актуальными, и результаты исследований, конечно же, будут более обильными!
Опять же, анализ этого вопроса в основном взят из перевода Not_GOD.Сообщение в блоге Кристофера Олаха«Понимание сетей LSTM», спасибо.

 

98 Различия между RNN, LSTM и GRU. Модель глубокого обучения DL Сложно
@ Я люблю большие пузыри, источник анализа этого вопроса:blog.CSDN.net/Я люблю пушки из-за страха…

  • RNN вводит понятие цикла, но в реальном процессе возникает проблема исчезновения исходной информации со временем, то есть проблема долговременных зависимостей (Long-Term Dependencies), поэтому вводится LSTM.
  • LSTM: поскольку LSTM имеет вход и выход, а текущая информация о ячейке накладывается после управления входным затвором, RNN - это умножение, поэтому LSTM может предотвратить исчезновение градиента или ключом к изменению взрыва. Следующее изображение очень подходит на память:
  • GRU — это вариант LSTM, который объединяет шлюз забывания и вход в один шлюз обновления. 

Как вы оптимизируете работу, когда производительность машинного обучения становится узким местом? Машинное обучение ML-приложений сложно
Вы можете попробовать эти четыре аспекта: на основе данных, с помощью алгоритмов, с помощью алгоритмов для настройки параметров и с помощью слияния моделей. Конечно, насколько подробно вы сможете рассказать, будет зависеть от вашего опыта. Вот справочный список:Памятка по повышению производительности машинного обучения.

 

99 Как улучшить производительность глубокого обучения? Применение глубокого обучения DL сложно
blog.CSDN.net/Korean_Противовоспалительные…

Какие проекты по машинному обучению вы выполняли? Например, как построить рекомендательную систему с нуля. Машинное обучение ML-приложений сложно
Вот открытый класс рекомендательной системы»Рекомендуемая система", и еще один рекомендуемый курс:Класс проекта машинного обучения [10 чистых объяснений проекта, 100% чистый бой].

 

100 Какие наборы данных не подходят для глубокого обучения? Применение глубокого обучения DL сложно
@abstractmonkey, источник:Ууху. Call.com/question/41…

  1. Когда набор данных слишком мал, а выборки данных недостаточно, глубокое обучение не имеет очевидных преимуществ перед другими алгоритмами машинного обучения.
  2. Набор данных не имеет характеристик локальной корреляции.В настоящее время области, в которых глубокое обучение работает лучше, в основном относятся к области обработки изображений/речи/естественного языка.Общим в этих областях является локальная корреляция. Пиксели в изображении образуют объекты, фонемы в речевом сигнале объединяются в слова, а слова в текстовых данных объединяются в предложения, а при нарушении сочетания этих элементов признака меняется и смысл представления. Наборы данных без таких локальных корреляций не подходят для обработки алгоритмами глубокого обучения. Например: для прогнозирования состояния здоровья человека соответствующие параметры будут иметь различные элементы, такие как возраст, род занятий, доход, семейное положение и т. д., нарушение этих элементов не повлияет на соответствующие результаты.

Как обобщенные линейные модели используются в глубоком обучении? модель глубокого обучения DL
@Сюй Хань, источник:Ууху. Call.com/question/41…
A Statistical View of Deep Learning (I): Recursive GLMs
Со статистической точки зрения глубокое обучение можно рассматривать как рекурсивную обобщенную линейную модель.
По сравнению с классической линейной моделью (y=wx+b) ядром обобщенной линейной модели является введение функции связи g(.), и форма принимает вид: y=g−1(wx+b).
Рекурсивная обобщенная линейная модель в глубоком обучении, функция активации нейрона является функцией связи обобщенной линейной модели. Логистическая функция логистической регрессии (разновидность обобщенной линейной модели) — это сигмовидная функция в функции активации нейрона.Многие подобные методы имеют разные названия в статистике и нейронных сетях, что легко может вызвать у новичков (здесь в основном относится ко мне) путаницу . На рисунке ниже представлена ​​сравнительная таблица

 

101 Какие теоретические знания я должен знать, чтобы подготовиться к собеседованию по машинному обучению? модель машинного обучения машинного обучения
@Muwen, источник:Ууху. Call.com/question/62…

 
Глядя на это, ответы на эти вопросы в основном находятся в этом интервью по машинному обучению BAT из 1000 вопросов.

 

102 В чем разница между нормализацией и нормализацией? Основы машинного обучения ML Easy
@AI Huafeng, источник анализа этого вопроса:Ууху. Call.com/question/20…
Метод нормализации:
1. Преобразование числа в десятичное число между (0, 1) в основном предлагается для удобства обработки данных.Удобнее и быстрее отображать данные в диапазоне от 0 до 1 для обработки.
2. Преобразование размерного выражения в безразмерное выражение Нормализация — это способ упростить вычисления, то есть размерное выражение преобразуется в безразмерное выражение и становится скаляром.
Метод стандартизации: нормализация данных заключается в масштабировании данных таким образом, чтобы они попадали в небольшой определенный интервал. Поскольку каждая единица измерения индекса системы кредитных индексов отличается, чтобы иметь возможность участвовать в оценке и расчете индекса, необходимо стандартизировать индекс и сопоставить его значение с определенным диапазоном значений посредством преобразования функции.

Как случайный лес обрабатывает пропущенные значения? модель машинного обучения машинного обучения
Метод 1 (na.roughfix) прост и груб.Для обучающего набора, если данные одного класса отсутствуют, используйте режим, чтобы восполнить это, а если непрерывная переменная отсутствует, используйте медиану, чтобы восполнить для этого.
Метод 2 (rfImpute) Этот метод имеет большой объем вычислений, чем он лучше, чем метод 1? Плохое суждение. Сначала используйте na.roughfix для заполнения пропущенных значений, затем постройте лес и рассчитайте матрицу близости, а затем посмотрите на пропущенные значения.Если это категориальная переменная, проголосуйте с весом в непосредственной близости от наблюдаемого экземпляра без отсутствует. Если это непрерывная переменная, отсутствующее значение заполняется средневзвешенным значением матрицы близости. Затем повторите 4-6 раз, идея дополнения пропущенных значений чем-то похожа на KNN12.

 

103 Как случайный лес оценивает важность признаков? модель машинного обучения машинного обучения
Есть два способа измерить важность переменных: уменьшить индекс Джини и уменьшить точность:
1) Уменьшить GINI: для задач регрессии argmax (VarVarLeftVarRight) напрямую используется в качестве критерия, то есть дисперсия Var текущего обучающего набора узлов минус дисперсия VarLeft левого узла и дисперсия VarRight правого узла.
2) Уменьшение точности: для дерева Tb(x) мы можем использовать выборку OOB, чтобы получить ошибку теста, равную 1; затем случайным образом изменить j-й столбец выборки OOB: оставить другие столбцы неизменными и выполнить случайное увеличение и уменьшение. перестановки в j-м столбце, получите ошибку 2. Пока что мы можем использовать ошибку 1 — ошибку 2, чтобы охарактеризовать важность переменной j. Основная идея состоит в том, что если переменная j достаточно важна, то ее изменение сильно увеличит ошибку теста; наоборот, если ее изменение не увеличит ошибку теста, значит, переменная не так важна.

 

104 Оптимизировать Kmeans? модель машинного обучения машинного обучения
Используйте kd-дерево или шаровое дерево
Собираем все экземпляры наблюдений в kd-дерево, если раньше каждый центр кластера должен был поочередно вычислять расстояние от каждой точки наблюдения, то теперь этим кластерным центрам нужно только вычислить близлежащую локальную область по kd-дереву.

 

105 K означает выбор начальной центральной точки кластера. модель машинного обучения машинного обучения
Основная идея алгоритма k-means++ для выбора начальных семян заключается в том, что расстояние между центрами начальных кластеров должно быть как можно больше.
1. Случайным образом выберите точку из набора точек входных данных в качестве первого центра кластера.
2. Для каждой точки x в наборе данных рассчитайте расстояние D(x) от ближайшего центра кластера (относительно выбранного центра кластера).
3. Выберите новую точку данных в качестве нового центра кластера.Принцип выбора таков: точка с большим D(x) имеет более высокую вероятность быть выбранной в качестве центра кластера.
4. Повторяйте 2 и 3, пока не будет выбрано k центров кластеров.
5. Используйте k начальных кластерных центров для запуска стандартного алгоритма k-средних.

 

106 Объясните концепцию двойственности. Основы машинного обучения ML Easy
Задача оптимизации может быть исследована с двух точек зрения, одна является основной проблемой, другая — двойственной проблемой, которая является двойственной проблемой.В общем, двойственная задача дает нижнюю границу оптимального значения основной задачи. В случае сильной двойственности двойственная задача может получить оптимальную нижнюю границу основной задачи, а двойственная задача — задача выпуклой оптимизации, которую можно решить лучше В SVM основная задача преобразуется в двойственную задачу для решения , чтобы еще больше представить идею функции ядра.

 

107 Как выполнить выбор функции? Основы машинного обучения ML
Выбор признаков — важный процесс предварительной обработки данных. Есть две основные причины: во-первых, уменьшить количество признаков и размерность, чтобы сделать модель более обобщаемой и уменьшить переоснащение, а во-вторых, улучшить взаимосвязь между признаками и значениями признаков.
Общие методы выбора признаков:
1. Удалите функции с небольшой дисперсией
2. Регуляризация. 1 Регуляризация может генерировать разреженные модели. Производительность регуляризации L2 более стабильна, поскольку полезные функции, как правило, соответствуют ненулевым коэффициентам.
3. Случайный лес, для задач классификации обычно используется примесь Джини или прирост информации, а для задач регрессии обычно используется дисперсия или подгонка методом наименьших квадратов. Как правило, утомительные шаги, такие как разработка функций и настройка параметров, не требуются. Его две основные проблемы: 1 – важные функции могут иметь низкие оценки (проблема связанных функций) и 2 – этот метод более благоприятен для функций с большим количеством категорий переменных функций (проблема смещения).
4. Выбор устойчивости. Это относительно новый метод, основанный на сочетании алгоритма подвыборки и отбора.Алгоритмом отбора может быть регрессия, SVM или другие подобные методы. Его основная идея состоит в том, чтобы запускать алгоритм выбора признаков на различных подмножествах данных и подмножествах признаков, непрерывно повторять его и, наконец, обобщать результаты выбора признаков, например частоту, когда признак считается важным признаком (выбирается как важный признак). , разделенное на количество раз, когда его подмножество было проверено). В идеале важные функции должны быть оценены близко к 100%. Немного более слабые функции будут иметь ненулевые оценки, а наименее полезные функции будут иметь оценки, близкие к 0.

 

108 Предварительная обработка данных. Основы машинного обучения ML Easy
1. Пропущенные значения, заполнить пропущенные значения fillna:
I. Дискретный: нет,
2. Непрерывное: среднее.
iii. Если пропущено слишком много значений, удалите столбец напрямую.
2. Непрерывное значение: дискретизация. Некоторые модели (например, деревья решений) требуют дискретных значений.
3. Бинаризация количественных признаков. Суть заключается в установке порога, значению больше порога присваивается 1, а значению меньше или равно порогу присваивается 0. как манипуляции с изображениями
4. Коэффициент корреляции Пирсона, удалить сильно коррелированные столбцы

 

109 Кратко расскажите об инженерии признаков. Основы машинного обучения ML

Источник изображения выше:Woohoo.Расстояние также читайте.com/video/play/…

 

110 Какие процессы обработки данных и разработки признаков вы знаете? машинное обучение ML-приложения

Посмотрите этот курс, чтобы узнать большеИнженер по машинному обучению, выпуск 8 [шесть этапов, подробно]» Урок 7 Разработка признаков.

 

111 Пожалуйста, сравните три функции активации Sigmoid, Tanh и ReLu. Основы глубокого обучения DL

Сигмовидная функция, также известная как логистическая функция, используется в логистической регрессии. Целью логистической регрессии является изучение модели классификации 0/1 на основе признаков, и эта модель использует линейную комбинацию признаков в качестве независимой переменной, поскольку диапазон значений независимой переменной находится в пределах от отрицательной бесконечности до положительной бесконечности. Поэтому независимая переменная отображается в (0,1) с помощью логистической функции, а отображаемое значение считается вероятностью принадлежности к y=1.

Гипотетическая функция

Где x — n-мерный вектор признаков, а функция g — логистическая функция.

иИзображение

 

 

 

 

 

Как видите, бесконечность отображается на (0,1).

А функция гипотезы — это вероятность того, что признак принадлежит y=1.

 

 

Поэтому, когда мы хотим определить, к какому классу относится новая функция, нам нужно толькоможет, еслиБольше 0,5 — это класс y=1, в противном случае он принадлежит классу y=0.


Подробнее см.:Tickets.WeChat.QQ.com/Yes/7DG IX cn BS…
Таким образом, сигмоидальная функция отображает выходные данные в диапазоне 0-1, что можно рассматривать как вероятность Таким образом, сигмоидальная функция является функцией активации модели логистической регрессии.
Но сигмовидная функция имеет следующие недостатки:
Прямой расчет включает показатель степени, а производная обратного распространения также включает вычисление показателя степени и операцию деления, поэтому вычислительная сложность очень высока.
Среднее значение вывода не равно нулю. Это делает сеть склонной к исчезновению или взрыву градиента. Это также проблема, которую необходимо решить путем пакетной нормализации.
Если сигмовидная функция равна f(x), то f'(x)=f(x)(1-f(x)), поскольку выход f(x) находится между 0-1, тогда f'(x) всегда больше 0. Это приводит к тому, что знак всех градиентов зависит от градиента функции потерь. Это легко может привести к нестабильной тренировке, а параметры будут как благополучными, так и испорченными.
Точно так же f'(x)=f(x)(1-f(x)), поскольку выход f(x) находится в диапазоне 0-1, тогда выход f'(x) также находится в диапазоне 0-1. , Когда слой глубокий, производная нижнего слоя является произведением множества чисел от 0 до 1, что приводит к проблеме исчезновения градиента.
Для tanh это похоже на сигмовидную, но выходное значение находится в диапазоне от -1 до 1, а среднее значение равно 0, что является улучшением по сравнению с сигмовидной. Но поскольку результат находится в диапазоне от -1 до 1, его нельзя рассматривать как вероятность.

Для ReLU по сравнению с сигмоидой и тангом она имеет следующие преимущества:
При вычислении объема отсутствуют операции возведения в степень и деления.
не будет насыщаться, потому что производная всегда равна 1 в случае x>0
Скорость сходимости высокая.На практике известно, что скорость сходимости в 6 раз больше, чем у сигмоиды.
Relu сделает вывод некоторых нейронов равным 0, что вызовет разреженность сети, уменьшит взаимозависимость параметров и облегчит проблему переобучения.
Но есть у Релу и недостатки, недостаток в том, что,
Если есть особенно большая производная через нейронную единицу, которая делает вход меньше 0, это приведет к тому, что единица никогда не получит обновлений параметров, потому что производная также равна 0, когда вход меньше 0. Это формирует много мертвых клеток. .

 

112 Каковы недостатки или недостатки трех функций активации Sigmoid, Tanh и ReLu, и есть ли какие-либо улучшенные функции активации? Основы глубокого обучения DL
@张玉石: недостатки сигмоида, Tanh и ReLU были объяснены в вопросе 121. Чтобы решить ситуацию с мертвыми ячейками ReLU, был изобретен Leaky Relu, то есть когда вход меньше 0, выход не устанавливается равным 0, а умножается на больший малый коэффициент, гарантируя тем самым существование производных. Для этой же цели существует и ЭЛУ, функциональная схема которого следующая.

Другой функцией активации является Maxout, которая использует два набора параметров w,b и выводит большее значение. По сути, Maxout можно рассматривать как обобщенную версию Relu, потому что если набор w и b равен 0, то это обычный ReLU. Maxout может преодолеть недостатки Relu, но количество параметров удваивается.
@I Love Big Bubbles, источник:blog.CSDN.net/Я люблю пушки из-за страха…

 

113 Как понять дерево решений, xgboost может обрабатывать пропущенные значения? Некоторые модели (svm) более чувствительны к пропущенным значениям. модель машинного обучения машинного обучения
Ууху. Call.com/question/58…

114 Зачем вводить нелинейную функцию возбуждения? Основы глубокого обучения DL
@张玉石: Во-первых, для нейронной сети каждый слой сети эквивалентен f(wx+b)=f(w'x), а для линейной функции фактически эквивалентен f(x)=x , то в линейной функции активации каждый слой эквивалентен умножению x на матрицу, а несколько слоев многократно умножают входные данные на матрицу. Согласно правилу умножения матриц, несколько матриц перемножаются, чтобы получить большую матрицу. Следовательно, при линейной функции возбуждения многослойная сеть эквивалентна однослойной сети. Например, двухслойная сеть f(W1*f(W2x))=W1W2x=Wx.
Во-вторых, нелинейные преобразования — одна из причин эффективности глубокого обучения. Причина в том, что нелинейность эквивалентна преобразованию пространства, а после завершения преобразования эквивалентна упрощению проблемного пространства, и проблема, которая изначально была неразрешима по линейности, теперь решаема.
Следующая картинка может очень наглядно объяснить эту проблему Левая картинка не может быть разделена линией. После ряда преобразований она становится линейно разрешимой задачей.
@Begin Again, источник:Ууху. Call.com/question/29…
Если функция возбуждения не используется (фактически функция возбуждения есть f(x) = x), то в этом случае выход каждого слоя является линейной функцией входа верхнего слоя, что легко проверить, независимо от того, сколько слоев имеет ваша нейронная сеть, выходные данные Все они представляют собой линейные комбинации входных данных, которые эквивалентны отсутствию скрытого слоя Эта ситуация является самым примитивным персептроном.
По вышеуказанным причинам мы решили ввести нелинейную функцию в качестве функции возбуждения, чтобы глубокая нейронная сеть имела смысл (она больше не является линейной комбинацией входных данных, которая может аппроксимировать любую функцию). Самой ранней идеей была сигмовидная функция или функция tanh, выходные данные ограничены и могут легко служить входными данными для следующего слоя (и биологической интерпретации некоторых людей).

 

115 Почему ReLu лучше, чем tanh и сигмовидная функция в искусственной нейронной сети? Основы глубокого обучения DL
Сначала посмотрите на функциональные диаграммы сигмоиды, танга и RelU:

@Begin Again, источник:Ууху. Call.com/question/29…

 

 

Во-первых, при использовании таких функций, как сигмоид, при вычислении функции активации (экспоненциальная операция) объем вычислений велик.При обратном распространении для нахождения градиента ошибки вывод включает в себя деление и экспоненциальные операции, а объем вычислений относительно велик, и используется функция активации Relu.Весь процесс экономит много вычислений.

 

Во-вторых, для глубоких сетей при обратном распространении сигмоиды градиент легко исчезает (когда сигмоида близка к области насыщения, преобразование происходит слишком медленно и производная стремится к 0, что приведет к потере информации), что Явление, называемое насыщением, препятствует завершению обучения глубоких сетей. Однако у ReLU не будет тенденции к насыщению, и особо малых градиентов не будет.
В-третьих, Relu сделает вывод некоторых нейронов равным 0, что вызывает разреженность сети, и уменьшит взаимозависимость параметров, что смягчит возникновение проблем переобучения (и биологическое объяснение некоторых людей — балабала). Конечно, есть также некоторые улучшения в relu, такие как prelu, random relu и т. д. Будут некоторые улучшения в скорости обучения или точности на разных наборах данных.Подробности можно найти в соответствующем документе.

 

 

Еще одно предложение, текущая общепринятая практика будет выполнять еще одну пакетную нормализацию, чтобы гарантировать, что вход каждого уровня сети имеет одинаковое распределение [1]. В последней статье [2] после добавления обходного соединения они обнаружили, что изменение положения пакетной нормализации будет иметь лучший эффект. Кому интересно, может посмотреть.
[1] Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[J]. arXiv preprint arXiv:1502.03167, 2015.
[2] He, Kaiming, et al. "Identity Mappings in Deep Residual Networks." arXiv preprint arXiv:1603.05027 (2016). 

 

116 Почему в модели LSTM есть как сигмовидная, так и тангенциальная функции активации? Модель глубокого обучения DL Сложно
Почему бы не выбрать единую сигмовидную или танх, а смешать их? Какова цель этого?

Источник этого анализа:Ууху. Call.com/question/46…
@beanfrog: у них разные цели
сигмоид используется на различных вентилях для генерации значений от 0 до 1. Как правило, только сигмоид является самым прямым.
tanh используется для состояния и вывода, т. е. для обработки данных, а также для других функций активации.
@hhhh: См. Также раздел 4.1 Критического обзора рекуррентных нейронных сетей для последовательного обучения, в котором говорится, что оба танга могут быть заменены другими.

 

117 Насколько хорош классификатор? Основы машинного обучения ML
@I Love Big Bubbles, источник:blog.CSDN.net/Я люблю пушки из-за страха…
Прежде всего, мы должны знать четыре вида TP, FN (истина оценивается как ложь), FP (ложь оценивается как истина) и TN (вы можете нарисовать таблицу). 
Несколько часто используемых индикаторов:

  • Точность Точность = TP/(TP+FP) = TP/~P (~p — количество верных прогнозов)
  • Отзыв отзыв = TP/(TP+FN) = TP/P
  • Значение F1: 2/F1 = 1/отзыв + 1/точность
  • Кривая ROC: пространство ROC представляет собой плоскость, представленную двумерной системой координат с частотой ложных срабатываний (FPR, частота ложных срабатываний) в качестве оси X и частотой истинных положительных результатов (TPR, доля истинных положительных результатов) в качестве оси Y. При этом истинно положительный показатель TPR = TP / P = отзыв, ложноположительный показатель FPR = FP / N
    Для получения более подробной информации, пожалуйста, нажмите:Четыре потребности Zhang.GitHub.IO/2017/04/04/…

 

118 Каков физический смысл auc в машинном обучении и статистике? Основы машинного обучения ML
Ууху. Call.com/question/39…

 

119 Обратите внимание на коэффициент усиления, чем больше альфа и гамма, тем меньше коэффициент усиления? Основы машинного обучения ML
@AntZ: Критерием xgboost для поиска точек разделения является максимизация выигрыша.Учитывая, что традиционный жадный метод перечисления всех возможных точек разделения для каждой функции слишком неэффективен, xgboost реализует приблизительный алгоритм. Общая идея состоит в том, чтобы перечислить несколько кандидатов, которые могут стать точками сегментации по методу процентилей, а затем вычислить Gain из кандидатов, чтобы найти лучшую точку сегментации по максимальному значению. Его расчетная формула разделена на четыре элемента, которые можно настроить с помощью параметра элемента регуляризации (lamda — это коэффициент суммы квадратов весов листьев, а gama — количество листьев):



Первый элемент — это оценка веса левого дочернего элемента гипотетического разделения, второй элемент — правый дочерний элемент, третий элемент — это общий балл без разделения, а последний элемент — потеря сложности при введении узла.
Из формулы видно, что чем больше гама, тем меньше выигрыш, тем больше лямбда, причем выигрыш может быть как малым, так и большим.
Исходный вопрос - это альфа вместо лямбда, которая не упоминается в статье здесь, и реализация xgboost имеет этот параметр Вышеизложенный ответ я понимаю из бумаги, а следующее - поиск:
Знайте. Baidu.com/question/21…
lambda [по умолчанию 1] Член регуляризации L2 для весов. (Аналогично регрессии Риджа). Этот параметр используется для управления частью регуляризации XGBoost. Хотя большинство специалистов по данным редко используют этот параметр, его все же можно использовать для уменьшения переобучения. 11. Термин регуляризации L1 для веса альфа [по умолчанию 1]. (Аналогично регрессии Лассо). Его можно применять к очень большим размерам, что делает алгоритм быстрее.
gamma [по умолчанию 0] Когда узел разделен, узел будет разделен только в том случае, если значение функции потерь упадет после разделения. Гамма определяет минимальное снижение функции потерь, необходимое для разделения узла. Чем больше значение этого параметра, тем более консервативным будет алгоритм.

 

120 Что вызывает проблему исчезающего градиента? Основы глубокого обучения DL
@Сюй Хань, источник:Ууху. Call.com/question/41…

  • Да, вы должны понимать фон - Андрей Карпаты
  • How does the ReLu solve the vanishing gradient problem?
  • При обучении нейронной сети, изменяя вес нейронов, выходное значение сети как можно ближе к метке, чтобы уменьшить значение ошибки. Алгоритм BP обычно используется для обучения. Основная идея состоит в том, чтобы вычислить значение функции потерь между выходом и меткой, а затем вычислить. Он повторяет веса относительно градиента каждого нейрона.
  • Исчезновение градиента приведет к замедлению обновления веса и увеличению сложности обучения модели. Одна из причин исчезновения градиента заключается в том, что многие функции активации сжимают выходное значение в небольшой интервал, а градиент равен 0 в большей области определения на обоих концах функции активации, что приводит к остановке обучения.
    @张玉石: Короче говоря, производная сигмовидной функции f(x) равна f(x)*(1-f(x)), потому что выход f(x) находится в диапазоне 0-1, поэтому с глубиной увеличивается, производная, переданная сверху, каждый раз умножается на два числа, меньших 1, и вскоре становится очень маленькой.

 

121 Что такое исчезающий градиент и взрывной градиент? Основы глубокого обучения DL
@HAN Xiaoyang, непрерывное умножение, вызванное цепным правилом обратного распространения, если число мало и стремится к 0, результат будет очень маленьким (градиент исчезнет); если число относительно велико, результат может быть очень большим (градиент взрывается).
@Bike, источник следующего абзаца:zhuanlan.zhihu.com/p/25631496
Модели нейронных сетей с большим количеством слоев также имеют некоторые проблемы во время обучения, в том числе проблему исчезновения градиента и проблему взрыва градиента. Проблема исчезающего градиента и проблема взрывающегося градиента обычно становятся все более и более очевидными по мере увеличения количества слоев сети.

Например, для нейронной сети с 3 скрытыми слоями, показанной на рисунке ниже, когда возникает проблема исчезновения градиента, обновление веса скрытого слоя 3 и т. д. рядом с выходным слоем является относительно нормальным, но предыдущее обновление веса скрытого слоя слой 1 становится очень медленным, в результате чего веса предыдущих слоев почти не изменяются и все еще близки к инициализированным весам, что приводит к тому, что скрытый слой 1 эквивалентен просто слою отображения, который выполняет одинаковое отображение для всех входных данных. , который является этим глубоким слоем.Обучение сети эквивалентно обучению мелкой сети только с несколькими последними слоями.

 

И почему возникает эта проблема? В качестве примера возьмем обратное распространение на следующем рисунке (при условии, что в каждом слое есть только один нейрон и для каждого слояy_i=\sigma\left(z_i\right)=\sigma\left(w_ix_i+b_i\right)\sigmaэто сигмовидная функция)

 

можно вывести

 

\begin{align}&\frac{\partial C}{\partial b_1}=\frac{\partial C}{\partial y_4}\frac{\partial y_4}{\partial z_4}\frac{\partial z_4}{\partial x_4}\frac{\partial x_4}{\partial z_3}\frac{\partial z_3}{\partial x_3}\frac{\partial x_3}{\partial z_2}\frac{\partial z_2}{\partial x_2}\frac{\partial x_2}{\partial z_1}\frac{\partial z_1}{\partial b_1}\&=\frac{\partial C}{\partial y_4}\sigma'\left(z_4\right)w_4\sigma'\left(z_3\right)w_3\sigma'\left(z_2\right)w_2\sigma'\left(z_1\right)\end{align}

И производная сигмоиды\sigma'\left(x\right)Как показано ниже

 

 

 

 

 

видимый,\sigma'\left(x\right)Максимальное значение\frac{1}{4}, и наши инициализированные веса сети|w|обычно меньше 1, поэтому|\sigma'\left(z\right)w|\leq\frac{1}{4}, поэтому для приведенного выше вывода цепочки чем больше слоев, тем больше результат вывода\frac{\partial C}{\partial b_1}Чем меньше значение, тем исчезновение градиента происходит.

Таким образом, причина проблемы градиентного взрыва очевидна, т. е.|\sigma'\left(z\right)w|>1, это,wотносительно крупный кейс. Но для использования сигмовидной функции активации это не так. так как\sigma'\left(z\right)Размер тоже такой жеwСвязанный(z=wx+b), если только входное значение слояxв относительно небольшом диапазоне.

На самом деле проблемы взрыва градиента и исчезновения градиента вызваны тем, что сеть слишком глубокая, а обновление веса сети нестабильно, что в основном связано с мультипликативным эффектом при обратном распространении градиента. Для более общей проблемы исчезающего градиента рассмотрите возможность замены сигмовидной функции активации на функцию активации ReLU. Кроме того, структурный дизайн LSTM также может улучшить проблему исчезновения градиента в RNN.

 

122 Как решить проблему исчезновения градиента и расширения градиента? Основы глубокого обучения DL
(1) Градиент исчезает:
Согласно цепному правилу, если частная производная выхода каждого слоя нейронов, умноженная на вес выхода предыдущего слоя, меньше 1, то даже если результат равен 0,99, после достаточно многослойного распространения смещение ошибки к входному слою будет стремиться к 0
Функцию активации ReLU можно использовать для эффективного решения проблемы исчезновения градиента, а также пакетную нормализацию для решения этой проблемы. Почему пакетная нормализация хорошо работает в глубоком обучении? Смотрите также:Ууху. Call.com/question/38…
(2) Градиентное расширение
Согласно цепному правилу, если частная производная каждого слоя нейронов к выходу предыдущего слоя, умноженная на вес, больше 1, после достаточно многослойного распространения частная производная ошибки к входному слою будет стремиться до бесконечности.
Это можно решить с помощью функций активации или с помощью пакетной нормализации.

123 Вывод обратного распространения ****Обратное распространение. Основы глубокого обучения DL Сложно
@I Love Big Bubbles, источник:blog.CSDN.net/Я люблю пушки из-за страха…

Во-первых, чтобы понять основной принцип обратного распространения, который является цепным правилом вывода.

Отражается в нейросети:

Ниже приводится вывод формулы из функции потерь.
Обратное распространение — это метод, используемый при решении функции потерь L для получения параметра w. Цель состоит в том, чтобы вывести параметры слой за слоем с помощью цепного правила. Здесь подчеркивается, что параметры должны быть инициализированы случайным образом, а не установлены все в 0, иначе значения всех скрытых слоев будут связаны со входом, что называется симметричным отказом. 
Общий процесс таков:

  • Во-первых, прямая проводимость вычисляет значение активации и выходное значение всех узлов,
    激活值
  • Рассчитайте общую функцию потерь:
    损失函数
  • Затем вычислите невязку для каждого узла L-го слоя (здесь, потому что UFLDL относится к невязке, которая по сути является производной общей функции потерь по значению активации Z каждого слоя), поэтому, чтобы получить производную от W, просто умножить Производная верхней функции активации по W может быть
    cancha 

 

124 СВД и ППШ. модель машинного обучения машинного обучения

Идея PCA состоит в том, чтобы максимизировать дисперсию данных после проецирования и найти такой проекционный вектор, который удовлетворяет условию наибольшей дисперсии. После операции удаления среднего можно использовать разложение SVD для решения такого проекционного вектора и выбрать направление с наибольшим собственным значением.
Суть PCA заключается в оценке правдоподобия распределения с матрицей в качестве параметра, а SVD является эффективным средством матричной аппроксимации.
Видеть:Ууху. Call.com/question/40…

 

125 Проблема дисбаланса данных. Основы машинного обучения ML Easy

В основном это связано с несбалансированным распределением данных. Обходной путь выглядит следующим образом:

  • Выборка, выборка шума для небольших выборок, субдискретизация для больших выборок
  • Генерация данных с использованием известных образцов для создания новых образцов
  • Сделайте специальное взвешивание, как в Adaboost или SVM
  • Используйте алгоритмы, нечувствительные к несбалансированным наборам данных
  • Изменение критериев оценки: использование AUC/ROC для оценки
  • Использование таких методов, как бэгинг/бустинг/ансамбль
  • Учитывайте предварительное распределение данных при разработке модели.

 

126 Кратко опишите историю развития нейронных сетей. Основы глубокого обучения DL
В 1949 году Хебб предложил нейропсихологическую парадигму обучения - теорию обучения Хебба.
В 1952 году Артур Сэмюэл из IBM написал шахматную программу.
В 1957 году алгоритм персептрона Розенблатта был второй моделью машинного обучения, основанной на нейронауках.
Три года спустя Видроу вошел в историю машинного обучения за изобретение правила обучения Delta, которое сразу же было применено к обучению персептрона.
Тепло Персептрона было погашено в 1969 году тазом Минского с холодной водой. Он предложил знаменитую задачу XOR, демонстрирующую бессилие персептрона для линейно неразделимых данных, подобных задаче XOR.
Хотя идея BP была предложена Линнайнмаа в 1970-х годах в «перевернутом режиме автоматического дифференцирования», она не применялась Вербосом к многослойному персептрону (MLP) до 1981 года и нового процветания NN.
Работа Hochreiter в 1991 г. и Hochreiter в 2001 г. показали, что при использовании алгоритма BP потеря градиента происходит после насыщения единицы NN. Снова остановился.
Время наконец подошло к настоящему моменту, так как растут вычислительные ресурсы и растет объем данных. Появилась новая область НС — глубокое обучение.
Если кратко, модель МП+зн-->однослойный персептрон (только линейный)+згн- корыто Минского->многослойный персептрон+БП+сигмоид-- (корыто)->глубокое обучение+предобучение+ReLU/сигмоид

 

127 Распространенные методы глубокого обучения. Основы глубокого обучения DL
@SmallisBig, источник:blog.CSDN.net/U010496169/…
Полносвязная DNN (соседние слои соединены друг с другом, внутри слоя нет соединений):
AutoEncoder (максимально восстановить ввод), Sparse Coding (добавить спецификацию L1 в AE), RBM (решить проблемы вероятности) -> детектор признаков -> жадное обучение суперпозиции стека
РБМ ---> ДБН
Решите проблему полного подключения полностью подключенного DNN ---> CNN
Решить проблему неспособности полносвязной DNN моделировать изменения во временном ряду --> RNN -- решить проблему исчезновения градиента на временной оси --> LSTM
@ZHANG Yushi: DNN, CNN и RNN в основном используются в области приложений.
DNN — это традиционная полносвязная сеть, которую можно использовать для оценки кликабельности рекламы, рекомендаций и т. д. Он использует метод встраивания для кодирования многих дискретных функций в нейронную сеть, что может значительно улучшить результаты.
CNN в основном используется в области компьютерного зрения, Появление CNN в основном решает проблему, заключающуюся в том, что DNN имеет слишком много параметров в поле изображения. В то же время ряд разработок, таких как уникальная свертка CNN, объединение, нормализация пакетов, Inception, ResNet и DeepNet, также значительно продвинулись во многих областях, таких как классификация, обнаружение объектов, распознавание лиц и сегментация изображений. В то же время CNN не только применяется к изображениям, но и добился прогресса в обработке естественного языка.Теперь существуют языковые модели, основанные на CNN, которые могут достигать лучших результатов, чем LSTM. В последнем AlphaZero ResNet в CNN также является одним из двух основных алгоритмов.
GAN — это метод обучения, применяемый к генеративным моделям, и теперь в CV есть много приложений, таких как перевод изображений, суперочистка изображений, рисование изображений и так далее.
RNN в основном используется в области обработки естественного языка для решения проблем последовательностей. Обычные RNN страдают от взрывающихся и исчезающих градиентов. Итак, теперь в области НЛП обычно используется модель LSTM. В недавней области машинного перевода внимание также было представлено как новый метод.
В дополнение к DNN, RNN и CNN, AutoEncoder, Sparse Coding, Deep Belief Network (DBM), Restricted Boltzmann Machine (RBM) также имеют соответствующие исследования.

128 Модель нейронной сети (Neural Network) названа в честь вдохновения человеческого мозга. Основы глубокого обучения DL Easy

Нейронная сеть состоит из множества нейронов (нейронов), каждый нейрон принимает входные данные и обрабатывает входные данные для получения выходных данных, как показано на следующем рисунке. Какое из следующих утверждений о нейронах верно?

  1. A Каждый нейрон может иметь один вход и один выход.
  2. B Каждый нейрон может иметь несколько входов и один выход
  3. C Каждый нейрон может иметь один вход и несколько выходов.
  4. D Каждый нейрон может иметь несколько входов и несколько выходов.
  5. E Все вышеперечисленное верно

Ответ: (Э)

Каждый нейрон может иметь один или несколько входов и один или несколько выходов.

 

129 На рисунке ниже представлено математическое представление нейрона. Основы глубокого обучения DL Easy

Эти компоненты представлены в виде:

- x1, x2,…, xN: представляет вход нейрона. Это может быть фактическое значение наблюдения входного слоя или промежуточное значение скрытого слоя (Hidden Layer).

- w1, w2,…,wN: представляет вес каждого входа

- bi: Указывает единицу смещения/единицу смещения. На вход функции активации добавлен постоянный член, аналог Intercept

- а: В качестве функции активации нейрона это может быть выражено как

- y: выход нейрона

Принимая во внимание приведенные выше обозначения, можно ли линейное уравнение (y = mx + c) считать принадлежащим нейрону:

А. да

Б. нет

Ответ: (А)

Введите только одну переменную, функция активации линейна. Поэтому ее можно рассматривать как функцию линейной регрессии.

130 В нейронной сети самым важным шагом является знание весов и смещений каждого нейрона. Если вы знаете точные веса и смещения нейронов, вы можете аппроксимировать любую функцию, но как узнать веса и смещения каждого нейрона? Основы глубокого обучения DL Easy
A ищет все возможные комбинации весов и смещений, пока не получит наилучшее значение.
B дает начальное значение, затем проверяет отличие от наилучшего значения и итеративно корректирует вес.
C случайное назначение, отставка
D Ничего из вышеперечисленного не верно
Ответ: (б)
Вариант B — это описание градиентного спуска.

 

131 Каковы правильные шаги в алгоритме градиентного спуска? Основы глубокого обучения DL Easy

  1. Вычислить ошибку между прогнозируемым значением и истинным значением
  2. Повторяйте итерацию до тех пор, пока не будет получено оптимальное значение веса сети.
  3. Передайте вход в сеть и получите выходное значение
  4. Инициализируйте веса и смещения со случайными значениями
  5. Для каждого нейрона, выдающего ошибку, отрегулируйте соответствующее значение (вес), чтобы уменьшить ошибку.

А. 1, 2, 3, 4, 5

Б. 5, 4, 3, 2, 1

С. 3, 2, 1, 5, 4

Д. 4, 3, 1, 5, 2

Ответ: (Д)

132 Известно:
- Мозг состоит из множества элементов, называемых нейронами, а нейронная сеть — это простое математическое выражение мозга.
- Каждый нейрон имеет вход, функцию обработки и выход.
- Нейроны объединяются в сеть, которая может выполнять любую функцию.
- Чтобы получить лучшую нейронную сеть, мы используем метод градиентного спуска для постоянного обновления модели.
Учитывая приведенное выше описание нейронных сетей, при каких обстоятельствах модель нейронной сети называется моделью глубокого обучения? Основы глубокого обучения DL Easy

A добавляет больше слоев, чтобы увеличить глубину нейронной сети.
B имеет данные более высокого измерения
C Когда это проблема распознавания образов
D ничего из вышеперечисленного не верно
Ответ: (А)
Больше слоев означает более глубокую сеть. Модель без строгого определения количества слоев называется глубокой моделью.В настоящее время, если скрытых слоев более 2, ее также можно назвать глубокой моделью.

133 При использовании CNN нужно ли предварительно обрабатывать входные данные, такие как вращение, перемещение, масштабирование и т. д.? Основы глубокого обучения DL Easy
потребности
Б не нужен
Ответ: (А)
Прежде чем данные будут переданы в нейронную сеть, необходимо выполнить ряд предварительных операций с данными (т. е. вращение, перемещение, масштабирование), и сама нейронная сеть не может выполнить эти преобразования.

134 Какая из следующих операций может привести к эффекту, аналогичному Dropout в нейронной сети? (B) Основы глубокого обучения DL Easy
A Boosting
B Bagging
C Stacking
D Mapping
Dropout можно рассматривать как экстремальный бэггинг, каждая модель обучается на отдельных данных, и в то же время за счет совместного использования соответствующих параметров с другими моделями параметры модели сильно регуляризируются.

135 Что из перечисленного вносит нелинейность в нейронную сеть? Основы глубокого обучения DL Easy

  1. Стохастический градиентный спуск
  2. B Скорректированная линейная единица (ReLU)
  3. C сверточная функция
  4. D ничего из вышеперечисленного не верно

Ответ: (В)

Модифицированные линейные единицы представляют собой нелинейные функции активации.

 

136 При обучении нейронной сети функция потерь (потери) не падает в первые несколько эпох, в чем возможная причина? (D) Основы глубокого обучения DL Easy
A Скорость обучения слишком низкая
Обычный параметр B слишком высок
C застревает в локальном минимуме

D и выше возможны

137 Какое из следующих утверждений о емкости модели верно? (Относится к способности моделей нейронных сетей соответствовать сложным функциям) Основы глубокого обучения DL Easy

  1. A Количество скрытых слоев увеличивается, а объем модели увеличивается.
  2. Доля B Dropout увеличивается, а емкость модели увеличивается
  3. C Скорость обучения увеличивается, а емкость модели увеличивается
  4. Д не правильно

Ответ: (А)

138 Если количество скрытых слоев в многослойном персептроне увеличивается, ошибка классификации уменьшается. Это утверждение верно или ложно? Основы глубокого обучения DL Easy

  1. правильный
  2. ошибка Б

Ответ: (В)

не всегда правильно. Увеличение количества слоев может привести к переоснащению, что может привести к увеличению ошибки.

139. Создайте нейронную сеть, которая принимает выходные данные предыдущего слоя и саму себя в качестве входных данных. Модель глубокого обучения DL Easy

Какая из следующих архитектур имеет связи с обратной связью?

  1. Рекуррентная нейронная сеть
  2. B Сверточная нейронная сеть
  3. C Ограниченная машина Больцмана
  4. D не является ни

Ответ: (А)

140 Каков порядок задач в Персептроне? Основы глубокого обучения DL Easy
1 Произвольно инициализируйте веса персептрона
2 Перейти к следующему пакету набора данных
3 Если прогнозируемое значение и выходные данные не совпадают, отрегулируйте веса
4 Для входной выборки рассчитайте выходное значение
A. 1, 2, 3, 4
B. 4, 3, 2, 1
C. 3, 1, 2, 4
D. 1, 4, 3, 2
Ответ: (Д)

141 Предположим, вам нужно настроить параметры для минимизации функции стоимости. Какой из следующих методов вы бы использовали? Основы глубокого обучения DL Easy

А. исчерпывающий поиск

Б. случайный поиск

С. Байесовская оптимизация

Д. градиентный спуск

Ответ: (Д)

142 В какой из следующих ситуаций первый градиентный спуск не обязательно работает правильно (может застрять)? Основы глубокого обучения DL Easy

D. Ничего из вышеперечисленного неверно

Ответ: (В)

Это классический пример градиентного спуска с седловыми точками. Кроме того, этот вопрос исходит из:Woohoo.аналитика vi.com/blog/2017/0…

143 На приведенном ниже графике показана точность обученной трехслойной сверточной нейронной сети в зависимости от количества параметров (количества ядер признаков). Основы глубокого обучения DL Easy

Как видно из тренда на рисунке, если увеличить ширину нейронной сети, точность возрастет до определенного порога, а затем начнет снижаться. Каковы возможные причины этого явления?

  1. A Даже если количество ядер свертки будет увеличено, для предсказания будет использоваться лишь небольшое количество ядер.
  2. B Когда количество ядер свертки увеличивается, предсказательная способность (мощность) нейронной сети будет уменьшаться.
  3. C Увеличение числа ядер свертки приводит к переоснащению
  4. D ничего из вышеперечисленного не верно

Ответ: (С)

 

Когда размер сети слишком велик, она может обнаружить шум в данных, что приведет к переоснащению.

144 Предположим, у нас есть скрытый слой, как показано ниже. Скрытый слой играет определенную роль в уменьшении широты в этой сети. Теперь предположим, что мы заменили этот скрытый слой другим методом уменьшения размерности, таким как анализ основных компонентов (PCA). Основы глубокого обучения DL Easy

Итак, два выходных эффекта одинаковы?

А. Да

Б. Нет

Ответ: (В)

PCA извлекает направление с большой дисперсией распределения данных, а скрытый слой может извлекать признаки с возможностью прогнозирования.

 

145 Какая из следующих функций не может быть функцией активации? Основы глубокого обучения DL Easy

 

A. y = tanh(x)
B. y = sin(x)
C. y = max(x,0)
D. y = 2x

Ответ: (Д)

Линейные функции нельзя использовать в качестве функций активации.

146 Какие из следующих структур нейронной сети будут иметь общие веса? Модель глубокого обучения DL Easy

А. Сверточные нейронные сети

B. Рекуррентная нейронная сеть

C. Полностью подключенная нейронная сеть

Г. Варианты А и Б

Ответ: (Д)

147 Каковы преимущества пакетной нормализации? Основы глубокого обучения DL
A. Нормализуйте (измените) все входные данные перед передачей их на следующий уровень.
B. Он принимает нормализованное среднее значение и стандартное отклонение весов.
C. Это очень эффективный метод обратного распространения ошибки (BP).
Д. Ничего из этого
Ответ: (А)

148 Какой из следующих методов в нейронной сети можно использовать для борьбы с переоснащением? (D) Основы глубокого обучения DL Easy
A Dropout
B Пакетная нормализация
C регуляризация
Д может
Для варианта C принцип пакетной нормализации для борьбы с переоснащением заключается в том, что нормализованные значения одних и тех же данных в разных пакетах будут разными, что эквивалентно выполнению аугментации данных.

149 Что произойдет, если мы используем чрезмерную скорость обучения? Основы глубокого обучения DL Easy
Нейронная сеть будет сходиться
Б трудно сказать
С неправильно
D Нейронная сеть не сходится

Сеть, показанная на рисунке ниже, используется для обучения распознаванию символов H и T следующим образом (Deep Learning DL Basics Easy):
Что является выходом сети?
enter_image_description_here
D. Может быть A или B, в зависимости от настроек веса нейронной сети
Ответ: (Д)
Не зная, каковы веса и смещения нейронной сети, невозможно сказать, какой результат она даст.

150 Предположим, мы обучили сверточную нейронную сеть на наборе данных ImageNet (распознавание объектов). Затем передайте этой сверточной нейронной сети полностью белое изображение. Выходом для этого ввода с одинаковой вероятностью может быть любой объект, верно? модель глубокого обучения DL
право
Б не знаю
С зависит от ситуации
Д неправильно
Ответ: D, обученная сверточная нейронная сеть, каждый нейрон был тщательно обработан, для ввода полностью белого изображения значение выхода активации j-го слоя для конечного полносвязного слоя практически невозможно сравнять, а затем после преобразования softmax он не будет равен, поэтому «выходной результат - это одинаковая возможность любого рода», то есть каждый элемент softmax равен, и эта вероятность крайне мала.

151 Когда к сверточной нейронной сети добавляется объединяющий слой, инвариантность к преобразованиям сохраняется, верно? модель глубокого обучения DL
не знаю
Б зависит от ситуации
С
Д нет
Ответ: (С)
Алгоритмы объединения, такие как получение максимального значения/среднего значения и т. д., все приводят к одному и тому же результату после ротации входных данных, поэтому эта инвариантность сохраняется и после многоуровневого наложения.

152 Какой метод градиентного спуска более эффективен, когда данные слишком велики для одновременной обработки в оперативной памяти? (A) Основы глубокого обучения DL Easy
Стохастический градиентный спуск
Б не знаю
C Полный пакетный градиентный спуск
D не является ни
Метод градиентного спуска делится на стохастический градиентный спуск (по одной выборке за раз), метод мини-пакетного градиентного спуска (каждый раз для вычисления общих потерь используется небольшая партия выборок, поэтому градиент обратного распространения скомпрометирован) и метод полного пакетного градиентного спуска используется одновременно для всех образцов. Для этих трех методов для поверхности функции потерь всех выборок точки градиента являются более точными.Однако в инженерных приложениях это ограничивается пропускной способностью памяти/дискового ввода-вывода.Чтобы минимизировать фактическое время работы градиентного спуска, необходимо Достигается наилучший баланс между точностью направления градиента и производительностью передачи данных.Поэтому, когда данные слишком велики для одновременной обработки в ОЗУ, ОЗУ может удерживать только один отсчет на время, то можно выбрать только метод стохастического градиентного спуска.

 

153 На рисунке ниже показан график градиентного спуска для обучения нейронной сети с четырьмя скрытыми слоями с использованием сигмовидной функции в качестве функции активации. Эта нейронная сеть сталкивается с проблемой исчезающих градиентов. Какое из следующих утверждений верно? (A) Основы глубокого обучения DL
Первый скрытый слой соответствует D, второй скрытый слой соответствует C, третий скрытый слой соответствует B, а четвертый скрытый слой соответствует A.
Первый скрытый слой соответствует A, второй скрытый слой соответствует C, третий скрытый слой соответствует B, а четвертый скрытый слой соответствует D.
Первый скрытый слой соответствует A, второй скрытый слой соответствует B, третий скрытый слой соответствует C, а четвертый скрытый слой соответствует D.
Первый скрытый слой соответствует B, второй скрытый слой соответствует D, третий скрытый слой соответствует C, а четвертый скрытый слой соответствует A.

Так как алгоритм обратного распространения входит в начальный слой, способность к обучению снижается, что означает исчезновение градиента. Другими словами, исчезновение градиента заключается в том, что при прямом распространении градиент постепенно уменьшается до 0. Согласно названию рисунка, четыре кривые являются кривыми обучения четырех скрытых слоев, затем градиент первого слоя является самым высоким (кривая функции потерь значительно падает), а последний слой Градиент почти равен нулю (кривая функции потерь становится плоской линией), Таким образом, D - это первый слой, а A - последний слой.

154 Для задачи классификации, если веса нейронной сети не назначены случайным образом в начале и оба установлены на 0, какое из следующих утверждений верно? (C) Основы глубокого обучения DL Easy
А Все остальные варианты неверны
B в порядке, нейронная сеть начнет обучение в обычном режиме
Нейронные сети C можно обучать, но все нейроны в конечном итоге распознают одно и то же
D Нейронная сеть не начнет обучение, потому что нет изменения градиента
Идея инициализации всех весов равными 0, которая звучит разумно, может быть лучшей из наших гипотез, но оказывается неверной, потому что если выходные значения, вычисляемые нейронной сетью, все одинаковы, то верно и обратное: значение градиента, рассчитанное алгоритмом распространения, такое же, и значение обновления параметра такое же (w=w−α∗dw). В более общем случае, если веса инициализированы одним и тем же значением, сеть является симметричной, и в конечном итоге все нейроны распознают одно и то же.

 

155 На приведенном ниже графике показано, что в начале обучения ошибка постоянно высока, потому что нейронная сеть застревает в локальном минимуме, прежде чем двигаться к глобальному минимуму. Чтобы избежать этой ситуации, какую из следующих стратегий мы можем использовать? Основы глубокого обучения DL Easy
A Измените скорость обучения, например, постоянно меняйте скорость обучения в течение первых нескольких циклов обучения.
B начинает с уменьшения скорости обучения в 10 раз, затем использует термин импульса
C Увеличить количество параметров, чтобы нейронная сеть не застревала на локальных оптимумах.
Д больше ничего
Ответ: (А)
Вариант A может извлекать нейронные сети, которые попали в локальные минимумы.

 

156 Для задачи распознавания изображений (поиск кота на фотографии) какая из следующих нейронных сетей лучше решает задачу? (D) Основы глубокого обучения DL Easy
Рекуррентная нейронная сеть
B Персептрон
C Многослойный персептрон
D Сверточные нейронные сети
Сверточные нейронные сети лучше подходят для задач, связанных с изображениями, из-за присущей им природы позиционных изменений вблизи изображения.

 

157 Предположим, мы вдруг столкнулись с проблемой во время обучения, после нескольких циклов ошибка мгновенно уменьшается
Вы думаете, что с данными что-то не так, поэтому вы наносите данные на график и обнаруживаете, что, возможно, данные слишком искажены, чтобы вызвать проблему. 
Что вы собираетесь делать, чтобы справиться с этой проблемой? Основы глубокого обучения DL Easy

нормализовать данные
B Возьмем логарифмическое изменение данных
С неправильно
D Выполните анализ основных компонентов (PCA) и нормализацию данных
Ответ: (Д)
Сначала вы удаляете соответствующие данные, а затем обнуляете их. В частности, ошибка уменьшается мгновенно.Общая причина заключается в том, что несколько выборок данных имеют сильную корреляцию и внезапно попадают в подборку, или выборки данных с большой дисперсией внезапно попадают в подборку.Поэтому анализ основных компонентов (PCA) и нормализация могут улучшить это проблема.

 

158 Какая граница решения ниже была сгенерирована нейронной сетью? (E) Основы глубокого обучения DL Easy
A A
B D
C C
D B 
Е и выше
Нейронные сети могут приблизительно соответствовать любой функции, поэтому приведенные выше диаграммы могут быть обучены нейронными сетями посредством обучения с учителем для получения границ решений.

 

159 На приведенном ниже графике мы можем наблюдать множество небольших «флуктуаций» ошибки. Стоит ли нам беспокоиться об этой ситуации? Основы глубокого обучения DL Easy
Требуется A, что может означать проблему со скоростью обучения нейронной сети.
B не нужно, пока есть кумулятивный дроп на обучающем наборе и наборе перекрестной проверки
не знаю
д трудно сказать
Ответ: (В)
Вариант Б правильный, чтобы уменьшить эти "волнистости", можно попробовать увеличить размер партии. В частности, когда общая тенденция кривой снижается, чтобы уменьшить эти «волнистости», вы можете попытаться увеличить размер партии, чтобы сузить диапазон колебаний интегрированного направления градиента BATCH. Вы можете попробовать уменьшить скорость обучения, чтобы еще больше сходится.«От волнистости» ее следует прекращать заранее, чтобы избежать подгонки.

 

160 Какие из следующих параметров необходимо учитывать при выборе глубины нейронной сети? Основы глубокого обучения DL Easy
1 Типы нейронных сетей (такие как MLP, CNN)
2 Введите данные
3 Вычислительная мощность (определяется аппаратными и программными возможностями)
4 Скорость обучения
5 Функция вывода карты

A 1,2,4,5
B 2,3,4,5
C необходимо учитывать
D 1,3,4,5
Ответ: (С)
Все вышеперечисленные факторы важны для выбора глубины нейросетевой модели. Чем больше слоев требуется для извлечения признаков, тем выше размерность входных данных, тем сложнее нелинейность выходной функции отображения и тем глубже необходимая глубина.Кроме того, для достижения наилучшего эффекта увеличение количества параметров, вызванных увеличением глубины, также требует учитывать вычислительную мощность оборудования и скорость обучения, чтобы спроектировать разумное время обучения.

 

161 При рассмотрении конкретной проблемы у вас может быть только небольшой объем данных для ее решения. Но, к счастью, у вас есть предварительно обученная нейронная сеть для решения аналогичной задачи. Какой из следующих методов можно использовать для использования этой предварительно обученной сети? (C) Основы глубокого обучения DL Easy
A замораживает все слои, кроме последнего, и переобучает последний слой.
B переобучить всю модель на новых данных
C Только обычный женьшень для последних слоев
D Оцените каждый слой модели и выберите несколько из них для использования.
Если есть предварительно обученная нейронная сеть, это эквивалентно очень надежному априорному для каждого параметра сети вместо случайной инициализации.Если новый небольшой объем данных поступает из предыдущих обучающих данных (или объем предыдущего обучения данные описывают хорошо распределенные данные, а новые данные отбираются из точно такого же распределения), то все предыдущие слои можно заморозить, а последний слой переобучить; но в целом новое распределение данных отличается от предыдущего обучающего набора распределения, поэтому предыдущей сети недостаточно. Когда новые данные полностью подобраны, большинство предыдущих слоев сети можно заморозить, и только несколько последних слоев можно обучить и настроить (это также называется точной настройкой).

 

162 Необходимо ли увеличение размера ядра свертки для улучшения эффекта сверточных нейронных сетей? (C) Основы глубокого обучения DL Easy
Никогда не слышал о
Б это
С нет
не знаю
Ответ: C, увеличение размера функции ядра не обязательно повышает производительность. Этот вопрос во многом зависит от набора данных.

 

163 Пожалуйста, кратко опишите историю развития нейронных сетей. Основы глубокого обучения DL Easy

@SIY.Z. Источник этого анализа:zhuanlan.zhihu.com/p/29435406
Сигмовидная будет насыщена, в результате чего градиент исчезнет. Итак, есть РеЛУ.
Отрицательная полуось ReLU является мертвой зоной, в результате чего градиент становится равным 0. Итак, есть LeakyReLU, PReLU.
Акцент на стабильность градиента и распределения веса, что приводит к ELU и более новой SELU.
Слишком глубоко, уклон не пройти, поэтому есть шоссе.
Просто даже не нужны параметры хайвея, а прямо остаточное менять, так есть ResNet.
Принудительно стабилизируйте среднее значение и дисперсию параметров, поэтому есть BatchNorm.
Добавьте шум к потоку градиента, и вы получите Dropout.
Градиент RNN нестабилен, поэтому добавляется несколько путей и ворот, поэтому есть LSTM.
LSTM упрощенный, с ГРУ.
Существует проблема с JS-расхождением GAN, из-за которого градиент исчезнет или станет недействительным, поэтому есть WGAN.
У WGAN проблема с клипом градиента, поэтому есть WGAN-GP.

Расскажите о настройке производительности искры. Большие данные в Hadoop/spark
Specialties.Meituan.com/spark-Изображает вас…
https://tech.meituan.com/spark-tuning-pro.html

 

164 Каковы общие алгоритмы классификации? Основы машинного обучения ML Easy
SVM, нейронная сеть, случайный лес, логистическая регрессия, KNN, байесовский

 

165 Каковы общие алгоритмы обучения с учителем? Основы машинного обучения ML Easy
Персептрон, SVM, искусственная нейронная сеть, дерево решений, логистическая регрессия

 

166 Если исходить из того, что другие условия остаются неизменными, какие из следующих практик могут привести к переоснащению в машинном обучении () Основы машинного обучения машинного обучения Легко
A. Увеличьте размер тренировочного набора
Б. Уменьшить количество узлов в скрытом слое нейронной сети
C. Удалить разреженные функции
D. Используйте гауссово ядро/ядро RBF вместо линейного ядра в алгоритме SVM.
Правильный ответ: Д
@Liu Xuan320, заголовок и источник анализа этого вопроса:blog.CSDN.net/column/ он…
В общем, чем сложнее система, тем выше вероятность переобучения, и способность к обобщению будет выше, если общая модель относительно проста.
B. Обычно считается, что увеличение количества скрытых слоев может уменьшить ошибку сети (в некоторых источниках считается, что она не может быть эффективно уменьшена) и повысить точность, но это также усложняет сеть, тем самым увеличивая время обучения сети. и тенденция к «переоснащению», функция ядра svm Gaussian более сложна, чем модель линейной функции ядра, и склонна к переоснащению.
D. Объяснение функции ядра радиального базиса (RBF)/функции ядра Гаусса, эта функция ядра может отображать исходное пространство в бесконечномерное пространство. Для параметра, если параметр выбран очень большим, вес признака высокого порядка действительно очень быстро убывает, что фактически эквивалентно низкоразмерному подпространству (приблизительно численно); и наоборот, если параметр выбран очень маленьким, Это может быть Отображение произвольных данных для линейной разделимости — конечно, это не обязательно хорошо, потому что за этим может последовать очень серьезная проблема переобучения. Однако в целом ядро ​​Гаусса на самом деле довольно гибкое и является одной из наиболее широко используемых функций ядра за счет настройки параметров.

 

167 Какая из следующих моделей временных рядов лучше подходит для анализа волатильности и прогнозирования. Модели машинного обучения ML Easy
А. Модель дополненной реальности
Модель Б.МА
C. Модель АРМА
Модель Д.ГАРЧ
Правильный ответ: Д
@Liu Xuan320, заголовок и источник анализа этого вопроса:blog.CSDN.net/column/ он…
Модель AR представляет собой линейное предсказание, то есть по данным N данных данные до или после N-й точки можно вывести из модели (задать точку P), поэтому ее суть аналогична интерполяции.
Модель MA (модель скользящего среднего) — это модель скользящего среднего, в которой метод скользящего среднего тренда используется для построения модели прогнозирования линейного тренда.
Модель ARMA (модель авторегрессионного скользящего среднего) — это модель авторегрессионного скользящего среднего, один из методов спектрального анализа высокого разрешения метода параметров модели. Этот метод является типичным методом исследования рационального спектра стационарных случайных процессов. По сравнению с методом модели AR и методом модели MA, он имеет более точную спектральную оценку и лучшее спектральное разрешение, но его оценка параметров является более сложной.
Модель GARCH называется обобщенной моделью ARCH, которая является расширением модели ARCH и разработана Bollerslev (1986). Это обобщение модели ARCH. Модель GARCH(p,0) эквивалентна модели ARCH(p). Модель GARCH представляет собой регрессионную модель, специально предназначенную для финансовых данных.За исключением тех же точек, что и в обычной регрессионной модели, GARCH дополнительно моделирует дисперсию ошибки. Он особенно подходит для анализа и предсказания волатильности.Такой анализ может играть очень важную руководящую роль в принятии решений инвесторами, и его значение часто превышает анализ и предсказание самой стоимости.

 

168 Ниже ( ) приведен лучший критерий для линейных классификаторов? Модели машинного обучения ML Easy
А. Функция критерия восприятия
Б. Байесовская классификация
C. Машины опорных векторов
Д. Критерий Фишера
Правильный ответ: АКД
@Liu Xuan320, заголовок и источник анализа этого вопроса:blog.CSDN.net/column/ он…
Существует три основных категории линейных классификаторов: критериальная функция персептрона, SVM, критерий Фишера и байесовские классификаторы, которые не являются линейными классификаторами.
Критериальная функция восприятия: Критериальная функция основана на принципе минимизации суммы расстояний от ошибочно классифицированных образцов до границы раздела. Преимущество заключается в том, что функция классификатора корректируется информацией, предоставленной ошибочно классифицированными образцами, что является основой многослойного персептрона искусственной нейронной сети.
Машина опорных векторов: основная идея заключается в том, что при условии линейной разделимости двух классов интерфейс классификатора предназначен для максимального увеличения интервала между двумя классами, и его основная отправная точка состоит в том, чтобы сделать ожидаемый риск обобщения как можно меньшим. . (Используйте функцию ядра для решения нелинейных задач)
Критерий Фишера: Более широко известный как линейный дискриминантный анализ (LDA), все выборки проецируются на прямую линию, начинающуюся из дальней точки, так что расстояние между выборками одного типа как можно меньше, а расстояние между выборками разных типов как можно больше. Прибыль торговца».
В соответствии с характеристиками двух классов образцов, как правило, плотных внутри класса и разделенных между классами, найдите наилучшее направление вектора нормали линейного классификатора, чтобы проекция двух классов образцов в этом направлении была максимально плотной. внутри класса и как можно более разделены между классами. Эта метрика реализуется внутриклассовой дискретной матрицей Sw и межклассовой дискретной матрицей Sb.

 

169 В чем преимущество алгоритма H-K, основанного на квадратичной целевой функции, по сравнению с алгоритмом персептрона ()? Основы глубокого обучения DL Easy
A. Небольшой объем вычислений
B. Может определить, является ли задача линейно разделимой
C. Его решение полностью применимо к нелинейному сепарабельному случаю
D. Адаптивность его решения лучше
Правильный ответ: БД
@Liu Xuan320, заголовок и источник анализа этого вопроса:blog.CSDN.net/column/ он…
Идея алгоритма HK очень проста, то есть весовой вектор получается по критерию минимума среднеквадратичной ошибки.
Его преимущество перед алгоритмом персептрона в том, что он подходит как для линейно-сепарабельного, так и для нелинейно-сепарабельного случаев, для линейно-сепарабельного случая задан оптимальный весовой вектор, а для нелинейно-сепарабельного случая его можно выделить для выхода из итерационного процесса .

 

170 Какое из следующих утверждений верно () в моделях машинного обучения ML
A. SVM устойчив к шуму (например, выборкам шума из других дистрибутивов).
B. В алгоритме AdaBoost коэффициент обновления веса всех неправильно классифицированных образцов одинаков.
C. Повышение и бэггинг — это оба метода объединения нескольких классификаторов для голосования, а второй — определение веса одного классификатора в соответствии с показателем точности.
D. Учитывая n точек данных, если половина из них используется для обучения и обычно используется для тестирования, разница между ошибкой обучения и ошибкой теста будет уменьшаться по мере увеличения n.
Правильный ответ: БД
@Liu Xuan320, заголовок и источник анализа этого вопроса:blog.CSDN.net/column/ он…
A. SVM устойчив к шуму (например, выборкам шума из других дистрибутивов).
Сам SVM обладает определенной устойчивостью к шуму, но эксперименты показали, что, когда уровень шума ниже определенного уровня, шум мало влияет на SVM, но по мере того, как уровень шума продолжает увеличиваться, скорость распознавания классификатора будет снижаться. снижаться.
B. Коэффициент обновления веса всех неправильно классифицированных образцов в алгоритме AdaBoost одинаков.
Различные обучающие наборы в алгоритме AdaBoost достигаются путем корректировки весов, соответствующих каждому образцу. В начале вес, соответствующий каждой выборке, одинаков, то есть где n — количество выборок, и слабый классификатор обучается под этим распределением выборки. Для неправильно классифицированных выборок увеличьте их соответствующие веса, для правильно классифицированных выборок уменьшите их веса, чтобы неправильно классифицированные выборки были выделены и было получено новое распределение выборок. При новом распределении выборки выборки снова обучаются для получения слабого классификатора. И так далее, все слабые классификаторы перекрываются и добавляются, чтобы получить сильный классификатор.
C, Boost и Bagging — это методы объединения нескольких классификаторов для голосования, и оба они определяют свои веса в соответствии с точностью одного классификатора.
Разница между бэггингом и бустингом:
Выборка бывает разной.
Бэгинг использует равномерную выборку, а бустинг выборки в соответствии с частотой ошибок.
Каждая прогностическая функция Бэггинга не имеет веса, а бустинг имеет вес.
Функции предсказания Бэггинга могут генерироваться параллельно, в то время как функции предсказания бустинга могут генерироваться только последовательно.
@AntZ
A. SVM решает проблему минимального структурного риска и слабой обработки эмпирических рисков, поэтому он чувствителен к шуму данных.
B. В алгоритме AdaBoost каждая итерация обучает учащегося и получает вес альфа учащегося в соответствии с его скоростью ошибочной классификации.Вес учащегося вычисляет два коэффициента обновления для исправления веса всех выборок: альфа), отрицательный образец равен exp(alpha), поэтому все неправильно классифицированные образцы имеют одинаковый коэффициент обновления веса.
C. Нет разницы в весе между учащимися мешков, и результаты голосования просто берутся; adaboost бустинга определяет вес в соответствии с коэффициентом ошибочной классификации, а gbdt бустинга — это фиксированный малый вес (также называемый коэффициентом обучения), который заменяется самой приближенной функцией псевдоневязки Весов.
D: Согласно центральному предельному закону, по мере увеличения n разница между ошибкой обучения и ошибкой теста должна уменьшаться — это источник обучения работе с большими данными.

Размер входного изображения 200 × 200, и оно проходит через один слой свертки (размер ядра 5 × 5, отступ 1, шаг 2), объединение (размер ядра 3 × 3, отступ 0, шаг 1) и еще один слой. слой свертки (размер ядра 3 × 3, отступ 0, шаг 1).После размера 3 × 3, отступ 1, шаг 1) размер выходной карты объектов:

A. 95

B. 96

C. 97

D. 98

E. 99

F. 100

171 Основы глубокого обучения DL Простой правильный ответ: C
@Liu Xuan320, заголовок и источник анализа этого вопроса:blog.CSDN.net/column/ он…
Прежде всего, мы должны знать формулу расчета размера после свертки или объединения:

indepw = ⌊ImageW + 2PAdding-Kernelsizestride⌋ + 1

 

outputh=⌊imageh+2padding−kernelsizestride⌋+1

 

Среди них padding относится к размеру ребра, которое расширяется наружу, а step — размер шага, то есть длина каждого хода.

Это намного проще.Во-первых, длина и ширина, как правило, большие, поэтому нам нужно рассчитать только одно измерение.Таким образом, размер после первой свертки:

200+2−52+1=99


Размер после первого объединения:

99+0−31+1=97


Размер после второй свертки:

97+2−31+1=97

 

Окончательный результат был 97.

172 В модуле базового анализа spss роль «выявления взаимосвязи между данными в виде списка строк» ​​( ) большие данные Hadoop/spark easy
А. Описание данных
Б. Связанные
C. Кросс-таблица
D. Несколько переписной
Правильный ответ: С

173 Для идентификации лица, в которое необходимо войти, используется система доступа к тюрьмам с распознаванием лиц, которая включает в себя идентификацию 4 различных типов персонала: тюремных охранников, воров, сотрудников службы доставки еды и других. Какой из следующих методов обучения лучше всего подходит для этого приложения: () Машинное обучение Основы машинного обучения Easy
А. Задача двух категорий
B. Проблемы множественной классификации
C. Проблемы иерархической кластеризации
D. Проблема кластеризации k-центральной точки
E. Проблемы регрессии
F. Вопросы структурного анализа
Правильный ответ: Б
@Liu Xuan320, заголовок и источник анализа этого вопроса:blog.CSDN.net/column/ он…
Двоичная классификация: каждый классификатор может классифицировать образцы только по двум категориям. Образцами в тюрьме были тюремные надзиратели, воры, доставщики еды и другие. Бинарная классификация точно не сработает. Базовая машина опорных векторов, предложенная Вапником в 1995 г., представляет собой двухклассовый классификатор. Процесс обучения этого классификатора заключается в решении задачи оптимального планирования (двойственной задачи), основанной на выводе положительной и отрицательной двухклассовой классификации. заключается в использовании дерева решений для каскадирования двухклассовых классификаторов.Понятие размерности VC относится к сложности этого вопроса.
Иерархическая кластеризация: создает иерархический уровень для декомпозиции данного набора данных. Объектами в тюрьме являются тюремные охранники, воры, разносчики еды и др. Они должны быть одного ранга, так что нет. Этот метод делится на нисходящий (декомпозиция) и восходящий (объединение) два режима работы.
Кластеризация точек K-центра: выберите фактические объекты для представления кластеров и используйте один репрезентативный объект для каждого кластера. Это правило деления вокруг центральной точки, поэтому здесь оно не подходит.
Регрессионный анализ: Статистический метод для изучения корреляции между переменными, когда нет прямой связи между тюремными охранниками, ворами, доставщиками еды и другими.
Структурный анализ: метод структурного анализа рассчитывает долю каждого компонента на основе статистической группировки, а затем анализирует внутренние структурные характеристики общего явления, характер общего и закономерность изменения общей внутренней структуры во времени. Статистические методы. Базовой формой структурного анализа является расчет структурных показателей. Здесь тоже не работает.
Проблема множественной классификации: обучите несколько разных слабых классификаторов для разных атрибутов, а затем интегрируйте их в сильный классификатор. Здесь и тюремный охранник, и вор, и разносчик еды, и он, и так далее устанавливают основу по своим характеристикам, а затем различают и идентифицируют их.

174 Что неверно в логит-регрессии и моделях машинного обучения SVM()
Целевая функция регрессии A.Logit состоит в том, чтобы минимизировать апостериорную вероятность
B. Логит-регрессию можно использовать для прогнозирования вероятности наступления события.
C. Цель SVM — минимизировать структурный риск
D. SVM может эффективно избежать переобучения модели
Правильный ответ: А
@Liu Xuan320, заголовок и источник анализа этого вопроса:blog.CSDN.net/column/ он…
A. Логит-регрессия — это, по сути, метод оценки весов методом максимального правдоподобия на основе выборок, а апостериорная вероятность пропорциональна произведению априорной вероятности и функции правдоподобия. Логит просто максимизирует функцию правдоподобия, а не максимизирует апостериорную вероятность, не говоря уже о минимизации апостериорной вероятности. А минимизация апостериорной вероятности — это то, что делает наивный байесовский алгоритм. Ошибка
B. Результатом логит-регрессии является вероятность того, что образец относится к положительной категории, и эту вероятность можно рассчитать, исправить
C. Цель SVM состоит в том, чтобы найти гиперплоскость, которая максимально разделяет обучающие данные и максимизирует интервал классификации, который должен минимизировать структурный риск.
D. SVM может контролировать сложность модели с помощью коэффициента регуляризации и избегать переобучения.

175 Имеются две точки выборки, первая точка является положительной выборкой, и ее собственный вектор равен (0,-1); вторая точка является отрицательной выборкой, и ее собственный вектор равен (2,3), из этих двух. состоит из точек выборки, строит линейный классификатор SVM.Уравнение поверхности классификации: () Machine Learning ML Foundation Easy
A. 2x+y=4
B. x+2y=5
C. x+2y=3
D. 2x-y=0
Правильный ответ: С
Анализ: Этот вопрос упрощен: для двух точек максимальный интервал — это биссектриса по вертикали, поэтому биссектриса по вертикали может быть найдена. Наклон представляет собой отрицательную обратную величину наклона линии, соединяющей две точки -1/((-1-3)/(0-2)) = -1/2, вы можете получить y=-(1/2) x + c, над средней точкой ((0+2)/2, (-1+3)/2) = (1, 1), мы можем получить c=3/2, поэтому выбираем C.

176 Следующее описание степени точности, скорости отзыва и значения F1 алгоритма классификации неверно? Основы машинного обучения ML Easy
A. Уровень точности – это отношение количества найденных релевантных документов к общему количеству найденных документов, и он измеряет уровень точности поисковой системы.
B. Уровень отзыва относится к отношению количества соответствующих документов, извлеченных к количеству всех соответствующих документов в библиотеке документов, которое измеряет уровень отзыва поисковой системы.
C. Правильная скорость, скорость отзыва и значение значения составляет от 0 до 1, тем ближе значение, тем выше соотношение или значение поиска.
D. Чтобы решить конфликт между точностью и отзывом, была введена оценка F1.
Правильный ответ: С
Разобрать:
Обычно используемые индикаторы оценки для задач классификации с двумя классами — это точность и полнота. Обычно рассматриваемый класс является положительным классом, а другие классы являются отрицательными классами.Предсказание классификатора на наборе тестовых данных является правильным или неправильным.Общее количество вхождений четырех случаев записывается как:
TP - предсказать положительный класс как положительный номер класса
FN - прогнозировать положительные классы как отрицательные числа классов
FP - предсказать отрицательные классы как положительные классы
TN - предсказать отрицательные классы как числа отрицательных классов
таким образом:
Точность определяется как: P = TP / (TP + FP)
Отзыв определяется как: R = TP / (TP + FN)
Значение F1 определяется как: F1 = 2 P R / (P + R)
Коэффициент точности, коэффициент отзыва и значение F1 находятся в диапазоне от 0 до 1. Если коэффициент точности и коэффициент отзыва высоки, значение F1 также будет высоким.Нельзя сказать, что чем ближе значение к 0, тем выше значение , Должно быть, чем ближе значение к 1, тем выше значение.

177 Следующие методы модели относятся к дискриминационной модели (Discriminative Model) () Machine Learning ML Model Easy
1) Смешанная модель Гаусса
2) Модель условного случайного поля
3) Обучение дискриминации
4) Скрытая марковская модель
A.2,3
B.3,4
C.1,4
D.1,2
Правильный ответ: А
@Liu Xuan320, заголовок и источник анализа этого вопроса:blog.CSDN.net/column/ он…
Общие дискриминационные модели:
Логистическая регрессия
Линейный дискриминантный анализ
Опорные векторные машины
Повышение (интегрированное обучение)
Условные случайные поля
Линейная регрессия
Нейронные сети
Общие генеративные модели:
Модель смеси Гаусса и другие типы моделей смеси
Скрытая марковская модель
NaiveBayes (Наивный Байес)
AODE (средняя оценка одной зависимости)
Скрытое распределение Дирихле (тематическая модель LDA)
Ограниченная машина Больцмана
Генеративная модель умножает результат в соответствии с вероятностью, а дискриминативная модель дает входные данные и вычисляет результат.

178 В SPSS функции сортировки данных в основном сосредоточены в таких меню, как ( ). Большие данные Hadoop/spark легко
А. Данные
Б. Прямые продажи
с. Анализ
Д. преобразовать
Правильный ответ: АД
@Liu Xuan320, заголовок и источник анализа этого вопроса:blog.CSDN.net/column/ он…
Разбор: Сортировка данных в основном осуществляется в меню функций данных и преобразования.

 

179

Глубокое обучение — очень популярный алгоритм машинного обучения в настоящее время.В глубоком обучении задействовано большое количество матричных умножений.Теперь необходимо вычислить произведение ABC трех плотных матриц A, B и C, предполагая, что размеры три матрицы имеют вид m∗ n, n∗p, p∗q и m A.(AB)C

B.AC(B)

C.A(BC)

D. Так что эффективность одинакова

Основы глубокого обучения DL Простой правильный ответ: A

@Liu Xuan320, заголовок и источник анализа этого вопроса:blog.CSDN.net/column/ он…
Во-первых, согласно простому матричному знанию, поскольку A*B , количество столбцов A должно быть равно количеству строк B . Следовательно, вариант Б можно исключить,
Затем посмотрите на варианты A и C. В варианте A произведение матрицы A из m∗n и матрицы B из n∗p дает матрицу A*B из m∗p, и каждый элемент A∗B требует n умножений и n-1 сложений, Если не учитывать сложение, всего требуется m∗n∗p умножений. В той же ситуации, когда A*B умножается на C, всего требуется m∗p∗q умножений. Следовательно, количество умножений, необходимых для варианта A (AB)C, равно m∗n∗p+m∗p∗q. Точно так же количество умножений, требуемых вариантом C A (BC), равно n∗p∗q+m∗n∗q. 
Так как m∗n∗p

 

180

Nave Bayes — это специальный байесовский классификатор, переменная признака — X, метка класса — C, и одно из его предположений: ()
A. Априорная вероятность P(C) каждой категории равна

B. Нормальное распределение с 0 в качестве среднего и sqr(2)/2 в качестве стандартного отклонения.

C. Каждое измерение характеристической переменной X является условной независимой случайной величиной категории.

D.P(X|C) — распределение Гаусса.

В моделях машинного обучения ML правильный ответ: C

@Liu Xuan320, заголовок и источник анализа этого вопроса:blog.CSDN.net/column/ он…

Условие Наивного Байеса состоит в том, что каждая переменная независима друг от друга.

 

181

Что касается машины опорных векторов SVM, следующее утверждение неверно ()
Регулярный термин A.L2, функция состоит в том, чтобы максимизировать интервал классификации, чтобы классификатор имел более сильную способность к обобщению.

B. Функция потерь шарнира, роль которой заключается в минимизации эмпирической ошибки классификации.

C. Интервал классификации равен 1/||w||, а ||w|| представляет собой модуль вектора

D. Когда параметр C меньше, интервал классификации больше, ошибка классификации больше, и она имеет тенденцию к недоучению.

Модель машинного обучения ML, легкий, правильный ответ: C

@Liu Xuan320, заголовок и источник анализа этого вопроса:blog.CSDN.net/column/ он…

А правильно. Рассмотрим причину добавления члена регуляризации: представьте идеальный набор данных, y>1 — положительный класс, y

Б правильно.

ошибка С. Интервал должен быть равен 2/||w||, а вторая половина предложения должна быть правильной.Модуль вектора обычно относится к его второй норме.

Д правильно. При рассмотрении мягких полей влияние C на задачу оптимизации заключается в ограничении диапазона a от [0, +inf] до [0, C]. Чем меньше C, тем меньше будет a. Если производная функции Лагранжа от целевой функции равна 0, можно получить w = sum ai∗yi∗xi. Чем меньше a, тем меньше w, поэтому интервал равен 2/||w| | становится больше

 

182 В HMM, если известна последовательность наблюдений и последовательность состояний, которая создает последовательность наблюдений, какой из следующих методов можно использовать для непосредственной оценки параметров () Machine Learning ML Model Easy
Алгоритм А.ЭМ
Б. Алгоритм Витерби
C. Прямой обратный алгоритм
D. Оценка максимального правдоподобия
Правильный ответ: Д
@Liu Xuan320, заголовок и источник анализа этого вопроса:blog.CSDN.net/column/ он…
Алгоритм EM: для изучения параметров модели используется только последовательность наблюдений, когда нет последовательности состояний, то есть алгоритм Баума-Уэлча.
Алгоритм Витерби: решение задач прогнозирования HMM с помощью динамического программирования, а не оценки параметров
Алгоритм «вперед-назад»: используется для расчета вероятностей.
Оценка максимального правдоподобия: то есть алгоритм обучения с учителем, когда для оценки параметров существуют как последовательность наблюдений, так и соответствующая последовательность состояний.
Обратите внимание, что оценка параметров модели для данной последовательности наблюдений и соответствующей последовательности состояний может быть оценена с использованием максимального правдоподобия. Если нет соответствующей последовательности состояний для данной последовательности наблюдений, EM используется для просмотра последовательности состояний как неизмеримых скрытых данных.

 

183 Если предположить, что учащийся случайно повторил два измерения обучающих данных при использовании модели классификации наивного байесовского (НБ), то правильное утверждение о НБ будет следующим (): Машинное обучение ML Модель Easy
А. Решающая роль этого повторяющегося признака в модели будет усилена
B. Точность модельного эффекта будет снижена по сравнению со случаем без повторяющихся признаков.
C. Если все функции повторяются, результирующий прогноз модели будет таким же, как и прогноз модели без повторения.
D. Когда два столбца признаков сильно коррелированы, невозможно использовать выводы, полученные при совпадении двух столбцов признаков, для анализа проблемы.
E.NB можно использовать для регрессии методом наименьших квадратов.
F. Приведенное выше утверждение неверно.
Правильный ответ: БД
Условие Наивного Байеса состоит в том, что каждая переменная независима друг от друга.Если в модель дважды ввести высококоррелированный признак, что повысит важность этого признака, его производительность снизится, поскольку данные содержат сильно коррелированные признаки. Правильным будет оценить матрицу корреляции признаков и удалить те, которые сильно коррелированы.

 

184 L1 и L2 норм. Основы машинного обучения ML Easy

В логистической регрессии, какой будет эффект, если нормы L1 и L2 будут добавлены одновременно ()

A. Он может выполнять выбор функций и в определенной степени предотвращать переоснащение.

B. Может решить проблему пространственной катастрофы

C. может ускорить скорость расчета

D. Можно получить более точные результаты

Правильный ответ: азбука

@Liu Xuan320, заголовок и источник анализа этого вопроса:blog.CSDN.net/column/ он…
Норма L1 имеет характеристики коэффициентных решений, но следует отметить, что признаки, не выбранные L1, не означают, что они не важны, потому что может быть зарезервирован только один из двух сильно коррелированных признаков. Если вам нужно определить, какая функция важна, пройдите перекрестную проверку. Его приятное свойство заключается в том, что он создает разреженность, в результате чего многие члены в W становятся равными нулю. Помимо преимуществ разреженности, это более «объяснимо». Так что это может ускорить вычисление и смягчить проклятие размерности.Так что BC правильный.

После добавления регулярного члена к функции стоимости L1 представляет собой регрессию Лоссо, а L2 — регрессию гребня. Норма L1 представляет собой сумму абсолютных значений каждого элемента в векторе и используется для выбора признаков. Норма L2 относится к сумме квадратов каждого элемента вектора, а затем извлекается квадратный корень, который используется для предотвращения переобучения и улучшения способности модели к обобщению. Так что выбирайте А.

Подробный ответ на регуляризацию норм в машинном обучении, то есть нормы L0, L1 и L2, см. в разделе "регуляризация нормы".

185 Регуляризация. Основы машинного обучения ML Easy
В чем разница между регуляризацией L1 и регуляризацией L2 в машинном обучении?
A. Используйте L1, чтобы получить разреженные веса
B. Используйте L1, чтобы получить гладкие веса
C. Используйте L2 для получения разреженных весов
D. Используйте L2, чтобы получить гладкие веса
Правильный ответ: АД
@Liu Xuan320, заголовок и источник анализа этого вопроса:blog.CSDN.net/column/ он…
Регуляризация L1 смещена в сторону разреженности, она будет автоматически выполнять отбор признаков и удалять некоторые бесполезные признаки, то есть сбрасывать веса, соответствующие этим признакам, в 0.
Основная функция L2 — предотвращение переобучения.Чем меньше требуемый параметр, тем проще модель, а чем проще модель, тем более гладкой она становится, тем самым предотвращая переобучение.
Регуляризация L1/лассо
Регуляризация L1 добавляет норму l1 коэффициента w в качестве штрафного члена к функции потерь.Поскольку член регуляризации отличен от нуля, это заставляет коэффициенты, соответствующие этим слабым функциям, становиться равными 0. Следовательно, регуляризация L1 имеет тенденцию делать изученную модель очень разреженной (коэффициент w часто равен 0), что делает регуляризацию L1 хорошим методом выбора признаков.
Регуляризация L2/регрессия хребта
Регуляризация L2 добавляет норму L2 вектора коэффициентов к функции потерь. Поскольку коэффициент в штрафном члене L2 является квадратичным, из-за чего L2 и L1 имеют много различий, наиболее очевидным моментом является то, что регуляризация L2 сделает значение коэффициента средним. Для коррелированных признаков это означает, что они могут получить более близкие соответствующие коэффициенты. Или возьмем Y=X1+X2 в качестве примера, предполагая, что X1 и X2 имеют сильную корреляцию, если используется регуляризация L1, независимо от того, является ли изученная модель Y=X1+X2 или Y=2X1, штраф одинаков, оба 2альфа. Но для L2 штрафной термин составляет 2альфа для первой модели и 4*альфа для второй модели. Можно видеть, что когда сумма коэффициентов постоянна, штраф является наименьшим, когда коэффициенты равны, поэтому существует характеристика, согласно которой L2 будет заставлять коэффициенты иметь тенденцию быть одинаковыми.
Можно видеть, что регуляризация L2 является стабильной моделью для выбора признаков, в отличие от регуляризации L1, коэффициенты колеблются из-за незначительных изменений данных. Таким образом, значение, обеспечиваемое регуляризацией L2 и регуляризацией L1, отличается, и регуляризация L2 более полезна для понимания признаков: коэффициенты, соответствующие признакам с высокой способностью, отличны от нуля.
Таким образом, итог в одном предложении таков: L1 будет иметь тенденцию создавать небольшое количество функций, в то время как все остальные функции равны 0, а L2 будет выбирать больше функций, которые все будут близки к 0. Lasso очень полезен для выбора признаков, а Ridge — просто регуляризация.
Дополнительные сведения см. в разделах «Выбор функций машинного обучения» и «Регуляризация норм машинного обучения».

 

186 Метод потенциальных функций. Основы машинного обучения ML Easy
Роль накопленной потенциальной функции K(x) метода потенциальной функции эквивалентна () в байесовском решении
Апостериорная вероятность
B. Априорные вероятности
C. Плотность вероятности класса
D. Произведение плотности вероятности класса и априорной вероятности
Правильный ответ: АД
@Liu Xuan320, заголовок и источник анализа этого вопроса:blog.CSDN.net/column/ он…
На самом деле, AD говорит то же самое. 
В частности, подробное объяснение потенциальной функции см. в разделе «Метод потенциальной функции».

 

187 Скрытый Марков. Модели машинного обучения ML Easy
Три основные проблемы скрытой марковской модели и соответствующий алгоритм верны ( )
A. Оценка — алгоритм прямого-обратного направления
B. Декодирование - Алгоритм Витерби
C. Обучение — алгоритм Баума-Уэлча
D. Обучение — алгоритм прямого-обратного направления
Правильный ответ: азбука
Анализ: Оцените проблему, вы можете использовать прямой алгоритм, обратный алгоритм, прямой алгоритм.

Какой тип классификатора выбрать, когда функции больше, чем объем данных? Основы машинного обучения ML Easy
Линейный классификатор, потому что при высоком измерении данные обычно разрежены в пространстве измерений и, скорее всего, будут линейно разделимыми.
Из http://blog.sina.com.cn/s/blog_178bcad000102x70r.html

 

188 Неконтролируемое обучение относится к следующему: Машинное обучение Основы машинного обучения Легко
A.k-means
B.SVM
C. Максимальная энтропия
D.CRF
Правильный ответ: А
Анализ:
A — кластеризация, BC — классификация, а D — сериализованная маркировка, которая также является контролируемым обучением. Что из нижеперечисленного не относится к преимуществам моделей CRF перед моделями HMM и MEMM ( ) Модели машинного обучения ML
A. Функции гибкие
Б. быстро
C. Может вместить больше контекстной информации
D. Глобальный оптимум
Правильный ответ: Б

Анализ:
Преимущества CRF: гибкие функции, возможность размещения большего количества контекстной информации и достижение глобального оптимального CRF. Недостатки: медленный.
CRF не имеет строгих предположений о независимости, как HMM, поэтому он может вмещать произвольную контекстную информацию. Гибкий дизайн функций (такой же, как ME) — по сравнению с HMM
В то же время, поскольку CRF вычисляет условную вероятность глобально оптимального выходного узла, он также преодолевает недостатки смещения метки марковской модели с максимальной энтропией (Label-bias). —— Сравнение с МЭММ
CRF должен использовать алгоритм Витерби для вычисления совместного распределения вероятностей всей помеченной последовательности с учетом последовательности наблюдений, которую необходимо пометить, вместо определения распределения состояний следующего состояния с учетом текущего состояния. —— Сравнение с МЭ

189 Как можно устранить пропущенные значения при очистке данных?
А. оценить
B. Удалить все дело
C. Удаление переменной
D. Попарное удаление
Правильный ответ: АВСD

@Liu Xuan320, заголовок и источник анализа этого вопроса:blog.CSDN.net/column/ он…
Из-за ошибок опроса, кодирования и ввода в данных могут быть некоторые недопустимые и отсутствующие значения, которые необходимо обрабатывать надлежащим образом. Обычно используемые методы обработки: оценка, удаление всего наблюдения, удаление переменных и попарное удаление.

Предварительный расчет. Самый простой способ сделать это — заменить недопустимые и отсутствующие значения выборочным средним, медианой или модой переменной. Этот метод прост, но не полностью учитывает имеющуюся информацию в данных, и погрешность может быть большой. Другой способ заключается в оценке с помощью корреляционного анализа или логического вывода между переменными на основе ответов респондентов на другие вопросы. Например, владение определенным товаром может быть связано с доходом домохозяйства, а возможность владения этим товаром может быть рассчитана исходя из дохода домохозяйства респондентов опроса.
Удаление по регистру — это удаление выборок с пропущенными значениями. Поскольку во многих вопросниках могут отсутствовать значения, результат такой практики может привести к значительному сокращению эффективного размера выборки, а собранные данные не могут быть использованы в полной мере. Поэтому он подходит только для случаев, когда ключевые переменные отсутствуют или доля выборок с недействительными или отсутствующими значениями невелика.
Удаление переменной. Если переменная имеет много недопустимых и отсутствующих значений, и переменная не особенно важна для изучаемой проблемы, рассмотрите возможность удаления переменной. Эта практика уменьшает количество переменных, доступных для анализа, но не меняет размер выборки.
Попарное удаление — это использование специального кода (обычно 9, 99, 999 и т. д.) для представления недопустимых и отсутствующих значений при сохранении всех переменных и выборок в наборе данных. Однако в конкретных расчетах используются только выборки с полными ответами, поэтому разные анализы имеют разные эффективные размеры выборки из-за разных задействованных переменных. Это консервативный подход, который максимально сохраняет информацию, доступную в наборе данных.

Использование различных методов обработки может повлиять на результаты анализа, особенно когда появление пропущенных значений не является случайным и переменные явно коррелируют. Поэтому при расследовании следует максимально избегать недопустимых и отсутствующих значений, чтобы обеспечить целостность данных.

190 Что касается описания линейной регрессии, верно следующее () Machine Learning ML Foundation Easy
A. Основные допущения включают в себя то, что член случайных помех представляет собой стандартное нормальное распределение со средним значением 0 и дисперсией 1.
B. Основные предположения включают гомоскедастическое нормальное распределение со средним значением 0 при случайных помехах.
C. Обычная оценка методом наименьших квадратов больше не является лучшей линейной несмещенной оценкой, когда основные предположения нарушаются.
D. Когда основные предположения нарушаются, модель больше не может быть оценена
E. DW можно использовать для проверки того, имеют ли остатки последовательную корреляцию.
F. Мультиколлинеарность уменьшит дисперсию оценок параметров
Правильный ответ: АСЕФ
@Liu Xuan320, заголовок и источник анализа этого вопроса:blog.CSDN.net/column/ он…

191 Основными допущениями одномерной линейной регрессии AB являются
1. Член случайной ошибки — это случайная величина с ожидаемым значением или средним значением, равным 0;
2. Для всех наблюдений объясняющей переменной член случайной ошибки имеет одинаковую дисперсию;
3. Члены случайных ошибок не коррелируют друг с другом;
4. Объясняющая переменная является детерминированной, а не случайной величиной, а член случайной ошибки не зависит друг от друга;
5. Между объясняющими переменными нет точной (полной) линейной зависимости, то есть выборочная матрица значений наблюдения объясняющих переменных является матрицей полного ранга;
6. Член случайной ошибки подчиняется нормальному распределению

Эконометрические модели, CD которых нарушает лежащие в их основе допущения, все еще могут быть оценены, но не могут быть оценены с использованием обычного метода наименьших квадратов.
При наличии гетероскедастичности обычная оценка методом наименьших квадратов имеет следующие проблемы: хотя оценки параметров являются несмещенными, они не являются линейными несмещенными оценками с минимальной дисперсией.
E Тест Дубина-Ватсона (DW), эконометрика, широко используемый метод статистического анализа для проверки автокорреляции первого порядка последовательности.

F Так называемая мультиколлинеарность относится к тому факту, что независимые переменные в модели линейной регрессии искажены или их трудно точно оценить из-за наличия точной корреляции или высокой корреляции между независимыми переменными. Оказать влияние
(1) Оценщик параметра не существует при полной коллинеарности
(2) МНК-оценка неэффективна при приблизительной коллинеарности.
Мультиколлинеарность увеличивает дисперсию оценок параметров, 1/(1-r2) — коэффициент инфляции дисперсии (VIF).
(3) Экономический смысл оценок параметров необоснован.
(4) Проверка значимости переменной теряет смысл и может исключить из модели важные объясняющие переменные.
(5) Функция предсказания модели не работает. Чем больше дисперсия, тем больше «интервал» интервального прогноза, что делает прогноз бессмысленным.
Для модели линейной регрессии, когда переменная отклика следует нормальному распределению, а член ошибки удовлетворяет условию Гаусса-Маркова (нулевое среднее значение, равная дисперсия, некоррелированные), оценка параметров регрессии методом наименьших квадратов является последовательной несмещенной оценкой минимальной дисперсии.
Конечно, это условие является лишь идеализированным предположением, чтобы иметь соответствующий относительно зрелый вывод в математике. На самом деле большинство практических задач не полностью удовлетворяют этим идеализированным предположениям.
Развитие теории моделей линейной регрессии происходит именно тогда, когда идеальные условия не выполняются, и получается много новых методов. Например, взвешенная LSE, оценка гребня, оценка сжатия, преобразование BOX_COX и ряд сегментов. При выполнении практической работы вы должны выйти за рамки идеализированных условий, изложенных в книге.

192 Основными причинами, влияющими на эффективность алгоритмов кластеризации, являются: ( ) Machine Learning ML Foundation Easy
А. Выбор функций
B. Мера подобия шаблона
C. Руководство по классификации
D. Качество образцов известных классов
Правильный ответ: азбука
@Liu Xuan320, заголовок и источник анализа этого вопроса:blog.CSDN.net/column/ он…
Анализ: этот вопрос должен быть очень простым. Причина, по которой D неверен, заключается в том, что кластеризация предназначена для кластеризации неклассифицированных данных и не использует уже размеченные данные.
Для предыдущих вариантов ABC вы можете обратиться к: «Кластерный анализ» и «Сравнение различных алгоритмов».

193 Что из следующего является общей моделью алгоритма временных рядов () модель машинного обучения ML easy
A.RSI
B.MACD
C.ARMA
D.KDJ
Правильный ответ: С
Анализ:
Модель авторегрессионной скользящей средней (ARMA)
Идею моделирования можно резюмировать следующим образом: постепенно повышайте порядок модели и подбирайте модель более высокого порядка до тех пор, пока порядок модели не будет снова увеличен, а остаточная остаточная дисперсия больше не будет значительно уменьшаться.

Остальные три не на том же уровне. 
A. Индекс относительной силы (RSI, индекс относительной силы) предназначен для анализа намерения и силы рыночных ордеров на покупку и продажу путем сравнения среднего увеличения закрытия и среднего снижения закрытия за определенный период времени, чтобы определить будущие рыночные тенденции.
B. Moving Average Convergence Divergence (MACD, Moving Average Convergence Divergence), который основан на принципе построения скользящей средней, сглаживает цену закрытия цены акции и рассчитывается после получения среднего арифметического, является трендовым индикатором. .
D. Стохастический индикатор (KDJ), как правило, основан на принципе статистики через определенный период (обычно 9 дней, 9 недель и т. д.), который произошел в самой высокой цене, самой низкой цене и цене закрытия последнего расчета. период и эти три. В соответствии с пропорциональным соотношением между ними, чтобы рассчитать незрелое случайное значение RSV последнего расчетного периода, а затем вычислить значение K, значение D и значение J в соответствии с методом гладкой скользящей средней и нарисовать кривую график для изучения и оценки тенденции акций.

194 Следующее не является функцией ядра SVM () модель машинного обучения ML легко
A. Полиномиальная функция ядра
B. функция логистического ядра
C. Функция ядра радиального базиса
D.Сигмовидная функция ядра
Правильный ответ: Б

@Liu Xuan320, заголовок и источник анализа этого вопроса:blog.CSDN.net/column/ он…
Функции ядра SVM включают в себя линейную функцию ядра, полиномиальную функцию ядра, функцию ядра радиального базиса, функцию ядра Гаусса, степенную экспоненциальную функцию ядра, функцию ядра Лапласа, функцию ядра ANOVA, квадратичную рациональную функцию ядра, многомерную квадратичную функцию ядра, обратную многомерную квадратичную функцию ядра и Сигмовидная функция ядра.
Определение функции ядра несложно.Согласно соответствующей теории функционалов, если функция K(xi,xj) удовлетворяет условию Мерсера, она соответствует скалярному произведению некоторого пространства преобразований. До сих пор были сделаны важные прорывы в оценке того, какие функции являются функциями ядра, что привело к теореме Мерсера и следующим часто используемым типам функций ядра:
(1) Линейная функция ядра
К (х, х я) = х ⋅ х я
(2) Полиномиальное ядро
K ( Икс , Икс я ) знак равно ( ( Икс ⋅ Икс я ) + 1 ) d
(3) Ядро радиального базиса (RBF)
K ( Икс , Икс я ) знак равно exp ( - ∥ Икс - Икс я ∥ 2 σ 2 ) 
Радиальная базисная функция Гаусса является функцией ядра с сильной локальностью, и ее экстраполяционная способность ослабевает по мере увеличения параметра σ. Функция ядра в полиномиальной форме обладает хорошими глобальными свойствами. Местность бедная.
(4) Ядро Фурье
K ( Икс , Икс я ) знак равно 1 - q 2 2 ( 1 - 2 q потому что ( Икс - Икс я ) + q 2 )
(5) Сплайн-ядро
K ( Икс , Икс я ) знак равно B 2 п + 1 ( Икс - Икс я )
(6) Сигмовидная функция ядра
K ( Икс , Икс я ) знак равно танх ( κ ( Икс , Икс я ) - δ )
Когда в качестве функции ядра используется сигмовидная функция, машина опорных векторов реализует многослойную нейронную сеть перцептрона.Применяется метод SVM, количество узлов скрытого слоя (определяет структуру нейронной сети) и вес узлов скрытого слоя к входным узлам.Значения определяются автоматически в процессе проектирования (обучения). Кроме того, теоретическая основа машины опорных векторов определяет, что она в конечном итоге получает глобальное оптимальное значение вместо локального минимального значения, а также обеспечивает ее хорошую способность к обобщению для неизвестных выборок без избыточного обучения.

Выбор функции ядра
При выборе функции ядра для решения практических задач обычно используются следующие методы:
Один из них заключается в использовании предварительных знаний экспертов для предварительного выбора функции ядра;
Во-вторых, использовать метод перекрестной проверки, то есть при выборе функции ядра пробовать разные функции ядра соответственно, и функция ядра с наименьшей ошибкой индукции является лучшей функцией ядра. Например, для ядра Фурье и ядра RBF в сочетании с задачей регрессии функций в задаче обработки сигналов с помощью экспериментов по моделированию сравнивается и анализируется, что при одинаковых условиях данных ошибка SVM с использованием ядра Фурье намного меньше, чем у SVM, использующей ядро ​​RBF.
Третий заключается в использовании метода гибридных функций ядра, предложенного Смитсом и др. По сравнению с двумя предыдущими, этот метод в настоящее время является основным методом выбора функций ядра, а также является еще одной новаторской работой по созданию функций ядра. Объединение различных функций ядра будет иметь лучшие характеристики, что является основной идеей метода смешанных функций ядра.

195 Зная ковариационную матрицу P набора данных, следующее утверждение о главном компоненте неверно () Data Mining DM Basics Easy
A. Наилучшим критерием для анализа основных компонентов является разложение набора данных в соответствии с набором ортонормированных базисов при условии, что берется только одинаковое количество компонентов, для вычисления минимальной ошибки обрезки используется среднеквадратическая ошибка.
B. После разложения по основным компонентам ковариационная матрица становится диагональной матрицей
C. Анализ главных компонентов представляет собой преобразование K-L.
D. Главная компонента получается путем вычисления собственных значений ковариационной матрицы
Правильный ответ: С
Анализ: преобразование KL и преобразование PCA - это разные концепции Матрица преобразования PCA - это ковариационная матрица, а матрица преобразования преобразования KL может быть многих видов (матрица второго порядка, ковариационная матрица, матрица полной внутриклассовой дисперсии и т. Д. .). Когда матрица преобразования K-L является ковариационной матрицей, она эквивалентна PCA.

196 В задачах классификации мы часто сталкиваемся с ситуациями, когда количество данных положительной и отрицательной выборки различается. Например, положительная выборка содержит данные 10w, а отрицательная выборка имеет только данные 1w. Ниже наиболее подходящий метод обработки () Машинное обучение Основы машинного обучения легко
A. Повторите отрицательный образец 10 раз, чтобы получить размер выборки 10 Вт и нарушить порядок участия в классификации.
B. Прямая классификация может максимизировать использование данных
C. Случайным образом выберите 1w из 10w положительных образцов для участия в классификации.
D. Установите вес каждого отрицательного образца на 10, вес положительного образца на 1 и примите участие в процессе обучения.
Правильный ответ: АКД
Анализ: я думаю, что у меня все еще есть некоторое понимание этого произведения.
1. Передискретизация. 
A можно рассматривать как вариант передискретизации. Изменение распределения данных устраняет дисбалансы, которые могут привести к переоснащению. 
2. Недостаточная выборка. 
Схема C улучшает эффективность классификации класса меньшинства, но может потерять важную информацию класса большинства. 
Если 1:10 считать равномерным, то мажоритарный класс можно разделить на 1000 экземпляров. Затем объедините каждый с образцами класса меньшинства, чтобы получить классификатор. Затем эти 1000 классификаторов объединяются в один классификатор методом сборки. Вариант А можно рассматривать как этот метод, поэтому он относительно разумен. 
Другой: если цель состоит в том, чтобы прогнозируемое распределение соответствовало тренировочному распределению, увеличьте штрафной коэффициент за непоследовательное распределение. 
3. Регулировка веса. 
План D также является одним из способов.

Конечно, это только соответствующая обработка на наборе данных, и в алгоритме есть соответствующие методы обработки.

 

197

В задачах классификации распознавания статистических образов, когда априорная вероятность неизвестна, вы можете использовать () Machine Learning ML Basics Easy

А. Критерий минимальных потерь

Решение Б.Н.П.

C. Критерий минимальных максимальных потерь

D. Критерий минимальной вероятности ложного срабатывания

Правильный ответ: до н.э.

@Liu Xuan320, заголовок и источник анализа этого вопроса:blog.CSDN.net/column/ он…
Вариант А
В критерии минимальных потерь требуется априорная вероятность

вариант Б
При байесовском принятии решений для априорной вероятности p(y) она делится на два случая: известная и неизвестная. 
1. Если p(y) известно, вы можете напрямую использовать формулу Байеса, чтобы найти апостериорную вероятность;
2. p(y) неизвестно, поверхность решения может быть рассчитана с использованием решения Нимана-Пирсона (решение N-P). 
Решение Нимана-Пирсона (решение NP) можно резюмировать как нахождение порога a, а именно:
Если p(x|w1)/p(x|w2)>a, то x принадлежит w1;
Если p(x|w1)/p(x|w2)

вариант С
Правила максимальных и минимальных потерь в основном используются для решения задач, в которых априорная вероятность правила минимальных потерь неизвестна или ее трудно вычислить.

198 Алгоритм решения задачи прогнозирования в модели скрытой лошади () модель машинного обучения ML в
А. Прямой алгоритм
B. Обратный алгоритм
C. Алгоритм Баума-Уэлча
D. Алгоритм Витерби
Правильный ответ: Д
@Liu Xuan320, заголовок и источник анализа этого вопроса:
blog.CSDN.net/column/ он…
Алгоритм A, B: прямой, обратный алгоритм предназначен для решения задачи оценки, т. е. заданной модели, нахождения вероятности наблюдения определенной последовательности, модель последовательности используется для оценки наилучшего совпадения.
C: Алгоритм Баума-Уэлча решает проблему обучения модели, то есть оценку параметров, Это метод обучения без учителя, который в основном реализуется через итерацию EM;
D: Решение алгоритма Витерби состоит в том, чтобы дать модель и конкретную выходную последовательность, а также найти последовательность состояний, которая, скорее всего, даст этот результат. Например, наблюдение за погодой (последовательность состояний) через изменения водорослей (выходная последовательность) представляет собой проблему прогнозирования и проблему декодирования при общении.

 

199 В целом, метод ближайших соседей k-NN работает лучше в случае ( ) Machine Learning ML Model Easy
A. Образцов много, но типичность не очень хорошая
B. Образцов немного, но типичность хорошая.
C. Образец распределяется комками
D. Проба распределяется по цепочке
Правильный ответ: Б
Анализ: Алгоритм K-ближайшего соседа в основном полагается на окружающие точки, поэтому, если выборок слишком много, они должны быть неразличимы. Так что выбирай Б
Кластерная форма выборки довольно сбивает с толку. Это должно означать, что вся выборка распределена в кластерной форме, так что kNN не может использовать свое преимущество в поиске соседей. Общая выборка должна иметь хорошую типичность и меньше выборок, что более подходит .

200 Среди следующих методов методы, которые можно использовать для уменьшения размерности признаков, включают () Deep Learning DL Model Easy
А. Анализ главных компонентов PCA
B. Линейный дискриминантный анализ LDA
C. Глубокое обучение SparseAutoEncoder
D. Матричное разложение по сингулярным числам SVD
E. Метод наименьших квадратов
Правильный ответ: АВСD
Анализ: все три распространенных метода уменьшения размерности, ABD, являются линейными. Глубокое обучение — это метод уменьшения размерности, относительно новый, на самом деле, если подумать, это тоже метод уменьшения размерности, потому что, если количество нейронов в скрытом слое меньше, чем во входном слое, приведет к уменьшению размерности, но если в скрытом слое больше нейронов, чем во входном слое, это не уменьшение размерности.

201 Метод наименьших квадратов является решением линейной регрессии, которая на самом деле является проекцией, но не выполняет уменьшение размерности. Какие из перечисленных ниже алгоритмов машинного обучения основаны на ядре? () Машинное обучение ML Models Easy
A.Максимизация ожидания (EM) (алгоритм максимального ожидания)
B. Радиальная базисная функция (RBF) (радиальная базисная функция ядра)
C. Линейный дискриминационный анализ (LDA) (анализ главных компонентов)
D. Машина опорных векторов (SVM)
Правильный ответ: БКД
Анализ: функция ядра радиального базиса является очень часто используемой функцией ядра, а обычный метод анализа главных компонентов является линейным, но когда встречается нелинейность, метод ядра также может использоваться для преобразования нелинейных задач в линейные задачи. Функции ядра также очень важны, когда SVM имеют дело с нелинейными проблемами.

 

202
这里写图片描述Основы машинного обучения ML Easy这里写图片描述

203

这里写图片描述модель глубокого обучения DL
Подробнее см.:blog.CSDN.net/Snoopy_meta…

204 Каково реальное значение функции активации в нейронной сети? Какими необходимыми свойствами должна обладать функция активации? Какие еще атрибуты хороши, но не нужны? Основы глубокого обучения DL
@Hengkai Guo, источник анализа этого вопроса:Ууху. Call.com/question/67…
Позвольте мне рассказать о моем понимании хорошей функции активации, некоторые места могут быть не строгими, добро пожаловать на обсуждение. (Часть ссылки относится к функции активации.)
1. Нелинейный: то есть производная не является постоянной. Это условие было упомянуто многими предыдущими ответчиками, и оно является основой многослойной нейронной сети, которая гарантирует, что многослойная сеть не вырождается в однослойную линейную сеть. Это и есть функция активации.
2. Дифференцируемость почти всюду: Дифференцируемость гарантирует вычислимость градиентов при оптимизации. Традиционные функции активации, такие как сигмоида, везде дифференцируемы. Для кусочно-линейных функций, таких как ReLU, она дифференцируема почти везде (то есть недифференцируема только в конечном числе точек). Для алгоритма SGD, поскольку почти невозможно сходиться к положению, где градиент близок к нулю, конечные недифференцируемые точки не будут иметь большого влияния на результаты оптимизации [1].
3. Простой расчет: как сказал субъект, существует много нелинейных функций. В крайнем случае, многослойная нейронная сеть также может действовать как нелинейная функция, подобно тому, как она рассматривается как операция свертки в сети в сети [2]. Однако количество вычислений функции активации в прямом направлении нейронной сети пропорционально количеству нейронов, поэтому в качестве функции активации больше подходит простая нелинейная функция. Это одна из причин, по которой ReLU более популярен, чем другие функции активации, использующие такие операции, как Exp.
4. Насыщенность: Насыщенность относится к проблеме, когда градиент близок к нулю в некоторых интервалах (то есть градиент исчезает), поэтому параметры не могут продолжать обновляться. Наиболее классическим примером является сигмоида, производная которой близка к 0, когда x является относительно большим положительным значением и относительно небольшим отрицательным значением. Более крайним примером является ступенчатая функция, которая насыщается везде, потому что ее градиент равен 0 почти во всех положениях и не может использоваться в качестве функции активации. Производная ReLU всегда равна 1, когда x>0, поэтому она не будет насыщаться даже при больших положительных значениях. Но в то же время при x5. Монотонность: то есть знак производной не меняется. Этим свойством обладает большинство функций активации, за исключением sin, cos и т. д. Лично понимаю, что монотонность делает направление градиента в функции активации нечастым, что облегчает сходимость обучения.
6. Ограниченный выходной диапазон. Ограниченный выходной диапазон делает сеть относительно стабильной для некоторых относительно больших входных данных, поэтому в функциях ранней активации преобладают такие функции, как Sigmoid и TanH. Но это приводит к вышеупомянутой проблеме исчезающего градиента, а принудительный вывод каждого слоя в фиксированный диапазон ограничивает его выразительность. Поэтому этот тип функции используется только в некоторых случаях, когда требуется определенный выходной диапазон, например, выход вероятности (логарифмическая операция в функции потерь может компенсировать эффект исчезновения ее градиента [1]) и функция вентиля в LSTM. .
7. Приближающееся к тождественному преобразованию (тождество): т. е. примерно равное х. Преимущество этого заключается в том, что величина выходных данных не увеличивается значительно с глубиной, что делает сеть более стабильной, а градиенты могут быть более легко переданы обратно. Это немного противоречит нелинейности, поэтому функция активации в основном только частично удовлетворяет этому условию.Например, TanH имеет только линейную область вблизи начала координат (0 в начале координат и производная в начале координат равна 1), а ReLU только тогда, когда х>0 является линейным. Это свойство также упрощает получение диапазонов параметров инициализации [5][4]. Кроме того, природа этого преобразования идентичности также заимствована некоторыми другими конструкциями сетевой структуры, такими как ResNet [6] в CNN и LSTM в RNN.
8. Меньше параметров: Большинство функций активации не имеют параметров. Использование одного параметра, такого как PReLU, немного увеличивает размер сети. Другим исключением является Maxout [7].Хотя у него нет параметров, количество входных каналов, необходимых для k-канального Maxout, в k раз больше, чем у других функций с тем же количеством выходных каналов, что означает, что количество нейронов также должно быть изменено в k раз; однако, если не учитывать количество выходных каналов, функция активации может уменьшить количество параметров в k раз по сравнению с исходным.
9. Нормализация: это концепция, появившаяся недавно.Соответствующая функция активации SELU[8].Основная идея состоит в том, чтобы автоматически нормализовать распределение выборки до распределения нулевого среднего и единичной дисперсии, тем самым стабилизируя обучение. До этого эта идея нормализации также использовалась при проектировании сетевых структур, таких как пакетная нормализация [9].

использованная литература:
[1] Goodfellow I, Bengio Y, Courville A. Deep learning[M]. MIT press, 2016.
[2] Lin M, Chen Q, Yan S. Network in network[J]. arXiv preprint arXiv:1312.4400, 2013.
[3] Maas A L, Hannun A Y, Ng A Y. Rectifier nonlinearities improve neural network acoustic models[C]//Proc. ICML. 2013, 30(1).
[4] He K, Zhang X, Ren S, et al. Delving 
deep into rectifiers: Surpassing human-level performance on imagenet 
classification[C]//Proceedings of the IEEE international conference on 
computer vision. 2015: 1026-1034.
[5] Glorot X, Bengio Y. Understanding the 
difficulty of training deep feedforward neural networks[C]//Proceedings 
of the Thirteenth International Conference on Artificial Intelligence 
and Statistics. 2010: 249-256.
[6] He K, Zhang X, Ren S, et al. Deep 
residual learning for image recognition[C]//Proceedings of the IEEE 
conference on computer vision and pattern recognition. 2016: 770-778.
[7] Goodfellow I J, Warde-Farley D, Mirza M, et al. Maxout networks[J]. arXiv preprint arXiv:1302.4389, 2013.
[8] Klambauer G, Unterthiner T, Mayr A, et al. Self-Normalizing Neural Networks[J]. arXiv preprint arXiv:1706.02515, 2017.
[9] Ioffe S, Szegedy C. Batch 
normalization: Accelerating deep network training by reducing internal 
covariate shift[C]//International Conference on Machine Learning. 2015: 
448-456.

 

205 Нейронная сеть метода градиентного спуска легко сходится к локальному оптимуму, почему он широко используется? Основы глубокого обучения DL

@李振华,Ууху. Call.com/question/68…

Глубокая нейронная сеть, «легко сходящаяся к локальному оптимуму», вероятно, является выдумкой. Реальность такова, что мы можем никогда не найти «локальный оптимум», не говоря уже о глобальном оптимуме.

У многих людей есть мнение, что «локальная оптимизация является основной трудностью в оптимизации нейронной сети». Это происходит от интуитивного воображения задач одномерной оптимизации. В случае одномерной оптимизации наиболее интуитивно понятная сложность задачи оптимизации состоит в том, что существует множество локальных экстремумов, таких как

Люди интуитивно представляют, что таких локальных экстремумов будет больше и экспоненциально увеличится в высоких измерениях, поэтому оптимизировать до глобального оптимума сложнее. Однако важное различие между одномерной и многомерной матрицей заключается в том, что когда она одномерная, матрица Гессе имеет только одно собственное значение, поэтому независимо от того, положительный или отрицательный знак этого собственного значения, критическая точка является локальным экстремальным значением. Однако, когда есть несколько переменных, гессиан имеет несколько разных собственных значений.В это время каждое собственное значение может иметь более сложное распределение, такое как положительное и отрицательное неопределенное и несколько вырожденных собственных значений (нулевых собственных значений) полустереотип

В последних двух случаях трудно найти локальный экстремум, не говоря уже о глобальном оптимуме.

Теперь кажется, что сложность обучения нейронных сетей в основном связана с проблемой седловых точек. На практике мы, вероятно, никогда не сталкивались с локальными экстремумами. Bengio group в этой статье Собственные значения гессиана в глубоком обучении (АР Вест V.org/ABS/1611.07…

• Обучение останавливается в точке с небольшим градиентом, норма градиента не равна нулю, поэтому технически говоря, он не сходится к критической точке.
• По-прежнему существуют отрицательные собственные значения, даже если они малы по величине.

С другой стороны, хорошая новость заключается в том, что даже если есть локальные экстремумы, поле притяжения локальных экстремумов с плохими потерями невелико.На пути к пониманию обобщения глубокого обучения: перспектива ландшафтов потерь. (АР Вест V.org/ABS/1706.10…

For the landscape of loss function for deep networks, the volume of basin of attraction of good minima dominates over that of poor minima, which guarantees optimization methods with random initialization to converge to good minima.

Так вот, очень вероятно, что мы фактически остановили обучение, когда «ничего не было найдено», а затем попробовали на тестовом наборе: «Эй, эффект неплохой».

Добавляется, что это результаты экспериментальных исследований. Теоретически, при различных предположениях, количество седловых точек в Ландшафте глубоких нейронных сетей увеличивается экспоненциально, а локальных экстремумов с плохими потерями очень мало.

 

207 Пожалуйста, сравните алгоритм EM, HMM и CRF. модель машинного обучения машинного обучения

Не очень уместно ставить эти три вместе, но они связаны друг с другом, поэтому я соединил их здесь. Обратите внимание на идею сосредоточиться на алгоритме. 
(1) ЭМ-алгоритм
Алгоритм ЕМ используется для оценки максимального правдоподобия или максимальной апостериорной оценки моделей со скрытыми переменными и состоит из двух шагов: Е-шаг для ожидания и М-шаг для максимизации. По сути, алгоритм EM по-прежнему является итеративным алгоритмом, и текущие переменные вычисляются путем непрерывного использования параметров предыдущего поколения для оценки скрытых переменных до сходимости. 
Примечание. Алгоритм EM чувствителен к начальному значению, и EM — это алгоритм, который непрерывно решает аппроксимацию максимизации нижней границы для решения максимизации функции логарифмического правдоподобия, то есть алгоритм EM не может гарантировать нахождение глобальное оптимальное значение. Следует также освоить метод экспорта ЭМ. 
(2) Алгоритм НММ
Скрытые марковские модели — это генеративные модели для маркировки задач. Имеется несколько параметров (π, A, B): вектор вероятности начального состояния π, матрица перехода состояния A, матрица вероятности наблюдения B. Есть три элемента, называемые марковской моделью. 
Три основные проблемы Маркова:

  • Задача расчета вероятности: учитывая модель и последовательность наблюдений, вычислить вероятность выхода последовательности наблюдений в соответствии с моделью. – «Алгоритм прямого-обратного
  • Задача обучения: знать последовательность наблюдений, оценить параметры модели, то есть использовать оценку максимального правдоподобия для оценки параметров. – «Баум-Уэлч (то есть алгоритм EM) и оценка максимального правдоподобия.
  • Задача прогнозирования: узнайте модель и последовательность наблюдений и решите соответствующую последовательность состояний. – «Аппроксимационный алгоритм (жадный алгоритм) и алгоритм Вибита (динамическое программирование для поиска оптимального пути)

(3) Условное случайное поле CRF
Плотность условного распределения вероятностей набора выходных случайных величин при заданном наборе входных случайных величин. Условное случайное поле предполагает, что выходная переменная представляет собой марковское случайное поле, а то, что мы обычно видим, представляет собой случайное поле с линейной цепью, то есть дискриминантную модель, которая предсказывает выход на основе входа. Метод решения - оценка максимального правдоподобия или регуляризованная оценка максимального правдоподобия. 
Причина, по которой HMM и CRF всегда сравнивают, заключается главным образом в том, что и CRF, и HMM используют знания о графах, но CRF использует марковские случайные поля (неориентированные графы), а HMM основан на байесовских сетях (с диаграммой). И CRF также имеет: проблемы расчета вероятности, проблемы обучения и проблемы прогнозирования. Приближенный метод расчета аналогичен HMM, за исключением того, что алгоритм EM не требуется для задачи обучения.

(4) Сравнение HMM и CRF
Принципиально то, что базовые понятия разные, одно — порождающая модель, другое — дискриминационная модель, что также приводит к разным решениям. 

Несколько моделей, обычно используемых в CNN. модель глубокого обучения DL

название Функции
LeNet5 Ничего особенного - просто первый CNN, который вы должны знать
AlexNet Введены ReLU и отсев, введено улучшение данных и объединение в пул для покрытия друг друга, три свертки, одно максимальное объединение + три полносвязных слоя.
VGGNet Использование ядер свертки 1 * 1 и 3 * 3 и максимального объединения 2 * 2 увеличивает количество слоев. Обычно используемые VGGNet-16 и VGGNet19
Google Inception Net При контроле количества вычислений и параметров это обеспечивает лучшую производительность классификации.По сравнению с предыдущим, есть несколько основных улучшений: 1. Последний полносвязный слой удален, и вместо него используется пул глобального среднего значения; 2 , Представьте начальный модуль, который представляет собой комбинацию из 4 ветвей. Во всех ветвях используется свертка 1*1, потому что 1*1 экономически эффективна и может обеспечить нелинейность и преобразование признаков с небольшим количеством параметров. 3. Вторая версия Inception V2 превращает все 5 * 5 в 2 3 * 3 и предлагает знаменитую пакетную нормализацию 4. Третья версия Inception V3 еще более ненормальна, разделяя большую двумерную свертку. одномерные свертки, которые ускорили работу, уменьшили переобучение, а также изменили структуру начального модуля.
Остаточная нейронная сеть Microsoft ResNet 1. Введение структуры шоссе может сделать нейронную сеть очень глубокой 2. Вторая версия ResNet превращает функцию активации ReLU в линейную функцию от y=x

 

208 Почему SVM с ядром может классифицировать нелинейные задачи?
Суть функции ядра заключается в скалярном произведении двух функций, и эту функцию можно представить как многомерное отображение на входное значение в SVM. Обратите внимание, что ядро ​​​​не соответствует напрямую отображению, ядро ​​​​является просто внутренним продуктом. Общая функция ядра и условия функции ядра:
Выбор функции ядра следует начинать с линейного ядра, а в случае многих признаков не обязательно выбирать ядро ​​Гаусса, а модель следует выбирать от простого к сложному. Функция ядра, на которую мы обычно ссылаемся, является положительно определенной функцией суммы.Необходимым и достаточным условием является то, что для любого x, принадлежащего X, матрица Грама, соответствующая K, должна быть полуположительно определенной матрицей.
Радиальный базис ядра RBF, значение этого типа функции зависит от расстояния между конкретными точками, поэтому ядро ​​Лапласа фактически является ядром радиального базиса.
Линейное ядро: в основном используется для линейно разделимых случаев.
полиномиальное ядро

Повышение и Бэггинг

(1) Случайный лес
Случайные леса изменяют проблему склонности деревьев решений к переоснащению, которая в основном оптимизируется с помощью двух операций:

1) Boostrap вытягивает выборочные значения из мешка с заменой

2) Определенное количество признаков (обычно sqr(n)) каждый раз выбирается случайным образом. 
Проблема классификации: используйте голосование по бэггингу, чтобы выбрать категорию с наибольшей частотой
Проблема регрессии: прямое получение среднего значения результатов каждого дерева.

Общие параметры Анализ ошибок преимущество недостаток
1. Максимальная глубина дерева 2. Количество деревьев 3. Минимальное количество выборок на узле 4. Количество признаков (sqr(n)) oob(out-of-bag) использует выборки без выборки каждого дерева в качестве прогнозируемой статистической ошибки выборки в качестве коэффициента ошибочной классификации. Можно выполнять параллельные вычисления Нет необходимости в выборе функций Можно суммировать важность функций Можно обрабатывать отсутствующие данные Нет необходимости разрабатывать дополнительные наборы тестов Невозможно вывести непрерывные результаты регрессии

(2) AdaBoost усиления
Суть Boosting на самом деле заключается в аддитивной модели, которая изучает несколько классификаторов, изменяя веса обучающих выборок и выполняя некоторые линейные комбинации. Adaboost — это аддитивная модель + экспоненциальная функция потерь + алгоритм априорного распределения. Adaboost — это повторное обучение от слабого классификатора, в котором вес данных или распределение вероятностей постоянно корректируются, и одновременно увеличивается вес выборок, неправильно классифицированных слабым классификатором в предыдущем раунде. Наконец, классификатор используется для голосования (но важность классификатора другая). 
(3) GBDT бустинга
Превратите базовый классификатор в двоичное дерево, двоичное дерево регрессии для регрессии и двоичное дерево классификации для классификации. По сравнению с приведенным выше Adaboost, функция потерь дерева регрессии представляет собой квадратную потерю, а экспоненциальная функция потерь также может использоваться для определения проблем классификации. Но как рассчитать общую функцию потерь? GBDT (Gradient Boosting Decision Tree) предназначен для решения задачи оптимизации общей функции потерь с использованием отрицательного градиента функции потерь при значении текущей модели для имитации аппроксимации остатка в задаче регрессии. 
Примечание. Поскольку GBDT склонен к переоснащению, рекомендуемая глубина GBDT не должна превышать 6, а случайный лес может быть выше 15. 

(4) XgBoost
Этот инструмент имеет следующие основные функции:

  • Поддержка линейных классификаторов
  • Функцию потерь можно настроить, и можно использовать частную производную второго порядка.
  • Добавлен термин регуляризации: количество листовых узлов, L2-норма выходного балла каждого листового узла.
  • Выборка функций поддержки
  • При определенных обстоятельствах поддерживается параллелизм, который используется только на этапе построения дерева, и каждый узел может искать функции разделения параллельно.

Проблемы, связанные с логистической регрессией

(1) Вывод формулы должен уметь

(2) Основная концепция логистической регрессии
Это лучше всего анализировать с точки зрения обобщенной линейной модели.Логистическая регрессия предполагает, что y следует распределению Бернулли.

(3) L1-норма и L2-норма
На самом деле фундаментальная причина разреженности заключается в том, что L0-норма, то есть количество прямых статистических параметров, не равных 0, используется как правило, но на самом деле это непросто реализовать, поэтому L1-норма введено, а L1-норма по существу предполагает, что параметр априори подчиняется распределению Лапласа, а L2-норма предполагает, что априорный параметр является распределением Гаусса, Это принцип, по которому мы обычно используем изображения, чтобы ответить на этот вопрос в Интернете. 
Однако решение L1-нормы сложнее и может быть решено методом спуска по координатной оси или методом наименьшего угла регрессии.

(4) Сравнение LR и SVM
Прежде всего, самая большая разница между LR и SVM заключается в выборе функции потерь, Функция потерь LR — это логарифмическая потеря (или логическая потеря), а функция потерь SVM — потеря шарнира. 

Во-вторых, обе являются линейными моделями. 
Наконец, SVM рассматривает только опорные векторы (то есть небольшое количество точек, связанных с классификацией).
(5) Разница между LR и случайным лесом
Алгоритмы дерева, такие как случайный лес, нелинейны, а LR — линейны. LR больше фокусируется на глобальной оптимизации, тогда как древовидная модель — это в основном локальная оптимизация. 
(6) Обычно используемые методы оптимизации
Саму логистическую регрессию можно решить по формуле, но поскольку сложность инверсии слишком высока, вводится алгоритм градиентного спуска. 
Методы первого порядка: градиентный спуск, стохастический градиентный спуск, мини стохастический градиентный спуск. Стохастический градиентный спуск не только быстрее, чем исходный градиентный спуск, но и может в определенной степени подавлять появление локальных оптимальных решений в задачах локальной оптимизации. 
Метод второго порядка: метод Ньютона, квазиньютоновский метод:
Вот подробное описание основных принципов метода Ньютона и применения метода Ньютона. Фактически, метод Ньютона заключается в постоянном обновлении позиции касательной через пересечение касательной и оси X до тех пор, пока пересечение кривой и оси X не достигается для получения раствора уравнения. В практических применениях нам часто нужно решать проблемы с выпуклой оптимизацией, то есть для решения позиции, когда первое производное функции равно 0, а метод Ньютона может обеспечить решение этой проблемы. В практических приложениях метод Ньютона впервые выбирает точку в качестве отправной точки, и выполняет расширение Taylor второго порядка, чтобы получить точку с производным 0 для обновления, пока требования не будут выполнены. В настоящее время метод Ньютона становится вторым - задача решения для решения, которая более эффективна, чем решение первого порядка. Метод быстрее. X Мы часто видим, обычно это многомерный вектор, который приводит к понятию гессианской матрицы (то есть второй производной матрицы X). Недостатки: метод Ньютона - это итерация с фиксированной длиной и не имеет никакого шагового фактора, поэтому он не может гарантировать устойчивое снижение функционального значения и даже не удается в тяжелых случаях. Кроме того, метод Ньютона требует, чтобы функция была дерьмами второго порядка. И обратная сложность расчета гессианской матрицы очень велика. 
牛 顿 法: Метод аппроксимации положительной симметричной матрицы матрицы ГЕССИАН построен, упоминается как Johon Monament. Идея игры в метод Ньютона состоит в том, чтобы использовать специальную форму выражения для имитации матрицы ГЕССИАНА или его обратной формы, чтобы выражение удовлетворяло расчету Ньютона. В основном это методы DFP (аппроксимация HESSION), BFGS (непосредственно приближается к матрице HESSION), L-BFGS (может уменьшить объем памяти, необходимый для BFGS).

 

209 Объясните принцип отсева с помощью байесовской вероятности

@Сюй Хань, источник:zhuanlan.zhihu.com/p/25005808

Dropout as a Bayesian Approximation: Insights and Applications

(Марокко CAM.AC.UK/ARI YOU/PDF IS/…

Почему многие лица, делающие лицо, в конце концов присоединяются к локальной подключенной беседе?

@Сюй Хань, источник:zhuanlan.zhihu.com/p/25005808

Возьмите FaceBook DeepFace в качестве примера:

Сначала DeepFace выполнил две полные свертки + одну пулинг для извлечения низкоуровневых элементов краев/текстур. Следуют три слоя Local-Conv.Причина использования Local-Conv здесь заключается в том, что лицо имеет разные черты в разных областях (положение распределения глаз/носа/рта относительно фиксировано), когда нет глобального локального признака При распределении , Local-Conv больше подходит для извлечения признаков.

 

210 Что такое коллинеарность и как она связана с переоснащением?

@abstractmonkey, источник:Ууху. Call.com/question/41…

Коллинеарность: в многомерной линейной регрессии оценка регрессии неточна из-за высокой корреляции между переменными.

Коллинеарность создает избыточность, что приводит к переоснащению.

Решение: исключить корреляцию переменных/добавить весовую регуляризацию.

 

211 Почему можно избежать плохих локальных оптимумов, когда сеть достаточно глубокая (с достаточным количеством нейронов)?

См.: Поверхности потерь многоуровневых сетей (АР Вест V.org/PDF/1412.02…

 

212 положительных и отрицательных образцов в машинном обучении

В задаче классификации эту проблему относительно легко понять.Например, в примере распознавания лиц легко понять положительный образец, который является изображением лица.Выбор отрицательного образца связан с проблемой В частности, если вы хотите сделать для распознавания лиц учащихся в классе, отрицательными образцами являются окна, стены и т. д. класса, то есть это не может быть грязное изображение сцены, которое не имеет ничего общего с проблемой, которую вы хотите изучить.Такие отрицательные образцы бессмысленны. Отрицательные образцы можно генерировать на основе фона, иногда нет необходимости искать дополнительные отрицательные образцы. Как правило, для обучения 3000–10000 положительных образцов требуется 5 000 000–100 000 000 отрицательных образцов.В поле взаимного золота положительные и отрицательные отношения обычно корректируются до 3: 1–5: 1 путем выборки перед входом в модель.

 

213 Какие существуют инженерные методы для выбора признаков в машинном обучении?

Данные и функции определяют верхний предел машинного обучения, а модели и алгоритмы лишь приближаются к этому верхнему пределу.

1. Рассчитайте корреляцию каждой характеристики и переменной отклика: обычно используемые инженерные средства рассчитывают коэффициенты Пирсона и факторы взаимной информации, а коэффициент Пирсона может измерять только линейную корреляцию, а коэффициенты взаимной информации могут иметь различную значимость.Однако расчет является относительно сложным, поэтому во многих инструментах, содержащих этот инструмент (например, Sklearn's Mine), вы можете сортировать характеристики выбора после получения релевантных;

2. Построить модель одного признака и отсортировать признаки по точности модели, тем самым отобрав признаки;

3. Выберите признаки по регулярному члену L1: Регулярный метод L1 имеет характеристики разреженного решения, поэтому он, естественно, имеет характеристики выбора признаков, но следует отметить, что признаки, не выбранные L1, не означают, что они не важны. , так как эти две функции имеют высокую корреляцию. Функция может сохранить только одну функцию, если вы хотите определить, какая функция важна, вы должны пройти перекрестную проверку обычным методом L2 *;

4. Обучение предварительно выбранной модели, которая может оценивать функции: RandomForest и логистическая регрессия могут оценивать функции модели, а затем обучать окончательную модель после получения корреляции посредством оценки;

5. Выберите функции после комбинации функций: например, идентификатор пользователя и пользовательские функции наиболее сочетаются для получения большего набора функций, а затем выбирают функции. Этот подход более распространен в рекомендательных системах и рекламных системах. Это также называется миллиардом или даже десять.Основным источником признаков уровня миллиарда является то, что пользовательские данные относительно разрежены, а комбинированные признаки могут учитывать как глобальную модель, так и персонализированную модель.Есть возможность расширить этот вопрос.

6. Выбор функций с помощью глубокого обучения: в настоящее время этот метод становится методом с популярностью глубокого обучения, особенно в области компьютерного зрения, поскольку глубокое обучение имеет возможность автоматически изучать функции, что также является причиной этого. называется неконтролируемым изучением признаков. После выбора функций нейронного слоя из модели глубокого обучения его можно использовать для обучения окончательной целевой модели.

 

214 В n-мерном пространстве лучший способ обнаружить выбросы — это () Machine Learning Основы машинного обучения Easy
A. Создайте карту вероятностей нормального распределения
B. Сделайте блок-схему
C. Расстояние Махаланобиса
D. Сделайте точечную диаграмму
Ответ: С

Расстояние Махаланобиса — это статистический метод измерения многомерных выбросов, основанный на распределении хи-квадрат.

Иметь M образцы к х1 ~ XM,ковариационная матрицаОбозначается как S, среднее значение обозначается как вектор μ, тогда расстояние Махаланобиса от выборочного вектора X до u выражается как:

(Каждый элемент в ковариационной матрице представляет собой ковариацию Cov(X,Y) между каждым элементом вектора, Cov(X,Y) = E{[XE(X)] [YE(Y)]}, где E — математический Ожидание)

А расстояние Махаланобиса между векторами Xi и Xj определяется как:

Если ковариационная матрица представляет собой единичную матрицу (независимую и одинаково распределенную между каждым вектором выборки), формула принимает вид:

Это евклидово расстояние.​

Если ковариационная матрица - это диагональная матрица, формула становится нормализованной евклидовой дистанцией.

(2) Преимущества и недостатки расстояния Махаланобиса: размерность не имеет значения, а помехи корреляции между переменными исключены. 

Для получения дополнительной информации см.:здесьи"различные расстояния".

 

215 В чем разница между логистической регрессией и общим регрессионным анализом? Основы машинного обучения ML Easy
A. Логарифмическая регрессия шансов предназначена для прогнозирования вероятности события.
B. Логарифмическую регрессию шансов можно использовать для измерения того, насколько хорошо модель подходит
C. Логарифмическая регрессия шансов может использоваться для оценки коэффициентов регрессии.
Д. Все вышеперечисленное
Ответ: Д
А: Этоэта статьяКак уже упоминалось, логарифмическая регрессия шансов на самом деле предназначена для решения проблем классификации.
B: Логарифмическую регрессию шансов можно использовать для проверки соответствия модели данным.
C: Хотя логарифмическая регрессия вероятности используется для решения задач классификации, после создания модели соответствующие коэффициенты регрессии могут быть оценены на основе независимых признаков. Насколько я думаю, это только оценка коэффициента регрессии, и ее нельзя использовать напрямую в качестве регрессионной модели.

 

216 Что означают данные начальной загрузки? (Подсказка: проверьте разницу между «начальной загрузкой» и «бустированием»). Модели машинного обучения ML Easy
A. Выборка m признаков из общего числа M признаков с заменой
B. Выборка m признаков из общего числа M признаков без замены
C. Выборка n проб из общего количества N проб с заменой
D. Отберите n образцов из общего количества N образцов без замены.
Ответ: Ц. Boostrap означает бутстрапирование обуви (автор романов о боевых искусствах сказал, что левая нога наступает на правую ногу и освобождается). Его процесс заключается в выборке образцов (а не признаков) с заменой, и количество образцов равно общее количество выборок Этот процесс случайной выборки определяет окончательную выборку, которая после удаления дубликатов занимает 1/e исходной выборки.

 

217 «Переобучение» появляется только при обучении с учителем, при обучении без учителя «переобучение» отсутствует () Machine Learning ML Foundation Easy
А. да
Б. неправильно
Ответ: Б
Мы можем оценить неконтролируемые методы обучения с помощью показателей неконтролируемого обучения, таких как: мы можем оценить модели кластеризации, изменив рандомную оценку (скорректированную рандомную оценку)

 

218 Для k-кратной перекрестной проверки следующее утверждение о k верно () Machine Learning ML Fundamentals Easy
О. Большее k не обязательно лучше, выбор большого k увеличит время оценки.
B. Выберите большее k, будет меньшее смещение (поскольку обучающий набор ближе к общему набору данных)
C. При выборе k, чтобы минимизировать дисперсию между наборами данных
Д. Все вышеперечисленное
Ответ: Д
Чем больше BIAS, тем меньше время обучения.При обучении необходимо учитывать принцип различий в наборах данных.Например, для двух типов задач классификации используйте 2-Fold для подтверждения, является ли тестовый набор данных классом А, а обучение централизованных данных относится к классу Б, очевидно, что эффект теста будет плохим.
Если вы не понимаете концепции BIAS и Variance, обязательно перейдите по ссылке ниже:
Gentle Introduction to the Bias-Variance Trade-Off in Machine Learning
Understanding the Bias-Variance Tradeoff

 

219 В регрессионной модели присутствует мультиколлинеарность. Как решить эту проблему? модель машинного обучения машинного обучения
A. Удалите две коллинеарные переменные
B. Мы можем сначала удалить коллинеарную переменную
C. Рассчитайте VIF (коэффициент инфляции дисперсии) и примите соответствующие меры
D. Чтобы избежать потери информации, мы можем использовать некоторые методы регуляризации, такие как гребенчатая регрессия и лассо-регрессия.
Какие из следующих утверждений верно:
A. 1
B. 2
С. 2 и 3
Д. 2, 3 и 4
Ответ: Д
Чтобы решить множественную общую линейность, вы можете использовать матрицу корреляции для удаления переменных с корреляцией выше 75% (с субъективными компонентами).Вы также можете использовать VIF, если значение VIF = 10 указывает на более высокую корреляцию.
Мы также можем использовать методы регрессии гребня и регрессии лассо со штрафными регулярными членами Мы также можем добавить случайный шум к некоторым переменным, чтобы сделать переменные разными, но этот метод следует использовать осторожно, что может повлиять на эффект прогнозирования.

 

Что означает высокое смещение на модели 220 и как мы можем его уменьшить? Основы машинного обучения ML Easy
A. Уменьшение признаков в пространстве признаков
B. Добавьте функции в пространство функций
C. Добавьте точки данных
ДБ и С
Е. Все вышеперечисленное
Ответ: Б
Если смещение слишком велико, модель слишком проста, размерность данных недостаточна, и данные нельзя точно предсказать, поэтому давайте увеличим размерность!

 

221 Модель дерева решений обучения, разделение узлов атрибутов, какой из следующих графиков является графиком с наибольшим приростом информации () модель машинного обучения ML легко

A. Outlook
B. Humidity
C. Windy
D. Temperature
Ответ: Прирост информации, увеличение средней чистоты подмножества, для подробного изучения, пожалуйста, нажмите на ссылку ниже:
A Complete Tutorial on Tree Based Modeling from Scratch (in R & Python)
Lecture 4 Decision Trees (2): Entropy, Information Gain, Gain Ratio

 

222 Для получения информации, узлы разделения дерева решений, следующее утверждение верно () модель машинного обучения ML легко
A. Узлы с высокой степенью чистоты нуждаются в большем количестве информации, чтобы отличить
B. Прирост информации может быть получен с «1-битной энтропией».
C. Если атрибут выбран со многими категориальными значениями, то этот прирост информации смещен.
A. 1
B. 2
С.2 и 3
Д. Все вышеперечисленное
Ответ: С
Для подробного исследования, пожалуйста, нажмите на ссылку ниже:
A Complete Tutorial on Tree Based Modeling from Scratch (in R & Python)
Lecture 4 Decision Trees (2): Entropy, Information Gain, Gain Ratio

 

223 Если модель SVM не соответствует требованиям, какой из следующих методов может улучшить модель () в моделях машинного обучения ML
A. Увеличьте значение параметра штрафа C
B. Уменьшить значение параметра штрафа C
C. Уменьшить коэффициент ядра (гамма-параметр)
@David 9, источник анализа этого вопроса:No Over Fit.com/i'M боится / 12-% E6% 9 ...
A Если модель SVM не подходит, мы можем увеличить значение параметра C, чтобы увеличить сложность модели.В LibSVM целевая функция SVM:

Однако параметр гаммы — это параметр, который приходит с радиальной базисной функцией после того, как вы выбираете радиальную базисную функцию в качестве ядра.Он неявно определяет распределение данных после сопоставления с новым пространством признаков.
Параметр гаммы не имеет ничего общего с параметром C. Чем выше параметр гаммы, тем сложнее модель. 

 

224 На следующем рисунке представлена ​​та же модель SVM, но используются гамма-параметры различных радиальных базисных функций ядра в порядке g1, g2, g3. Правильный размер:

A. g1 > g2 > g3
B. g1 = g2 = g3
C. g1 < g2 < g3
D. g1 >= g2 >= g3E. g1 <= g2 <= g3
Ответ: C см. вопрос Q10.

 

225 Предположим, мы хотим решить задачу двухклассовой классификации, мы уже установили модель, выходной сигнал равен 0 или 1, а пороговое значение изначально установлено на 0,5, если оценка вероятности превышает 0,5, она оценивается как 1, в противном случае он оценивается как 0; если мы теперь с другим порогом больше 0,5, то правильное утверждение о модели теперь:
A. Скорость отзыва модели классификации будет уменьшена или останется неизменной
B. Скорость отзыва модели классификации будет увеличиваться
C. Точность классификации модели увеличится или останется неизменной
D. Точность классификации модели будет снижена
A. 1
B. 2
С.1 и 3
Д. 2 и 4
Е. Ничего из вышеперечисленного
Ответ: С
В этой статье описывается влияние порогов на точность и полноту:
Критерии разделения достоверности могут повысить точность и полноту в классификаторах случайного леса «Проблема CTR» — это такая проблема прогнозирования, что 99% людей не нажмут, а 1% людей нажмут, так что это очень сложный сбалансированный набор данных.

 

226 Предположим, теперь, когда мы построили модель для классификации и с точностью предсказания 99%, мы можем заключить, что:
A. Точность предсказания модели уже очень высока, нам не нужно ничего делать
B. Точность предсказания модели невысока, нам нужно что-то сделать, чтобы улучшить модель
C. Неспособность делать выводы
Д. Ничего из вышеперечисленного
Ответ: Б
Точность предсказания 99% может означать, что ваши прогнозы точны для людей, которые не кликнули (поскольку 99% людей не кликнут, что является хорошим прогнозом). Это не означает, что ваша модель предсказывает людей, которые кликнут. , поэтому для такого несбалансированного набора данных мы хотим сосредоточиться на небольшой части данных, на людях, которые нажимают на него.
Для получения дополнительной информации, пожалуйста, обратитесь к этой статье: статья

 

227 Используя алгоритм knn с k = 1, задачу классификации двух классов на рисунке ниже, «+» и «o» представляют два класса соответственно, затем, используя метод перекрестной проверки, который берет только один тестовый образец, что частота ошибок перекрестной проверки? :

A. 0%
B. 100%
С. от 0% до 100
D. Ничто из вышеперечисленного не является ответом: B
Алгоритм knn заключается в просмотре k выборок вокруг выборки, большинство из которых классифицируются как класс A, и мы делим выборку на класс A. Очевидно, что knn с k=1 не является хорошим выбором на приведенном выше рисунке, классификация процент ошибок всегда 100%

 

228 Мы хотим обучить дерево решений на большом наборе данных, чтобы использовать меньше времени, мы можем:
A. Увеличьте глубину дерева
B. Увеличьте скорость обучения
C. Уменьшить глубину дерева
D. Уменьшить количество деревьев
Ответ: С
Увеличение глубины дерева приведет к тому, что все узлы будут продолжать разбиваться до тех пор, пока листовые узлы не станут чистыми, поэтому увеличение глубины продлит время обучения.

229 В дереве решений нет параметра скорости обучения для настройки (в отличие от ансамблевого обучения и других методов обучения с размером шага).
Дерево решений имеет только одно дерево, а не случайный лес.

Что касается утверждения нейронной сети, верно следующее:
1. Увеличение количества слоев нейронной сети может увеличить частоту ошибок классификации набора тестовых данных.
2. Уменьшение количества слоев нейронной сети всегда может снизить частоту ошибок классификации набора тестовых данных.
3. Увеличение количества слоев нейронной сети всегда может снизить частоту ошибок классификации набора обучающих данных.
A. 1
Б. 1 и 3
С. 1 и 2
D. 2
Ответ: А
Успех глубоких нейронных сетей доказал, что увеличение количества слоев нейронной сети может повысить способность модели к обобщению, то есть как набор обучающих данных, так и набор тестовых данных работают лучше.Однако большее количество слоев не обязательно гарантирует, что есть лучшая производительность (АР Вест V.org/PDF/1512.03….Поэтому нельзя стопроцентно сказать, что количество слоев хорошо или плохо, можно только выбрать A

 

230 Если мы используем нелинейно разделимую целевую функцию SVM в качестве объекта оптимизации, как мы можем гарантировать, что модель является линейно разделимой?
А. Пусть С=1
Б. Пусть С=0
C. Пусть C=бесконечность
Д. Ничего из вышеперечисленного
Ответ: С
C бесконечность гарантирует, что всякая линейная неразделимость допустима.

После обучения модели SVM мы можем отбросить те выборки, которые не являются опорными векторами, либо продолжить классификацию:
А. Правильно
Б. Ошибка
Ответ: А

231 В модели SVM на границу решения действительно влияет опорный вектор

Какой из следующих алгоритмов можно построить с помощью нейронных сетей:
1. KNN
2. Линейная регрессия
3. Логарифмическая регрессия шансов
А. 1 и 2
Б. 2 и 3
С. 1, 2 и 3
Д. Ничего из вышеперечисленного
Ответ: Б
1. Алгоритм KNN не требует параметров обучения, а все нейронные сети требуют параметров обучения, поэтому нейронная сеть не может помочь
2. Простейшая нейронная сеть, персептрон, на самом деле является обучением линейной регрессии.
3. Мы можем построить логарифмическую регрессию вероятности с помощью однослойной нейронной сети.

 

232 Выберите один из вариантов ниже, чтобы применить скрытую марковскую модель (HMM):
A. Наборы данных последовательности генов
B. Набор данных просмотра фильмов
C. Набор данных фондового рынка
Д. Все вышеперечисленное
Ответ: Д
Пока это связано с проблемами временных рядов, вы можете попробовать HMM

 

233 Мы строим модель машинного обучения с функциями 5000 и данными 1 млн. Как мы можем эффективно справляться с обучением таким большим данным:
A. Мы случайным образом выбираем несколько образцов и тренируемся на этих небольших образцах.
B. Мы можем попробовать онлайн-алгоритмы машинного обучения
C. Мы применяем алгоритм PCA, чтобы уменьшить размерность и количество признаков.
ДБ и С
Е. А и Б
F. Все вышеперечисленное
Ответ: Ф

 

234 Мы хотим уменьшить количество признаков в наборе данных, т. е. уменьшить размерность.Выберите один из следующих вариантов:

1. Используйте метод прямого выбора функции
2. Используйте исключение обратной функции
3. Сначала мы используем все функции для обучения модели и получаем производительность на тестовом наборе.Затем мы удаляем функцию, переходим к обучению и используем перекрестную проверку, чтобы увидеть производительность на тестовом наборе.Если производительность лучше чем оригинал, мы можем удалить эту функцию.
4. Посмотрите на таблицу корреляции и удалите некоторые функции с самой высокой корреляцией.
А. 1 и 2
Б. 2, 3 и 4
С. 1, 2 и 4
D. All

Ответ: Д
1. Метод прямого выбора признаков и метод обратного исключения признаков являются нашими общими методами выбора признаков.
2. Если метод выбора прямого признака и метод исключения обратного признака не подходят для больших данных, здесь можно использовать третий метод.
3. Это также хороший способ использовать меру корреляции для удаления избыточных признаков.
все буквы Д правильные

 

235 Для Random Forests и GradientBoosting Trees верно следующее утверждение:
1. В случайном пущем одно дерево дерево и между деревьями зависят от деревьев, среди градиентных деревьев в дереве не зависит от человека.
2. Обе модели используют случайные подмножества признаков для создания множества отдельных деревьев.
3. Мы можем генерировать одно дерево GradientBoosting Trees параллельно, потому что между ними нет зависимости, производительность модели обучения GradientBoosting Trees всегда лучше, чем у случайного леса.
A. 2
B. 1 and 2
C. 1, 3 and 4
D. 2 and 4

Ответ: А
1. Random forest основан на бэггинге, а Gradient Boosting tree основан на бустинге.Все говорят наоборот.В одном дереве random forest нет зависимости между деревьями и деревьями, а между одним деревом в GradientBoosting Trees является зависимостью.
2. Обе модели используют случайные подмножества признаков для создания множества отдельных деревьев.
Все буквы А правильные

 

236 Для преобразованных признаков методом PCA (анализ основных компонентов) «допущение независимости» Наивного Байеса всегда выполняется, поскольку все главные компоненты ортогональны, это утверждение выглядит следующим образом:
А. Правильно
Б. неправильно
Ответ: Б.
Это утверждение неверно, во-первых, "не зависимый" и "не связанный" - разные вещи, во-вторых, преобразованные признаки тоже могут быть связаны

 

237 Правильное утверждение о PCA:
1. Мы должны нормализовать данные перед использованием PCA
2. Мы должны быть выбраны так, что модель имеет максимальную дисперсию основного компонента
3. Мы должны выбрать главные компоненты, которые обеспечивают наименьшую дисперсию модели.
4. Мы можем использовать PCA для визуализации данных в низком измерении.
A. 1, 2 and 4
B. 2 and 4
C. 3 and 4
D. 1 and 3
E. 1, 3 and 4
Ответ: А
1) PCA очень чувствителен к масштабу данных, например, если изменить единицу измерения с км на см, такой масштаб данных может оказать большое влияние на конечный результат PCA (от менее важных компонентов к очень важным компонентам).
2) Мы всегда должны выбирать главные компоненты, благодаря которым модель имеет наибольшую дисперсию.
3) Иногда левое изображение нуждается в помощи уменьшения размерности PCA в малых размерах

 

238 Какой из главных компонентов лучше всего выбрать для следующего рисунка? :

q26_image4

A. 7

B. 30

C. 35

Д. Не могу сказать

Ответ: Б

  • Выбор главных компонент делает дисперсию максимально возможной, и согласно этой предпосылке, чем меньше главных компонентов, тем лучше.

 

239 Исследователи данных могут использовать несколько алгоритмов (моделей) для одновременного прогнозирования и, наконец, интегрировать результаты этих алгоритмов для получения окончательного прогноза (обучение ансамблем).Следующие утверждения об обучении ансамблем верны:

А. Высокая корреляция между отдельными моделями

B. Низкая корреляция между отдельными моделями

C. Было бы лучше использовать «средние веса» вместо «голосования» в ансамблевом обучении.

D. Для каждой модели используется единый алгоритм

Ответ: Б

 

240 Как мы используем методы кластеризации в обучении с учителем? :

О. Мы можем сначала создать кластерные категории, а затем использовать контролируемое обучение для изучения каждой категории отдельно.

B. Мы можем использовать «идентификатор категории» кластера в качестве нового элемента функции, а затем использовать контролируемое обучение для отдельного обучения.

C. Мы не можем создавать новые кластерные категории до обучения с учителем

D. Мы не можем использовать «идентификатор категории» кластера в качестве нового элемента функции, а затем использовать контролируемое обучение для отдельного обучения.

А. 2 и 4

Б. 1 и 2

С. 3 и 4

Д. 1 и 3

Ответ: Б

Мы можем построить разные модели для каждого кластера, чтобы повысить точность прогноза.

«Идентификатор категории» обучается как элемент функции, который может эффективно суммировать функции данных.

Так что правильно Б

 

241 Какое из следующих утверждений верно:

A. Модель машинного обучения, если она имеет высокий показатель точности, это всегда означает, что классификатор хороший.

B. Если вы увеличиваете сложность модели, частота ошибок при тестировании модели всегда будет уменьшаться.

C. Если вы увеличиваете сложность модели, то частота ошибок обучения модели всегда будет уменьшаться.

D. Мы не можем использовать «идентификатор категории» кластера в качестве нового элемента функции, а затем использовать контролируемое обучение для отдельного обучения.

A. 1

B. 2

C. 3

D. 1 and 3

Ответ: С

Проблема в переобучении и недообучении.

 

242 соответствует алгоритму дерева GradientBoosting, верно следующее утверждение:

A. При увеличении минимального количества разбиений выборки мы можем противостоять переоснащению

B. При увеличении минимального количества разбиений выборки это приведет к переоснащению

C. Когда мы уменьшаем количество выборок для обучения одного учащегося, мы можем уменьшить дисперсию

D. Когда мы уменьшаем количество выборок для обучения одного учащегося, мы можем уменьшить погрешность

А. 2 и 4

Б. 2 и 3

С. 1 и 3

Д. 1 и 4

Ответ: С

  • Минимальное количество разделений выборки используется для управления параметром «переоснащения». Слишком высокое значение приведет к «недообучению», и этот параметр следует настроить с помощью перекрестной проверки.
  • Второй момент основан на концепции смещения и дисперсии.

 

243 Какой из следующих графов является обучающей границей алгоритма KNN:

q31_image5

A) B

B) A

C) D

D) C

Е)

Ответ: Б

Алгоритм KNN определенно не является линейной границей, поэтому прямые границы не рассматриваются. Кроме того, этот алгоритм рассматривает классификацию ближайших k выборок, чтобы определить классификацию, поэтому граница должна быть неровной.

 

244 Если обученная модель имеет 100% точность на тестовом наборе, означает ли это, что она будет работать так же хорошо на новом наборе данных? :

О. Да, это показывает, что модель достаточно обобщена для поддержки новых наборов данных.

B. Нет, в модели не учитываются другие факторы, например данные о шуме.

Ответ: Б
Ни одна модель не всегда может адаптироваться к новым данным. Мы не можем быть на 100% точными.

 

245 Следующие методы перекрестной проверки:

I. Метод начальной загрузки с возвратом

ii. Перекрестная проверка с одним оставшимся тестовым образцом

iii. 5-кратная перекрестная проверка

iv. Дважды повторите проверку обучения со скидкой 50 %

Когда выборка равна 1000, следующий порядок времени выполнения является правильным:

A. i > ii > iii > iv

B. ii > iv > iii > i

C. iv > i > ii > iii

D. ii > iii > iv > i

Ответ: Б

  • Метод Bootstrap — это традиционная случайная выборка, метод проверки, который проверяется один раз, и для обучения модели требуется только один раз, поэтому время минимально.
  • Для кросс-валидации на тестовой выборке требуется n обучающих процессов (n — количество выборок), здесь необходимо обучить 1000 моделей.
  • 5-кратная перекрестная проверка требует обучения 5 моделей.
  • Повторите 5-кратную перекрестную проверку дважды и обучите 10 моделей.

все Б правильно

 

246 Выбор переменных используется для выбора наилучшего подмножества дискриминаторов Если мы хотим рассмотреть эффективность модели, какие соображения при выборе переменных мы должны принять во внимание? :

1. Несколько переменных на самом деле имеют одинаковую полезность
2. Насколько важны переменные для интерпретации модели?
3. Информация, которую несет функция
4. Перекрестная проверка

А. 1 и 4

Б. 1, 2 и 3

С. 1, 3 и 4

Д. Все вышеперечисленное

Ответ: С

Обратите внимание, что основное внимание в этом вопросе уделяется рассмотрению эффективности модели, поэтому не рассматривайте вариант 2.

 

247 Для модели линейной регрессии, включающей дополнительные переменные, может быть верно следующее:

1. И R-квадрат, и скорректированный R-квадрат являются инкрементными.
2. R-квадрат постоянен, скорректированный R-квадрат увеличивается.
3. R-квадрат уменьшается, скорректированный R-квадрат также уменьшается
4. R-квадрат уменьшается, скорректированный R-квадрат увеличивается

А. 1 и 2

Б. 1 и 3

С. 2 и 4

Д. Ничего из вышеперечисленного

Ответ: Д

R-квадрат не может определить оценки коэффициентов и смещение прогноза, поэтому мы оцениваем остаточные графики. Однако у R-квадрата есть проблемы, которых нет у R-квадрата и предсказанного R-квадрата.
Каждый раз, когда вы добавляете предиктор в модель, R-квадрат увеличивается или не изменяется.

Пожалуйста, смотрите эту ссылку для деталей:discussion.

 

248 Для обучения следующих трех моделей верно следующее утверждение:

q37_image6

1. Ошибка обучения первого изображения наибольшая по сравнению с двумя другими изображениями.
2. Эффект обучения последнего изображения лучший, потому что ошибка обучения наименьшая.
3. Второе изображение более надежно, чем первое и третье изображения, и является самой эффективной моделью среди трех.
4. Третье изображение переоснащено первыми двумя изображениями.
5. Три графика работают одинаково, потому что мы еще не тестировали набор данных.

А. 1 и 3

Б. 1 и 3

С. 1, 3 и 4

D. 5

Ответ: С

 

249 Какое из следующих предположений следует использовать для линейной регрессии? :

1. Поиск точек обзора важен, потому что линейная регрессия чувствительна к точкам обзора.
2. Линейная регрессия требует, чтобы все переменные соответствовали нормальному распределению.
3. Линейная регрессия предполагает отсутствие множественных линейных корреляций в данных.

А. 1 и 2

Б. 2 и 3

С. 1, 2 и 3

Д. Ничего из вышеперечисленного

Ответ: Д

  • Следует учитывать точки Liqun, первая точка верна
  • Не обязательно, конечно, если это нормальное распределение, то тренировочный эффект будет лучше
  • Это нормально иметь небольшое количество множественных линейных корреляций, но мы хотим их избежать.

 

250 Когда мы строим линейную модель, мы обращаем внимание на корреляцию между переменными.При поиске коэффициента корреляции в матрице корреляции, если мы обнаружим, что коэффициент корреляции 3 пар переменных равен (Var1 и Var2, Var2 и Var3, Var3 и Var1) равно- 0,98, 0,45, 1,23. Что можно заключить:

1. Var1 и Var2 очень связаны
2. Так как Var и Var2 очень связаны, мы можем удалить один из них
3. Коэффициент корреляции 1,23 Var3 и Var1 невозможен

A. 1 and 3

B. 1 and 2

C. 1,2 and 3

D. 1

Ответ: С

  • Коэффициенты корреляции Var1 и Var2 отрицательны, так что это множественная линейная корреляция, и мы можем рассмотреть возможность удаления одного из них.
  • В общем случае, если коэффициент корреляции больше 0,7 или меньше -0,7, он сильно коррелирован.
  • Диапазон коэффициента корреляции должен быть [-1,1]

 

251 В очень нелинейной и сложной переменной древовидная модель может работать лучше, чем общая регрессионная модель.

А. да

Б. неправильно

Ответ: А

 

252 Для объектов очень низкой размерности выбрать линейный или нелинейный классификатор?
Для нелинейных классификаторов многие признаки в низкоразмерном пространстве могут работать вместе, что приводит к линейной неразделимости.
1. Если количество функций велико, аналогично количеству образцов, выберите LR или SVM Linear Kernel в это время.
2. Если количество функций относительно невелико, а количество выборок среднее, не слишком большое и не слишком маленькое, используйте SVM+Gaussian Kernel.
3. Если количество признаков относительно невелико, а количество выборок велико, вам необходимо вручную добавить некоторые признаки, чтобы они стали первым случаем.

 

253 Обработка пропущенных значений собственных векторов
1. Много пропущенных значений. Откажитесь от функции напрямую, иначе она может привести к большому шуму, что плохо скажется на результатах.
2. Пропущенных значений мало, а пропущенные значения остальных признаков все в пределах 10%, с ними можно бороться разными способами:
1) Возьмите NaN непосредственно как признак, предполагая, что он представлен 0;
2) Заполнить средним значением;
3) Предсказывать заполнение с помощью алгоритмов, таких как случайные леса

 

254 Сравнение SVM, LR и дерева решений.
Сложность модели: SVM поддерживает функции ядра и может решать линейные и нелинейные задачи; LR-модели просты и быстры в обучении, подходят для решения линейных задач; деревья решений легко переобучить, и их необходимо обрезать
Функция потерь: потеря петли SVM, регуляризация LR L2, экспоненциальная потеря adaboost
Чувствительность к данным: SVM, добавляющий допуск, не чувствителен к выбросам, заботится только о опорном векторе и должен быть сначала нормализован; LR чувствителен к дальним точкам
Объем данных: используйте LR, когда объем данных велик, и используйте нелинейное ядро ​​SVM, когда объем данных мал, а функций мало.

 

255 В чем проблема плохого состояния?
После обучения модели небольшая модификация тестовой выборки приведет к совершенно другому результату, что является плохо обусловленной задачей.Прогнозирующая способность модели для неизвестных данных очень плохая, то есть ошибка обобщения велика.

 

256 Кратко опишите процесс алгоритма классификации ближайших соседей KNN?
1. Вычислить расстояние между каждой точкой выборки в обучающей выборке и тестовой выборке (общие показатели расстояния включают евклидово расстояние, расстояние Махаланобиса и т. д.);
2. Отсортируйте все значения расстояния выше;
3. Выберите первые k образцов с наименьшим расстоянием;
4. Проголосуйте в соответствии с метками k образцов, чтобы получить окончательную классификационную категорию;

 

257 Каковы наиболее часто используемые методы группового деления? Перечисление представляет собой алгоритм.
1. Кластеризация на основе разделов: K-means, k-medoids, CLARANS.
2. Иерархическая кластеризация: AGNES (снизу вверх), DIANA (сверху вниз).
3. Кластеризация на основе плотности: DBSACN, OPTICS, BIRCH (CF-Tree), CURE.
4. Грид-методы: STING, WaveCluster.
5. Кластеризация на основе моделей: EM, SOM, COBWEB.

 

258 Что из нижеперечисленного неверно в отношении слабого ученика в модели ансамблевого обучения?
А. Они часто не подходят
B. У них обычно высокая предвзятость, поэтому они не могут решать сложные учебные задачи
C. Они обычно переобуваются
Ответ: C, Слабые ученики — это особая часть проблемы. Таким образом, они обычно не переобучаются, а это означает, что слабые ученики обычно имеют низкую дисперсию и высокую предвзятость.

 

259 Какой из следующих вариантов подходит для описания K-кратной перекрестной проверки?
1. Увеличение K приведет к увеличению времени для результатов перекрестной проверки.
2. Большие значения K будут иметь более высокую уверенность в структуре перекрестной проверки, чем малые значения K.
3. Если K = N, то это называется перекрестной проверкой с исключением одного, где N — количество образцов в наборе проверки.
А. 1 и 2
Б. 2 и 3
С. 1 и 3
Д. 1, 2 и 3
Ответ (D): Большое значение K означает меньшую погрешность и большее время выполнения (и как Близко к предельному случаю: перекрестная проверка с исключением одного). Нам также необходимо учитывать компромисс между K-кратной точностью и дисперсией при выборе значения K.

 

260 Наиболее известными алгоритмами уменьшения размерности являются PAC и t-SNE. Примените эти два алгоритма к данным «X» соответственно и получите наборы данных «X_projected_PCA», «X_projected_tSNE». Что из следующего верно в отношении «X_projected_PCA» и «X_projected_tSNE»?
A. x_projected_pca можно интерпретировать в ближайшем соседнем пространстве
B. X_projected_tSNE можно интерпретировать в ближайшем соседнем пространстве
C. Оба могут быть объяснены в ближайшем соседнем пространстве
D. Ни то, ни другое не может быть объяснено в ближайшем соседнем пространстве.
Ответ (B): Алгоритм t-SNE уменьшает размерность данных за счет учета ближайших соседей. Таким образом, после использования t-SNE уменьшенную размерность можно объяснить в ближайшем соседнем пространстве. Но PCA не может.

 

261 Даны три переменные X, Y, Z. Коэффициенты корреляции Пирсона для (X, Y), (Y, Z) и (X, Z) равны C1, C2 и C3 соответственно. Теперь добавьте 2 ко всем значениям X (т.е. X+2), вычтите 2 из всех значений Y (т.е. Y-2) и оставьте Z одинаковым. Тогда коэффициенты корреляции (X, Y), (Y, Z) и (X, Z) после операции равны D1, D2 и D3 соответственно. Какова связь между D1, D2, D3 и C1, C2, C3?
A. D1= C1, D2 < C2, D3 > C3
B. D1 = C1, D2 > C2, D3 > C3
C. D1 = C1, D2 > C2, D3 < C3
D. D1 = C1, D2 < C2, D3 < C3
E. D1 = C1, D2 = C2, D3 = C3
Ответ (E): Коэффициент корреляции между признаками не меняется, когда признак добавляет или вычитает число.

 

262 Что нужно сделать в PCA, чтобы получить ту же проекцию, что и SVD?
A. Преобразуйте данные в нулевое среднее
B. Преобразование данных в нулевую медиану
С. не могу этого сделать
Ответ (A): PCA имеет ту же проекцию, что и SVD, когда данные имеют 0-средний вектор, в противном случае вы должны иметь в виду, что данные равны 0, прежде чем использовать SVD.

 

263 Предположим, у нас есть набор данных, который можно обучить со 100% точностью с помощью дерева решений глубины 6. Теперь рассмотрим два момента и на их основе выберем правильный вариант.
Примечание. Все остальные гиперпараметры одинаковы, все остальные факторы не изменяются.

1. Глубина 4 будет иметь большое смещение и низкую дисперсию
2. Глубина 4 будет иметь низкое смещение и низкую дисперсию
А. только 1
Б. только 2
С. 1 и 2
Д., ни один
Ответ (A): Если вы соответствуете дереву решений глубины 4 на таких данных, это означает, что оно с большей вероятностью не соответствует данным. Таким образом, в случае недообучения вы получите высокое смещение и низкую дисперсию.

 

264 Какой из следующих вариантов алгоритма k-средних можно использовать для получения глобального минимума?
A. Попробуйте запустить алгоритм для разных инициализаций центроидов.
B. Отрегулируйте количество итераций
C. Найдите оптимальное количество кластеров
Д. Все вышеперечисленное
Ответ (D): Все можно использовать для отладки, чтобы найти глобальный минимум.

 

265 Вы используете логистическую регрессию с регуляризацией L1 для бинарной классификации, где C — параметр регуляризации, а w1 и w2 — коэффициенты x1 и x2. Что из следующего верно, когда вы увеличиваете значение C от 0 до очень большого значения?
A. Первый w2 становится 0, затем w1 также становится 0
B. Первый w1 становится 0, затем w2 также становится 0
C. w1 и w2 одновременно становятся 0
D. Даже после того, как C станет большим значением, ни w1, ни w2 не могут стать 0
Ответ (C): Функция регуляризации L1 показана ниже, поэтому w1 и w2 могут быть равны 0. В то же время w1 и w2 симметричны и не приводят к состоянию, когда один равен 0, а другой нет.

 

266 Предположим, вы используете функцию логарифмических потерь в качестве критерия оценки. Какой из следующих вариантов является правильной интерпретацией log-loss как критерия оценки.
О. Если классификатор уверен в неправильной классификации, журнал потерь будет жестко критиковать его.
B. Для конкретного наблюдения классификатор присваивает очень маленькую вероятность правильному классу, и тогда соответствующее распределение логарифмических потерь будет очень большим.
Чем ниже C.log-loss, тем лучше модель
Д. Все вышеперечисленное
Ответ (Д)

 

267 Какой из следующих вариантов является детерминированным алгоритмом?
A.PCA
B.K-Means
C. Ничего из вышеперечисленного
Ответ (A): Детерминированные алгоритмы показывают, что результат алгоритма не меняется от запуска к запуску. Если мы снова запустим алгоритм, PCA даст тот же результат, а k-means — нет.

 

Каковы методы нормализации 268 собственных векторов?
Преобразование линейной функции, выражение выглядит следующим образом:
y=(x-MinValue)/(MaxValue-MinValue)
Преобразование логарифмической функции, выражение выглядит следующим образом:
y=log10 (x)
Функция арккотангенса преобразует , выражение выглядит следующим образом:
y=arctan(x)*2/PI
Вычтите среднее, разделите на дисперсию:
y=(x-means)/ variance

 

269 ​​Алгоритмы оптимизации, их преимущества и недостатки?
Напоминание: отвечая на вопросы интервьюера, вы, как правило, отвечаете на вопросы широко, чтобы не застрять в мелких технических спорах, и в конце концов легко убить себя.
Короче
1) Стохастический градиентный спуск
Преимущества: может решить задачу локального оптимального решения в определенной степени
Недостаток: медленная сходимость
2) Пакетный градиентный спуск
Преимущества: легко попасть в локальное оптимальное решение
Недостаток: более быстрая сходимость
3) градиентный спуск mini_batch
Сочетая преимущества и недостатки стохастического градиентного спуска и пакетного градиентного спуска, нейтрализованный метод извлечения.
4) метод Ньютона
Когда метод Ньютона повторяется, ему необходимо вычислить матрицу Гессе, Когда размерность высока, вычислить матрицу Гессе сложнее.
5) Метод квазиньютона
Метод квази-Ньютона — это алгоритм, извлеченный для улучшения вычисления матрицы Гессе в итеративном процессе метода Ньютона. Метод, который он принимает, заключается в решении проблемы путем аппроксимации гессиана.

особенно
Отличие от данных каждой партии
Градиентный спуск: каждый раз тренируйтесь со всем набором данных
Преимущества: получено оптимальное решение
Недостатки: медленная работа, может не хватать памяти
Стохастический градиентный спуск: тренируйтесь с одними данными за раз
Плюсы: Быстрое обучение, нет проблем с памятью
Недостатки: легко колеблется, может не достичь оптимального решения
Мини-пакетный градиентный спуск
Преимущества: быстрая скорость обучения, отсутствие проблем с памятью, меньше колебаний
Недостаток: может не достичь оптимального решения
С точки зрения методов оптимизации:
Стохастический градиентный спуск (SGD)
недостаток
Трудно выбрать подходящую скорость обучения
Используйте одинаковую скорость обучения для всех параметров
легко сходятся к локальному оптимуму
может застрять в седловой точке
SGD+Momentum
преимущество:
Наращивайте темп и ускоряйте обучение
При колебании вблизи локального экстремума выпрыгнуть из ловушки за счет импульса
Momentum уменьшает турбулентность при изменении направления градиента.
Nesterov Mementum
Аналогичен MEMENTUM, преимущества:
Избегайте слишком быстрой
Улучшить чувствительность
AdaGrad
преимущество:
Контролируйте скорость обучения, каждый компонент имеет свою собственную скорость обучения
Подходит для разреженных данных
недостаток
Зависит от глобальной скорости обучения
Скорость обучения установлена ​​слишком большой, а ее эффект слишком чувствителен
На более позднем этапе знаменатель для корректировки скорости обучения накапливается слишком много, что приводит к очень низкой скорости обучения и досрочному завершению обучения.
RMSProp
преимущество:
Решена проблема раннего окончания позднего периода.
недостаток:
По-прежнему полагаемся на глобальную скорость обучения
Adam
Комбинация Adagrad и RMSProp
преимущество:
Сочетает в себе преимущества Adagrad, который хорошо справляется с разреженными градиентами, и RMSprop, который хорошо справляется с нестационарными целями.
Вычислить разные скорости адаптивного обучения для разных параметров
Также подходит для преимущественно невыпуклой оптимизации — подходит для больших наборов данных и многомерных пространств.
метод Ньютона
Когда метод Ньютона повторяется, ему необходимо вычислить матрицу Гессе, Когда размерность высока, вычислить матрицу Гессе сложно.
Квазиньютоновский метод
Метод квази-Ньютона — это алгоритм, извлеченный для улучшения вычисления матрицы Гессе в итеративном процессе метода Ньютона. Метод, который он принимает, заключается в решении проблемы путем аппроксимации гессиана.

 

Разница и связь между 270 RF и GBDT?
1) Тот же момент: все они состоят из нескольких деревьев, и конечный результат определяется несколькими деревьями вместе.
2) Отличия:
a Деревья, составляющие случайный лес, могут быть либо деревом классификации, либо деревом регрессии, в то время как GBDT состоит только из деревьев регрессии.
b Деревья, составляющие случайный лес, могут генерироваться параллельно, тогда как GBDT генерируется последовательно.
c Результатом случайного леса является большинство голосов, а GBDT — сумма нескольких деревьев.
d Случайный лес не чувствителен к выбросам, в то время как GBDT более чувствителен к выбросам.
e Случайный лес предназначен для уменьшения дисперсии модели, а GBDT — для уменьшения систематической ошибки модели.
f Случайный лес не требует нормализации признаков. GBDT требует нормализации признаков

 

271 Коэффициент корреляции Пирсона двух переменных равен нулю, но значения двух переменных также могут быть связаны.
А правильно
ошибка Б
Ответ (A): коэффициент корреляции Пирсона может измерять только линейные корреляции, но не нелинейные. Например, y=x^2, x и y имеют сильную нелинейную связь.

 

Какой из следующих 272 / HyperParameter некоторое увеличение может вызвать случайные лесные данные по поводу пригодности?
Количество A-деревьев
Глубина B-дерева
C скорость обучения
Ответ (B): В общем, увеличение глубины дерева может привести к переоснащению модели. Скорость обучения не является гиперпараметром для случайных лесов. Увеличение количества деревьев может привести к недостаточной подгонке.

 

273 8 фактических значений целевой переменной на обучающем наборе [0,0,0,1,1,1,1,1], какова энтропия целевой переменной?
A. -(5/8 log(5/8) + 3/8 log(3/8))
B. 5/8 log(5/8) + 3/8 log(3/8)
C. 3/8 log(5/8) + 5/8 log(3/8)
D. 5/8 лог.(3/8) – 3/8 лог.(5/8)
Ответ (А)

 

274 Следующее описание алгоритма последовательного анализа шаблонов неверно? (С)
И алгоритм AprioriAll, и алгоритм GSP принадлежат к классу алгоритмов Apriori и оба генерируют большое количество последовательностей-кандидатов.
B Алгоритм FreeSpan и алгоритм PrefixSpan не генерируют большое количество последовательностей-кандидатов и не требуют многократного сканирования исходной базы данных.
C С точки зрения пространственно-временной эффективности выполнения FreeSpan лучше, чем PrefixSpan.
D По сравнению с AprioriAll эффективность выполнения GSP относительно высока.
@CS Qingque, источник анализа этого вопроса:Blog.csdn.net/ Президентский дворец 312 / Ruiti ...
1. Априорный алгоритм: исходный алгоритм анализа ассоциаций, который используется для поиска часто встречающихся наборов элементов из наборов элементов-кандидатов. Два шага: самостоятельное подключение и обрезка. Недостаток: нет хронологической последовательности.
Алгоритм AprioriAll: процесс выполнения алгоритма AprioriAll такой же, как и у алгоритма Apriori, разница заключается в генерации набора кандидатов, который необходимо различать до и после последних двух элементов.
Алгоритм AprioriSome: его можно рассматривать как улучшение алгоритма AprioriAll.
Сравнение алгоритма AprioriAll и алгоритма AprioriSome:
(1) AprioriAll использует для вычисления всех кандидатов Ck, а AprioriSome будет напрямую использовать для вычисления всех кандидатов, поскольку содержит , поэтому AprioriSome создаст больше кандидатов.
(2) Хотя AprioriSome вычисляет кандидатов путем перехода, из-за того, что генерируется много кандидатов, он может заполнить память до этапа возврата.
(3) Если память заполнена, AprioriSome будет вынужден вычислить последнюю группу кандидатов.
(4) Для более низкой поддержки есть более длинные большие последовательности, алгоритм AprioriSome лучше.
2. Алгоритм GPS: априорно-подобный алгоритм. Он используется для обнаружения частых наборов элементов с временным приоритетом из наборов элементов-кандидатов. Два шага: самостоятельное подключение и обрезка. Недостатки: каждый раз, когда вычисляется опора, необходимо сканировать весь набор данных; в случае длинного шаблона последовательности алгоритм трудно обрабатывать, потому что соответствующий шаблон короткой последовательности слишком велик.
3. Алгоритм SPADE. Улучшенный алгоритм GPS позволяет избежать проблемы многократного сканирования полной таблицы набора данных D. Это примерно то же самое, что и алгоритм GSP, с дополнительной записью ID_LIST, так что каждый ID_LIST получается в соответствии с последним ID_LIST (таким образом, получая поддержку). Размер ID_LIST уменьшается по мере продолжения сокращения. Таким образом, решается задача многократного сканирования набора данных D алгоритмом GSP.
4. Алгоритм FreeSpan: последовательное извлечение паттернов из частых проекций паттернов. Основная идея — алгоритм «разделяй и властвуй». Основная идея состоит в том, чтобы использовать частые элементы для рекурсивного проецирования базы данных последовательности в меньший набор баз данных проекций и генерировать фрагменты подпоследовательностей в каждой базе данных проекций. Этот процесс разделяет данные и набор частых паттернов, которые необходимо изучить, и ограничивает каждое исследование меньшей базой данных прогнозов, которые ему подходят.
Преимущество: уменьшает накладные расходы, необходимые для создания последовательностей-кандидатов. Недостатки: может быть создано много баз данных проекций, что очень дорого и создаст много
5. Алгоритм PrefixSpan: производный от FreeSpan. Скорость усадки даже выше, чем у FreeSpan.

 

275 следующие функции, которые обычно не используются в алгоритме текстовых классификаций выбора? (Д)
Значение критерия хи-квадрат
B Взаимная информация
C Прирост информации
D анализ главных компонентов

276 Часто используются методы выбора признаков. Шесть общих методов выбора признаков:
1) DF (частота документа) частота документа
DF: подсчитайте количество документов, в которых появляются характерные слова, чтобы измерить важность характерного слова.
2) метод взаимной информации MI (взаимная информация)
Метод взаимной информации используется для измерения количества прямой информации между характерными словами и категориями документов.
Если частота характерного слова очень низкая, оценка взаимной информации будет высокой, поэтому метод взаимной информации имеет тенденцию к «низкочастотным» характерным словам.
Для слов с относительно высокой частотой слов оценка будет ниже, если слово несет большое количество информации, метод взаимной информации станет неэффективным.
3) (Получение информации) Метод получения информации
Важность характерного слова измеряется добавлением до и после информации в корпусе в отсутствие и при наличии характерного слова.
4) CHI (хи-квадрат) метод теста хи-квадрат
Используется основная идея «проверки гипотез» в статистике: во-первых, предполагается, что характерное слово не имеет прямого отношения к категории
Если тестовое значение, рассчитанное с использованием распределения CHI, больше отклоняется от порога, то с большей уверенностью можно отвергнуть нулевую гипотезу и принять альтернативную гипотезу нулевой гипотезы: характерные слова и категории имеют высокую степень корреляции.
5) WLLR (взвешенный логарифмический коэффициент правдоподобия) взвешенная логарифмическая вероятность
6) WFO (Weighted Frequency and Odds) взвешенная частота и вероятность
blog.CSDN.net/Президентский дворец 312/Арити…

 

277 В методе уравнения интерфейса класс-область, каково приближенное или точное решение проблемы классификации в случае линейной неразделимости? (Д)
A Алгоритм обучения нейронной сети псевдообратного метода радиального базиса (RBF) заключается в решении случая линейной неразделимости
B Алгоритм H-K на основе квадратичного критерия: весовой вектор получается по критерию минимальной среднеквадратической ошибки, а квадратичный критерий решает нелинейные задачи
C Метод потенциальной функции - нелинейный
Алгоритм персептрона D - алгоритм линейной классификации

 

278 Какие методы можно использовать при выборе признаков в машинном обучении? (Е)
А. Хи-квадрат
Б. Получение информации
C. Средняя взаимная информация
D. Ожидаемая перекрестная энтропия
Е и выше

 

279 Среди следующих методов методы, которые нельзя использовать для уменьшения размерности признаков, включают (E)
Анализ главных компонентов PCA
B Линейный дискриминантный анализ LDA
C Глубокое обучение SparseAutoEncoder
D Матрица сингулярное значение Разложение SVD
E Наименьшие квадраты Наименьшие квадраты
Методы уменьшения размерности признаков в основном включают:
PCA, LLE, Изомап
SVD похож на PCA и также может рассматриваться как метод уменьшения размерности.
LDA: линейный дискриминантный анализ, который можно использовать для уменьшения размерности.
AutoEncoder: структура AutoEncoder такая же, как и у скрытого слоя нейронной сети, состоит из входа L1, выхода L2, а середина представляет собой весовое соединение. Автоэнкодер получает входную реконструкцию от L3 до L2 и минимизирует разницу между L3 и L1 для обучения получению весов. При таких весовых параметрах полученный L2 может максимально сохранить информацию L1.
Размерность выхода L2 AUTOENCODER определяется количеством выходных нейронов. Когда выходное измерение больше, чем L1, необходимо добавлять редкий штрафной термин для объективной функции обучения для предотвращения непосредственного копирования L1 (веса все 1). Итак, это называется свободным (предложенным Andrew NG).
Вывод: SparseAutoencoder в большинстве случаев имеет увеличенную размерность, поэтому метод, называемый уменьшением размерности признаков, является неточным.

 

280 В общем, метод ближайших соседей k-NN работает лучше в случае (A).
А. Образцов много, но типичность невысокая C. Небольшая выборка, но хорошая типичность
б. Образец сгруппирован D. Образцы распределяются по цепочке

Какой из следующих методов можно использовать для уменьшения размерности многомерных данных:
A LASSO
Анализ основных компонентов B
C Кластерный анализ
D-вейвлет-анализ
E Линейный дискриминантный метод
F Лапласова карта объектов
лассо добивается уменьшения размерности за счет уменьшения параметров;
Излишне говорить, что ПК
Метод линейной дискриминации, то есть LDA, находит пространство, которое делает расстояние внутри класса наименьшим, а расстояние между классами наибольшим, поэтому его можно рассматривать как уменьшение размерности;
Вейвлет-анализ имеет некоторые операции преобразования для уменьшения других помех, которые можно рассматривать как уменьшение размерности.
Лапласа см. http://f.dataguru.cn/thread-287243-1-1.html

 

281 Следующее описание верно (D)
SVM — это классификатор, который находит гиперплоскость с наименьшим ребром, поэтому его также часто называют классификатором наименьшего края.
B В кластерном анализе чем больше сходство внутри кластера, чем больше разница между кластерами, тем хуже эффект кластеризации.
C В дереве решений по мере того, как вход узла в дерево становится слишком большим, хотя ошибка обучения модели продолжает уменьшаться, ошибка теста начинает увеличиваться, что является причиной недостаточной подгонки модели.
D Кластерный анализ можно рассматривать как неконтролируемую классификацию.

 

282 Какое из следующих утверждений неверно (С)
SVM устойчив к шуму, такому как выборки шума из других подразделений.
B В алгоритме adaboost коэффициент обновления веса всех неправильно классифицированных выборок не одинаков.
Повышение C и бэггинг — это методы объединения нескольких классификаторов для голосования, оба из которых определяют вес одного классификатора в соответствии с правильной ставкой.
D Учитывая n точек данных, если половина из них используется для обучения, а половина — для пользовательского тестирования, разница между ошибкой обучения и ошибкой теста будет уменьшаться по мере увеличения n.
Классификатор Soft margin устойчив к шуму.
B См. http://blog.csdn.net/v_july_v/article/details/40718799
Повышение C заключается в определении веса в соответствии с точностью классификатора, а не в мешках.
Изменение тренировочного набора D повысит надежность модели.

 

283 Что касается нормального распределения, какое из следующих утверждений неверно:
А. Нормальное распределение имеет центральность и симметрию
B. Среднее значение и дисперсия нормального распределения могут определять положение и форму нормального распределения.
C. Нормальное распределение имеет асимметрию 0 и эксцесс 1.
D. Стандартное нормальное распределение имеет среднее значение 0 и дисперсию 1.
Ответ C, стандартное нормальное распределение.

 

284 В следующих различных сценариях используемый метод анализа неверен:
A. В соответствии с данными о бизнесе и услугах продавцов за последний год используйте алгоритм кластеризации для определения уровня продавцов Tmall в соответствующих основных категориях.
B. Согласно данным о транзакциях продавцов за последние годы, используйте алгоритм кластеризации, чтобы соответствовать формуле возможного объема потребления пользователя в следующем месяце.
C. Используйте алгоритм правила ассоциации, чтобы проанализировать, подходят ли покупатели, которые приобрели подушки для автомобильных сидений, для рекомендации подушек для автомобильных сидений.
D. В соответствии с информацией о продукте, недавно приобретенном пользователем, используйте алгоритм дерева решений, чтобы определить, может ли покупатель Taobao быть мужчиной или женщиной.

 

285 Что такое градиентный взрыв?
Градиент ошибки — это направление и величина, вычисляемые во время обучения нейронной сети для обновления весов сети в правильном направлении и на правильную величину.
В глубоких сетях или рекуррентных нейронных сетях градиенты ошибок могут накапливаться в обновлениях, превращаясь в очень большие градиенты, которые затем приводят к большим обновлениям весов сети и, таким образом, делают сеть нестабильной. В крайних случаях значение веса становится настолько большим, что оно переполняется, что приводит к значениям NaN.
Экспоненциальный рост, вызванный повторным умножением градиентов (значения больше 1,0) между слоями сети, может привести к взрыву градиента.

 

286 Какие проблемы может вызвать взрыв градиента?
В глубоких многослойных сетях персептрона взрыв градиентов может вызвать нестабильность сети, при этом лучшим результатом будет невозможность обучения на обучающих данных, а худшим результатом будут веса NaN, которые больше не могут обновляться.
Взрыв градиентов вызывает нестабильность в процессе обучения. — «Глубокое обучение», 2016.
В рекуррентной нейронной сети взрыв градиента приведет к тому, что сеть будет нестабильной и не сможет учиться на обучающих данных, Наилучшим результатом будет то, что сеть не сможет изучить длинные данные входной последовательности.

Как определить, есть ли взрыв градиента?
Взрыв градиента во время тренировки будет сопровождаться некоторыми тонкими сигналами, такими как:
Модель не может получать обновления (например, с низкими потерями) из обучающих данных.
Модель нестабильна, что приводит к значительным изменениям потерь в процессе обновления.
Во время обучения потеря модели становится NaN.
Если вы обнаружите эти проблемы, вам нужно внимательно посмотреть на проблемы взрывающегося градиента.
Вот несколько более выраженных сигналов, которые помогут подтвердить наличие проблемы взрыва градиента.
Градиент модели быстро увеличивается во время обучения.
Веса модели становятся значениями NaN во время обучения.
Во время обучения значение градиента ошибки для каждого узла и слоя постоянно превышает 1,0.

 

287 Как решить проблему взрыва градиента?
Есть много способов решить проблему взрывающегося градиента, и в этом разделе перечислены некоторые из лучших способов поэкспериментировать.
1. Перепроектируйте сетевую модель
В глубине нейронной сети взрыв градиента может быть решен путем повторного проектирования меньшего слоев.
Использование меньшего размера пакета также полезно для обучения сети.
В рекуррентных нейронных сетях обновление меньшего количества предыдущих временных шагов во время обучения (усеченное обратное распространение во времени) может облегчить проблему взрывающегося градиента.
2. Используйте функцию активации ReLU
В глубоких многослойных нейронных сетях персептрона взрыв градиентов может происходить из-за функций активации, таких как ранее популярные функции Sigmoid и Tanh.
использоватьReLUФункции активации могут уменьшить взрывные градиенты. Использование функции активации ReLU — это новая практика, которая лучше всего подходит для скрытых слоев.
3. Использование длинных краткосрочных сетей памяти
В рекуррентных нейронных сетях могут возникать взрывные градиенты из-за нестабильности, присущей обучению определенной сети, например обратное распространение во времени, по существу превращающее рекуррентную сеть в глубокую многослойную нейронную сеть персептрона.
Использование клеток долговременной кратковременной памяти (LSTM) и связанных с ними структур нейронов воротного типа может уменьшить проблему взрывающегося градиента.
использоватьLSTMЯчейки — это передовые методы предсказания последовательности, подходящие для рекуррентных нейронных сетей.
4. Используйте градиентную обрезку
В очень глубоких многослойных сетях перцептронов с большими размерами пакетов и LSTM с длинными входными последовательностями все еще возможны взрывные градиенты. Если взрывные градиенты все еще возникают, вы можете проверить и ограничить величину градиентов во время тренировки. ЭтоГрадиентное усечение.
Существует простое и эффективное решение для работы со взрывающимися градиентами: если градиенты превышают пороговое значение, обрезать их.
- «Нейросетевые методы обработки естественного языка», 2017.
В частности, проверьте, превышает ли значение градиента ошибки пороговое значение, если да, обрежьте градиент и установите градиент равным пороговому значению.
Усечение градиента может в некоторой степени смягчить проблему взрывающегося градиента (усечение градиента, то есть пороговое значение градиента перед выполнением шага градиентного спуска).
- «Глубокое обучение», 2016.
В библиотеке глубокого обучения Keras вы можете использовать усечение градиента, установив параметры clipnorm или clipvalue в оптимизаторе перед тренировкой.
Значения по умолчанию: clipnorm=1.0 , clipvalue=0.5. Видеть:Доступно в RAS.IO/optimizers/…
5. Используйте регуляризацию веса
Если взрывной градиент сохраняется, можно попробовать другой подход, который заключается в проверке размера весов сети и наложении штрафа на функцию потерь, которая дает большие значения веса. Этот процесс известен как регуляризация веса и обычно представляет собой либо штраф L1 (абсолютное значение веса), либо штраф L2 (квадратный вес).
Использование штрафного члена L1 или L2 для повторяющихся весов может помочь смягчить взрывные градиенты.
——О сложности обучения рекуррентных нейронных сетей, 2013.
В библиотеке глубокого обучения Keras вы можете выполнить регуляризацию веса, установив параметр kernel_regularizer для слоя и используя регуляризатор L1 или L2.

 

288 Что такое вход и выход нейронной сети LSTM?
@YJango, источник анализа этого вопроса:Ууху. Call.com/question/41…
4 января 2017 г. СтатьяРекуррентные слои — Введение

  • Первое, что нужно уяснить, это то, что все единицы, обрабатываемые нейронной сетью, это: векторы

Вот почему вы увидите, что тренировочные данные будут матрицами и тензорами.

  • Регулярный ввод и вывод с прямой связью: матрицы

Форма входной матрицы: (n_samples, dim_input)
Форма выходной матрицы: (n_samples, dim_output)
Примечание. При реальном тестировании/обучении вход и выход сети являются просто векторами. Измерение n_samples добавляется для одновременного обучения нескольких образцов и поиска среднего градиента для обновления веса Это называется мини-пакетным градиентным спуском. Если n_samples равно 1, то этот метод обновления называется стохастическим градиентным спуском (SGD).
Вход и выход Feedforward по существу являются одним вектором.

  • Обычный рекуррентный (RNN/LSTM/GRU) ввод и вывод: тензоры

Входная форма тензора: (time_steps, n_samples, dim_input)
Форма выходного тензора: (time_steps, n_samples, dim_output)
Примечание. Метод обучения мини-пакетного градиентного спуска также сохраняется, но разница в том, что добавляется измерение временного шага.
Суть входа Recurrent в любой момент времени по-прежнему один вектор, но векторы в разное время вводятся в сеть по порядку. Поэтому вы можете предпочесть понимать это как последовательность векторов или матрицу.

Код Python представляет предсказанные слова:

import numpy as np

#当前所累积的hidden_state,若是最初的vector,则hidden_state全为0
hidden_state=np.zeros((n_samples, dim_input))

#print(inputs.shape): (time_steps, n_samples,  dim_input)
outputs = np.zeros((time_steps, n_samples, dim_output))

for i in range(time_steps):
    #输出当前时刻的output,同时更新当前已累积的hidden_state
    outputs[i],hidden_state = RNN.predict(inputs[i],hidden_state)
#print(outputs.shape): (time_steps, n_samples, dim_output)

Но следует отметить, что выход рекуррентных сетей также может быть матрицей, а не трехмерным тензором, в зависимости от того, как вы его спроектируете.

  1. Если вы хотите использовать серию последовательностей для прогнозирования другой серии последовательностей, то ввод и вывод являются тензорами (например, распознавание речи или машинный перевод, китайское предложение переводится в английское предложение (слово считается вектором) , а машинный перевод - это частный случай, т.к. длина двух последовательностей может быть разной, используйте seq2seq;
  2. Если вы хотите использовать последовательность для прогнозирования значения, входные данные представляют собой тензор, а выходные данные — матрицу (например, анализ настроений заключается в использовании последовательности слов для прогнозирования настроения говорящего).

Что Feedforward может делать, так это взаимно однозначное отображение вектор-вектор,
Recurrent расширяет это до сопоставления последовательности с последовательностью.
Но один вектор также можно рассматривать как последовательность длины 1. Итак, существует несколько типов, как показано ниже:

За исключением один к одному в крайнем левом углу, который может выполнять прямая связь, правая сторона расширяется с помощью Recurrent.

 

Если вы хотите узнать больше

  • Латеральную операцию Recurrent можно рассматривать как накопление того, что произошло, и механизм ячейки памяти LSTM выберет, запомнить или забыть накопленную информацию, чтобы предсказать результат в определенный момент.
  • Если понимать с точки зрения вероятности: это постоянное условие того, что произошло, чтобы постоянно сокращать пространство выборки.
  • Идея RNN такова: текущий выход зависит не только от текущего входа, но и от предыдущего состояния, можно понять, что текущий выход вычисляется из двух входов текущего входа и предыдущего скрытого состояния. И после каждого расчета будет оставаться информация в предыдущем скрытом состоянии для следующего расчета.

 

289 Какое из следующих утверждений о PMF (функция массы вероятности), PDF (функция плотности вероятности), CDF (кумулятивная функция распределения) неверно?
A.PDF описывает вероятность непрерывной случайной величины в определенном интервале значений.
B. CDF - это интеграл PDF на определенном интервале.
C.PMF описывает вероятность дискретной случайной величины в определенной точке значения.
D. Существует распределенная функция CDF H(x), тогда H(a) равно P(X
Правильный ответ: А
Разобрать:
Функция массы вероятности (PMF) — это вероятность дискретной случайной величины при каждом конкретном значении.
Функция плотности вероятности (PDF) определяется для непрерывной случайной величины и не является вероятностью сама по себе, это вероятность только после интегрирования значения непрерывной случайной величины.
Кумулятивная функция распределения (CDF) может полностью описать распределение вероятностей реальной случайной величины X и является интегралом функции плотности вероятности.

 

290 для всех действительных чисел x против pdf. Каковы основные предположения линейной регрессии? (АБДЕ)
A. Член случайной ошибки представляет собой случайную величину с ожидаемым значением 0;
B. Член случайной ошибки имеет одинаковую дисперсию для всех наблюдений объясняющей переменной;
C. Члены случайной ошибки связаны друг с другом;
D. Объясняющая переменная является детерминированной, а не случайной величиной и не зависит от члена случайной ошибки;
E. Член случайной ошибки следует нормальному распределению При работе с категориальными признаками распределение категориальных переменных в тестовом наборе заранее неизвестно. Чтобы применить однократное кодирование к категориальным функциям. Итак, каковы возможные трудности в применении одноразовых кодов к категориальным переменным в обучающем наборе?
A. Не все категории категориальных переменных присутствуют в тестовом наборе.
B. Распределение частот классов отличается в обучающей выборке и тестовой выборке.
C. Обучающая и тестовая выборки обычно имеют одинаковое распределение.
Ответ: A, B. Если категория присутствует в тестовом наборе, но отсутствует в обучающем наборе, одноразовый код не сможет закодировать категорию, что является основной трудностью. Нам нужно быть осторожными, если распределения частот тренировочного и тестового наборов не совпадают.

 

291 Предположим, вы используете функцию активации X в скрытых слоях нейронной сети. При любом входе в конкретный нейрон вы получите результат «-0,0001». Какой из следующих функций активации может быть X?
A. ReLU
B. tanh
C. SIGMOID
Д. Ничего из вышеперечисленного
Ответ: B, функция активации может быть tanh, потому что диапазон значений функции (-1,1).

 

292 Какие из следующих описаний ошибок «Тип 1 (Тип-1)» и «Тип 2 (Тип-2)» верны?
A. Тип 1 обычно называют ложноположительным классом, а тип 2 обычно называют ложноотрицательным классом.
B. Тип 2 обычно называют ложноположительным классом, а тип 1 обычно называют ложноотрицательным классом.
C. Ошибки 1-го рода обычно возникают, когда гипотеза отвергается, хотя она верна.
Ответы (A) и (C): при статистической проверке гипотез ошибка типа I относится к ложному отклонению правильной гипотезы или ложноположительной ошибке, а ошибка типа II обычно относится к ложному принятию ложной гипотезы или ложноотрицательной ошибке.

 

293 Какой из объектов на изображении ниже является мультиколлинеарным?
А. Особенности на рисунке 1
B. Особенности на рисунке 2
C. Особенности на рисунке 3
D. Элементы на рисунках 1 и 2
E. Особенности на рисунках 2 и 3
F. Особенности на рисунках 1 и 3
Ответ (D): на рисунке 1 признаки сильно положительно коррелированы, а на рисунке 2 признаки сильно отрицательно коррелированы. Таким образом, особенности этих двух графиков являются многомерными коллинеарными характеристиками.

Выявлены многомерные коллинеарные признаки. Итак, каковы возможные следующие шаги?
A. Удалите две коллинеарные переменные B. Вместо двух переменных удалите одну
C. Удаление коррелирующих переменных может привести к потере информации, и можно использовать регрессионную модель со штрафом (например, гребенчатую или лассо-регрессию).
Ответы (B) и (C): поскольку удаление двух переменных приведет к потере всей информации, мы можем удалить только одну функцию или также можем использовать алгоритмы регуляризации (например, L1 и L2).

 

294 Добавление неважной функции в модель линейной регрессии может вызвать ?
A. Увеличение R-квадрата
B. Уменьшить R-квадрат
Ответ (A): после добавления признака в пространство признаков, независимо от того, важен он или нет, R-квадрат обычно увеличивается.

 

295 Предположим, что классы целевой переменной сильно разбалансированы, т.е. основной класс занимает 99% обучающих данных. Теперь ваша модель на тестовом наборе имеет точность 99%. Итак, какое из следующих утверждений верно?
A. Точность не подходит для измерения проблем несбалансированного класса.
B. Точность подходит для измерения проблем несбалансированного класса
C. Точность и полнота подходят для измерения проблем несбалансированного класса.
D. Точность и полнота не подходят для измерения проблем несбалансированного класса.
Ответы (А) и (С)

 

296 Что такое предвзятость и дисперсия?
Ошибка обобщения может быть разложена на квадрат смещения плюс дисперсия плюс шум. Отклонение измеряет степень отклонения между ожидаемым прогнозом и фактическим результатом алгоритма обучения и описывает подгоночную способность самого алгоритма обучения.Влияние, шум выражает нижнюю границу ожидаемой ошибки обобщения, которую любой алгоритм обучения на текущем задача может быть достигнута и характеризует сложность самой проблемы. Смещение и дисперсия обычно называются смещением и дисперсией. Как правило, чем сильнее степень обучения, тем меньше смещение и больше дисперсия. Ошибка обобщения обычно имеет минимальное значение в середине. Если смещение велико, а дисперсия мала, ее обычно называют недостаточной подгонкой, а маленькое отклонение и большую дисперсию называют переобучением. отклонение:дисперсия:

 

297 Как решить проблему предвзятости и дисперсии? Перекрестная проверка
Решение с высоким смещением: бустинг, сложные модели (линейная модель, увеличение слоя нейронной сети), больше возможностей
Решения с высокой вариативностью: маркировка, упрощение модели, уменьшение размерности

 

298 Какие модели решает алгоритм EM, почему бы не использовать метод Ньютона или метод градиентного спуска?
Модели, решаемые с помощью алгоритма EM, обычно имеют GMM или совместную фильтрацию, а k-средние фактически принадлежат EM. Алгоритм EM определенно сойдется, но он может сойтись к локальному оптимуму. Поскольку количество суммируемых членов будет увеличиваться экспоненциально с увеличением количества скрытых переменных, это вызовет проблемы при вычислении градиента.

Как xgboost оценивает функции? В процессе обучения признаки точек разделения выбираются по индексу Джини, чем больше раз выбирается признак, тем выше оценка признака. [python] #важность функции
print(model.feature_importances_)  
# plot  pyplot.bar(range(len(model.feature_importances_)), model.feature_importances_)  
pyplot.show()  ==========  
# plot feature importance  
plot_importance(model)  
pyplot.show()

 

299 Что такое ООБ? Как рассчитывается OOB в случайном лесу и каковы его преимущества и недостатки?
При бэггинг-методе около 1/3 выборок Bootstrap не будут фигурировать в наборе выборок, каждый раз собираемом Bootstrap, и, разумеется, не будут участвовать в построении дерева решений. называется out-of-bag data oob (out of bag), который можно использовать для замены метода оценки погрешности тестового набора.
Ошибка отсутствия упаковки (oob) рассчитывается следующим образом:
Для сгенерированного случайного леса проверьте его производительность с данными из пакета Предполагая, что общее количество данных из пакета равно O, используйте данные из пакета O в качестве входных данных и введите ранее сгенерированный классификатор случайного леса, классификатор даст O Соответствующую классификацию каждых данных, поскольку тип данных O известен, правильная классификация используется для сравнения результатов классификатора случайного леса и количества неправильных классификаций классификатор случайного леса подсчитывается. Размер ошибки данных = X/O; было доказано, что это несмещенная оценка, поэтому нет необходимости в перекрестной проверке или отдельном наборе тестов в алгоритме случайного леса для получения несмещенной оценки ошибка набора тестов. 

 

300 Предположим, что в mp3-файле Чжан Саня 1000 песен, и теперь я хочу разработать случайный алгоритм для их случайного воспроизведения. В отличие от обычного случайного режима, Чжан Сан надеется, что вероятность того, что каждая песня будет выбрана случайным образом, пропорциональна баллу Douban (0–10 баллов) песни. Например, «Обычная дорога» Пу Шу имеет оценку 8,9 балла. Оценка «Самой яркой звезды в ночном небе» Escape Plan составляет 9,5 балла, а отношение вероятности желания послушать «Обыкновенную дорогу» к «Самой яркой звезде в ночном небе» составляет 89:95. Теперь мы знаем оценки Дубана для этих 1000 песен: (1) Пожалуйста, разработайте случайный алгоритм, чтобы удовлетворить потребности Чжан Саня. (2) Напишите код для реализации собственного алгоритма.
#include <iostream>
#include <time.h>
#include <stdlib.h>
using namespace std;

int findIdx(double songs[],int n,double rnd){
int left=0;
int right=n-1;
int mid;
while(left<=right){
mid=(left+right)/2;
if((songs[mid-1]<=rnd) && (songs[mid]>=rnd))
return mid;
if(songs[mid]>rnd)
right=mid-1;
else
left=mid+1;
}
//    return mid;
}

int randomPlaySong(double sum_scores[],int n){
double mx=sum_scores[n-1];
double rnd= rand()*mx/(double)(RAND_MAX);
return findIdx(sum_scores,n,rnd);
}

int main()
{
srand(time(0));
double scores[]={5.5,6.5,4.5,8.5,9.5,7.5,3.5,5.0,8.0,2.0};
int n=sizeof(scores)/sizeof(scores[0]);
double sum_scores[n];
sum_scores[0]=scores[0];

for(int i=1;i<n;i++)
sum_scores[i]=sum_scores[i-1]+scores[i];

cout<<"Calculate the probability of each song: "<<endl;
int totalScore=sum_scores[n-1];
for(int i=0;i<n;i++)
cout<<scores[i]/totalScore<<" ";
cout<<endl;

int counts[n];
for(int i=0;i<n;i++)
counts[i]=0;

int i=0;
int idx;
int MAX_ITER=100000000;
while(i<MAX_ITER){
idx=randomPlaySong(sum_scores,n);
counts[idx]++;
i++;
}

cout<<"After simulation, probability of each song: "<<endl;
for(int i=0;i<n;i++)
cout<<1.0*counts[i]/MAX_ITER<<" ";
cout<<endl;

return 0;
}

 

301 Для задачи логистической регрессии: prob(t|x)=1/(1+exp(w*x+b)) и метка y=0 или 1, укажите формулу обновления и вывод функции потерь и веса w.
Функция потерь логистической регрессии представляет собой логарифмическую потерю, и формула выражается как:

Формулу обновления w можно получить путем минимизации функции потерь, а именно:
Часть в фигурных скобках эквивалентна функции логарифмического правдоподобия модели логистической регрессии, поэтому ее также можно решить методом функции максимального правдоподобия, Согласно методу градиентного спуска, формула обновления:

 

302 Какая связь между энтропией родительского узла и дочернего узла дерева решений?
А. Родительский узел дерева решений больше
B. Дочерние узлы имеют большую энтропию
C. Оба равны
D. Индивидуально
Правильный ответ: Б. При выборе признаков узел с наибольшим приростом информации должен быть передан родительскому узлу, а расчет прироста информации равен IG(Y|X) = H(Y) - H(Y/X) и H(Y /X) является узлом признака Условная энтропия , тем меньше H(Y/X), то есть, чем более «простой» атрибут узла признака представляет общую информацию, и тем больше IG. Тогда атрибут может быть лучше классифицирован. Чем больше H(Y/X), тем более «неупорядоченным» является признак и тем меньше IG, что не подходит в качестве классификационного признака.

 

303 Каковы причины недообучения и переобучения? Как этого избежать?
Причины недостаточной подгонки: сложность модели слишком мала, она не может хорошо уместить все данные, а ошибка обучения велика;
Избегайте недообучения: увеличивайте сложность модели, например, применяя модели более высокого порядка (прогнозирование) или добавляя дополнительные функции (классификация).
Причины переобучения: сложность модели слишком высока, данные для обучения слишком малы, ошибка обучения мала, а ошибка теста велика;
Избегайте переобучения: уменьшите сложность модели, например, добавьте регулярные штрафные условия, такие как L1, L2, увеличение обучающих данных и т. д.

 

304 При оценке параметров языковых моделей часто используется MLE (оценка максимального правдоподобия). Одна из проблем, с которыми приходится сталкиваться, заключается в том, что вероятность того, что элементы не появятся, равна 0, что приведет к снижению производительности языковой модели. Для решения этой задачи необходимо использовать (А)
Гладкий
B. Шумоподавление
C. Случайная интерполяция
D. Увеличьте белый шум

Обновление и обслуживание этой статьи в настоящее время приостановлено, и почти 3000 других вопросов были обновлены в июльском онлайн-приложении или в июльском онлайн-разделе банка вопросов на официальном веб-сайте.Другими словами, тысячи новых письменных вопросов BAT для интервью, пожалуйста, нажмите:Банк онлайн-вопросов AI за июль.

 

 

Ошибка

  • 2017.12.2, июльская команда онлайн-лекторов начала просматривать все ответы и анализ обзора, потому что эти вопросы будут запущены на июльском официальном онлайн-сайте и в приложении, перед сотнями тысяч или даже миллионами людей, поэтому нам нужно иметь каждый вопрос.Ответы и анализ, и обеспечить точность ответов и анализа. Разделение труда выглядит следующим образом: 1–20 АньЦ, 21–40 д-р Чу, 41–60 Лян Вэйци, 61–80 д-р Гуань, 81–100 Хань Сяоян, 101–120 д-р Чжао, 121–140 Чжан. Юши, 141~160 Ван Юнь, 161~180 Лян Вэйци, 181~200 АнтЦ.
  • 2017.12.8, второй раунд проверки, и начал маркировать каждый вопрос классификационными метками и уровнями сложности.
  • 2017.12.9~12.11, третий раунд проверки, и операционная группа начала заходить на официальный сайт и фоновую систему приложения один вопрос за другим, и она была запущена в день Двойной двенадцати.Официальный сайтиAndroid APP.
  • 24.12.2017, серия вопросов из 1000 вопросов по машинному обучению BAT была увеличена до более чем 300. В дополнение к существующим вопросам на официальном веб-сайте «July Online» и Android, весь банк вопросов AI содержит тысячи вопросов. Мне нравится создание банка вопросов, и я продолжаю добавлять вопросы.
  • Важное примечание: поскольку iOS 1.8 также запустила банк вопросов,Обновление и обслуживание этой статьи приостановлено, и почти 3000 других вопросов были обновлены в июльском онлайн-приложении или в разделе банка вопросов на официальном онлайн-сайте за июль..

 

 

постскриптум

Честно говоря, в отличие от разбора письменных тестовых вопросов по структуре данных/алгоритму, сложность разбора письменных тестовых вопросов по машинному обучению резко возросла, потому что таких вопросов в Интернете очень мало, а сложность сортировки одного ML вопрос эквивалентен сортировке не менее 10 вопросов о сложности структуры данных/алгоритма.

Но хорошо то, что в процессе сортировки этой серии мы также многому научились.Это процесс обучения во время сортировки.Многие проблемы понемногу понимаются во время этой сортировки RNN и многого другого. Когда я вижу вопрос в процессе решения, я намеренно или ненамеренно копаю глубже и продолжаю задавать себе связанные с ним вопросы.Таким образом, я продолжаю обдумывать вопросы один за другим, и это обучение и прогресс. для себя.

Давайте продолжать делать это, пока не будет 1000 или даже тысяч вопросов, по одной причине: это хорошо для всех и имеет долгосрочную ценность.

Наконец, вы можете прочитать эту статью или оставить сообщение для ответа на вопрос, чтобы предоставить лучшие комментарии, или поделиться своими существующими вопросами (вы можете оставить сообщение прямо под комментариями этой статьи, или вы можете отправить личное сообщение через Weibo:@ResearcherJuly), делитесь и помогайте большему количеству людей по всему миру, спасибо.

Июльская команда, не пишите дату, пожалуйста, перейдите в июльское онлайн-приложение или на июльской онлайн-официальный сайт для новых вопросов.