Перевод | Ван Кэнин
Произведено | Базовый лагерь технологий искусственного интеллекта (публичный идентификатор: rgznai100)
[Введение] С начала этого года автор ищет работу в области науки о данных, машинного обучения и глубокого обучения в Индии. В течение тридцати четырех дней поиска работы он проинтервьюировал от восьми до десяти компаний, включая стартапы, сервисные и продуктовые компании. Автор надеется, что его опыт собеседования может предоставить некоторую полезную информацию для соискателей, поэтому он написал эту статью. Надеюсь, вы сможете чему-то научиться после прочтения!
Сначала позвольте представиться:
У меня более 4 лет опыта работы в области машинного обучения (приложения для анализа речи, анализа текста и анализа изображений). В целом, я думаю, что большинство должностей в этой области в основном включают анализ текста (обработка естественного языка) и анализ изображений (компьютерное зрение). Немногие компании нанимают специалистов по речевой или аудиоаналитике. Моя цель сейчас — подать заявку на должность среднего и старшего уровня, где я могу возглавить команду глубокого обучения или машинного обучения в некоторых интересных проектах.
Ниже приведены вопросы, которые мне задавали в процессе подачи заявки, надеюсь, это поможет.
▌Компания 1: Компания, предоставляющая глобальные услуги (время интервью: 20-25 минут)
Вы упомянули в своем резюме, что построили систему интеллектуального анализа документов, какую работу вы проделали? Можно ли реализовать кластеризацию документов с помощью метода LDA в тематическом моделировании?
Предположим, у вас есть сотни мегабайт файлов данных, включая PDF-файлы, текстовые файлы, изображения, отсканированные PDF-файлы и т. д., пожалуйста, дайте схему классификации.
Как вы читаете содержимое отсканированных файлов PDF или письменных документов в формате изображения?
Почему Наивного Байеса называют «наивным»?
Пожалуйста, подробно опишите наивный байесовский классификатор.
Что такое глубокое обучение? В чем разница между глубоким обучением и машинным обучением?
опыт☞: Кроме того, интервьюер задал несколько вопросов, но все они меня сбили с толку, я совершенно не представлял, какие ответы он хочет услышать. Я всегда хотел подробно поговорить о технических вопросах, таких как обучение тессеракта (движок OCR с открытым исходным кодом, разработанный HP Labs и поддерживаемый Google) или языковых моделей, но он, похоже, не заинтересован. Может быть, он просто хотел услышать о достигнутых результатах, хорошем объяснении или лучшем решении. Я чувствую, что нет никакой разницы между интервьюированием новичка и интервьюированием опытного профессионала.
▌Компания 2: Компания, предоставляющая глобальные услуги (время интервью: 40-45 минут)
Как выполнить кластеризацию документов в неконтролируемом обучении?
Как найти файлы, относящиеся к определенным запросам/поискам?
Объясните технологию TF-IDF.
По моему опыту, метод TF-IDF плохо работает для классификации документов или кластеризации, как бы вы его улучшили?
Что такое нейронная сеть с долговременной кратковременной памятью (LSTM)?Объясните, как она работает.
Что такое модель word2vec?
Объясните изменяемые и неизменяемые объекты в python.
Какие структуры данных вы использовали в python?
опыт☞:Весь процесс собеседования вращался вокруг вопросов о сходстве текста, и я прошел без заминки. Но на этот раз более глубокого технического обсуждения пока нет. Может быть, у компании есть несколько небольших проектов в области анализа текстов, и, наконец, я получил предложение компании.
▌Компания 3: Компания, основанная на глобальных продуктах и услугах (время интервью: 40 минут)
Как справиться с проблемами классификации нескольких классов с несбалансированными наборами данных?
Как вы выполняете распознавание языка из текстового предложения?
Как изображать иероглифы на китайском или японском языке?
Как разработать чат-бота? (У меня нет идей, но я пытаюсь ответить на это с намерением и обратной связью, основанной на сходстве TF-IDF.)
Можно ли разработать чат-бот с использованием рекуррентных нейронных сетей, чтобы отвечать на входящие вопросы намерениями и ответами.
Предположим, вы создаете чат-бота, используя рекуррентную нейронную сеть или нейронную сеть с долгой кратковременной памятью в наборе данных Reddit, и он может предоставить 10 возможных ответов, как выбрать лучший ответ или как удалить другие ответы?
Объясните, как машины опорных векторов (SVM) изучают нелинейные границы.
Опыт ☞:Есть еще несколько вопросов, которые я не могу вспомнить, это первый раз, когда я вдаюсь в технические подробности на собеседовании, и тогда я также получил предложение от этой компании.
▌Компания 4: Медицинский стартап на один год (время интервью: 50 минут)
Что такое точность и полнота? В медицинской диагностике, что вы считаете более важным?
Объясните точность и вспомните.
Как нарисовать кривую рабочей характеристики приемника (кривую ROC)? Что означает площадь под кривой ROC?
Как построить кривую ROC для задачи классификации нескольких классов?
Перечислите другие показатели для задач мультиклассовой классификации.
Что такое чувствительность и специфичность?
Что означает «случайный» в случайном лесу?
Как сделать классификацию текста?
Как убедиться, что текст выучен? Это невозможно без технологии TF-IDF? (Я ответил, чтобы использовать модель n-грамм (n = 1, 2, 3, 4) и использовать метод TF-IDF для создания длинного вектора счетчиков)
Что еще можно сделать с помощью машинного обучения? (Для классификации я предлагаю комбинацию нейронной сети с долгой кратковременной памятью и word2vec или одномерной рекуррентной нейронной сети в сочетании с word2vec. Но интервьюер хочет улучшить алгоритм, основанный на машинном обучении.)
Как нейронная сеть изучает нелинейные формы, если она состоит из линейных узлов? По какой причине он изучает нелинейные границы?
опыт☞:Было несколько хороших вопросов, которые я не запомнил. Хотя весь процесс интервью прошел хорошо, мы не пришли к согласию по некоторым вопросам. И во время интервью я узнал, что в качестве стартапа на данный момент всего 2-3 человека занимаются ML, DL и DS. В итоге у меня не получилось пройти собеседование.
▌Компания 5: Amazon (время интервью: 50-55 минут)
При обучении дерева решений, каковы его параметры?
Чтобы разделить в определенном узле дерева решений, каков стандарт разделения?
По какой формуле рассчитывается коэффициент Джини?
По какой формуле вычисляется энтропия?
Как дерево решений определяет, для какого признака необходимо произвести разделение?
Как использовать информацию, собранную с помощью математических расчетов?
Кратко опишите преимущества случайных лесов.
Кратко опишите алгоритм бустинга.
Как работает повышение градиента?
Кратко опишите принцип работы алгоритма AdaBoost.
Какие ядра используются в SVM? Каковы методы оптимизации SVM?
Как SVM изучает гиперплоскости? Обсудите детали его математических операций.
Говорите о неконтролируемом обучении? Какие алгоритмы существуют?
Как определить значение K в алгоритме кластеризации K-Means?
Перечислите не менее 3 способов определения K в алгоритме кластеризации K-средних.
Кроме этого, какие алгоритмы кластеризации вы знаете?
Представьте алгоритм DB-SCAM.
Кратко опишите принцип работы иерархической агломерационной кластеризации.
Объясните алгоритм анализа основных компонентов (PCA) и кратко опишите математические этапы использования алгоритма PCA.
20. Каковы недостатки использования алгоритма PCA?
Расскажите о том, как работают сверточные нейронные сети? Подробности его реализации уточняются.
Объясните обратное распространение в сверточных нейронных сетях.
Как вы развертываете модели машинного обучения?
Большую часть времени нам приходится использовать C++ для создания модели машинного обучения с нуля, можете ли вы это сделать?
опыт☞:Я проходил собеседование на должность уровня 6 в Amazon. Их основное внимание уделяется алгоритмам и математике. Но я не был готов к математике, я просто говорил о том, что знал, и не вдавался в подробности математических деталей, поэтому интервьюер не подумал, что я подхожу для работы 6-го уровня. Я считаю, что если вы помните общее математическое представление алгоритмов машинного обучения, вы легко пройдете техническое собеседование в Amazon.
▌Компания 6: Глобальный сервисный гигант (продолжительность интервью: 50-55 минут)
Какова область действия сигмовидной функции?
Назовите пакет в scikit-learn, реализующий логистическую регрессию.
Каково среднее значение и дисперсия стандартного нормального распределения?
Какие структуры данных вы используете в Python?
Какие существуют методы классификации текстов? Как бы вы сделали классификацию?
Объясните технологию TF-IDF и ее недостатки, как преодолеть недостатки TF-IDF?
Что такое биграммы и триграммы? Объясните технику TF-IDF сочетания двух слов и словосочетания из трех слов с текстовым предложением.
Приведите пример, иллюстрирующий применение word2vec.
Как спроектировать нейронную сеть? Как добиться «глубины»? Это основная проблема нейронной сети.
Кратко опишите, как работает LSTM. Как он запоминает текст?
Что такое наивный байесовский классификатор?
Какова вероятность того, что монета будет подброшена 10 раз и выпадет орел 4 раза?
Как получить индекс элемента в списке Python?
Как объединить два набора данных панд?
По поведению пользователя вам нужно имитировать мошенническую деятельность, как бы вы решили эту проблему? Это может быть проблема обнаружения аномалий или проблема классификации!
Дерево решений или случайный лес, что вы предпочитаете?
В чем разница между логистической регрессией и случайным лесом?
Вы бы использовали деревья решений или случайные леса для решения задач классификации? Каковы преимущества случайных лесов?
опыт☞:Я также получил предложение от этой компании. На самом деле, мне очень понравился этот технический обмен. Может быть, вы думаете, что эти вопросы являются самыми основными вопросами в области машинного обучения и науки о данных, но я чувствую, что интервьюер может не быть в этой области или мало знать о развитии этой области.
▌Компания 7: Глобальная компания по управлению бизнесом (продолжительность интервью: 25-30 минут)
В несбалансированном наборе данных, какую модель вы бы выбрали: Random Forest или Boosting? Зачем?
Какие технологии бустинга вы знаете?
Какую модель вы бы выбрали, используя контролируемое обучение для решения задачи классификации? Допустим, есть 40-50 категорий!
Как вы используете технику ансамбля?
Кратко опишите, как работают машины опорных векторов (SVM).
Что такое ядро? Кратко.
Как реализовать нелинейную регрессию?
Что такое регрессия Лассо и регрессия гребня?
опыт☞:Честно говоря, это интервью было немного водянистым, поэтому я не воспринял его всерьез. Но это хороший вопрос. Должность, на которую я проходил собеседование, заключалась в том, чтобы возглавить команду из пятнадцати-шестнадцати человек над проектом, после чего следовало собеседование с менеджером и собеседование с персоналом. В итоге мне предложили работу и достойную зарплату.
▌Компания 8: 4-летняя производственно-сервисная компания (60 минут)
Вы упомянули в своем резюме, что занимались распознаванием речи в выступлениях, в частности, каков ваш метод реализации?
Что такое мел-частотные кепструмы (MFCC)?
Что такое модель смеси Гаусса и как она выполняет кластеризацию?
Как максимизировать ожидания? Расскажите о шагах его реализации.
Как рассчитываются вероятности в модели GMM?
Как вы выполняли настройку MAP для техники GMM-UBM при распознавании произношения?
Расскажите о технике I-вектора, которую вы используете.
При анализе контекста, каковы основные факторы?
В чем разница между JFA и I-вектором? Почему стоит выбрать I-вектор вместо JFA?
Вы когда-нибудь использовали технологию PLDA I-vector?
Вы читали статью Baidu Deep Speaker?
Если у вас есть две модели на выбор, на чем основан ваш выбор? (Изучение методов выбора модели)
Кратко опишите математический принцип работы байесовской информационной метрики (BIC) и количества информации Akaike (AIC).
Как работают байесовские информационные метрики и информационные метрики Акаике?
Что делать, если данные в матрице собственных векторов MFCC отсутствуют?
Как сделать распознавание речи? Каковы характеристики?
Является ли ваш классификатор классификатором речи и музыки или классификатором речи и неречи?
Как глубокие нейронные сети используются в анализе речи?
опыт☞:Да, вы можете быть удивлены, что это такое. Так совпало, что мы оба занимаемся анализом речи (особенно распознаванием произношения). Таким образом, весь процесс интервью сводился к вопросам, связанным с анализом речи. Очевидно, интервьюер был профессионалом и дал мне положительный отзыв. После этого компания предложила мне работу архитектора ИИ-решений.
несколько советов
В процессе поиска работы я поговорил примерно с 25-30 профессионалами, и вот мой совет читателям и соискателям:
резюме важно. Не забудьте четко указать в своем резюме проекты, в которых вы участвовали, соревнования Kaggle, сертификаты курсов MOOC или документы, которые вы получили. Я только что получил приглашение на собеседование от Amazon без каких-либо рекомендаций. Ваше резюме — мощный инструмент, чтобы произвести впечатление на HR и интервьюеров.
Уверенность и энтузиазм – полдела. Обязательно проводите собеседование уверенно и покажите интервьюеру свой энтузиазм (это особенно важно при собеседовании для стартапов и сервисных компаний).
Не спешите отвечать на вопросы интервьюера. Потратьте время, чтобы систематизировать свои ответы, прежде чем отвечать, и обязательно спросите у интервьюера, есть ли что-то, что вы не понимаете в вопросе. Также сохраняйте спокойствие во время интервью!
При объяснении концепций убедитесь, что вы правильно себя представляете.. Назовите несколько проектов, которые вы реализовали, и обязательно ознакомьтесь с навыками и проектами, которые вы сделали, в своем резюме.
В большинстве случаев интервьюер ищет технических специалистов с опытом работы в этой области.. Если вы новичок в этой области, начните с проектов, которые вы сделали при создании своего резюме. Ваша учетная запись GitHub также очень убедительна. Кроме того, вы также можете участвовать в других соревнованиях Kaggle и курсах MOOC.
Столкнувшись с интервьюером, вы должны быть скромными и обращать внимание на мнение интервьюера., иначе вам откажут. Иногда люди, использующие R и Python, презирают друг друга, и вам лучше не ввязываться в этот спор, иначе вас легко отвергнут. Лично я считаю, что и язык R, и язык Python являются инструментами для реализации логики и концепций.
Наконец, я желаю всем вам успешного интервью!
Оригинальная ссылка:
https://appliedmachinelearning.wordpress.com/2018/04/13/my-data-science-machine-learning-job-interview-experience-list-of-ds-ml-dl-questions/