основные вопросы
яблоко
Предположим, вы имеете дело с миллионами пользователей, каждый из которых совершает сотни транзакций с тысячами продуктов. Как вы осмысленно классифицируете этих пользователей?
Майкрософт
1. Пожалуйста, опишите проект, в котором вы участвуете, и что делает его уникальным.
2. Как работать с категориальными признаками высокой кардинальности?
3. Как резюмировать ленту Twitter?
4. Каковы шаги по очистке данных перед применением алгоритмов машинного обучения?
5. Как измерить расстояние между точками данных?
6. Пожалуйста, определите отклонение.
7. Пожалуйста, опишите разницу между коробчатой диаграммой и гистограммой и приведите пример использования.
Какие функции вы бы использовали для построения алгоритма рекомендаций для пользователей?
Uber
1. Выберите продукт или приложение, которое вам действительно нравится, и расскажите, как вы планируете его улучшить.
2. Как найти аномалию в распределении?
3. Если определенная тенденция в распределении обусловлена выбросом, как бы вы ее исследовали?
4. Как бы вы оценили влияние Uber на трафик и условия вождения?
5. Какие параметры вы бы использовали, чтобы отслеживать, действительно ли платная реклама Uber привлекает новых клиентов? Как бы вы рассчитали идеальную стоимость привлечения нового клиента?
Инженер по большим данным, можете ли вы объяснить, что такое REST?
вопросы по машинному обучению
1. Почему вы используете выбор функций?
2. Если два предиктора сильно коррелированы, как это повлияет на коэффициенты логистической регрессии? Что такое доверительный интервал для коэффициента?
3. В чем разница между гауссовой смешанной моделью и K-средними?
4. Как выбрать k для K-средних?
5. Когда применять смешанные модели Гаусса?
6. Предполагая, что метки модели кластеризации известны, как оценить производительность модели?
Майкрософт
1. Приведите пример проекта машинного обучения, которым вы гордитесь.
2. Опишите любой алгоритм машинного обучения.
3. Опишите, как работает Gradient Boosting.
4. Интеллектуальный анализ данных: опишите модель дерева решений.
5. Интеллектуальный анализ данных: что такое нейронная сеть?
6. Объясните компромисс смещения и дисперсии.
7. Как бороться с несбалансированной бинарной классификацией?
8. В чем разница между регуляризацией L1 и L2?
Uber
1. Какую функцию вы бы использовали, чтобы предсказать, примет ли водитель Uber заказ на поездку? Какой алгоритм обучения с учителем вы бы использовали для решения этой задачи? Как сравнить результаты алгоритмов?
2. Дайте и опишите три различные функции ядра и соответствующие условия их применения.
3. Опишите метод, используемый в машинном обучении.
4. Как работать с разреженными данными?
IBM
1. Как предотвратить переоснащение?
2. Как бороться с выбросами в данных?
3. Как анализировать прогностическую эффективность регрессионных моделей по сравнению с классификационными моделями?
4. Как вы оцениваете модель логистической регрессии по сравнению с простой моделью линейной регрессии?
5. В чем разница между обучением с учителем и обучением без учителя?
6. Что такое перекрестная проверка? Зачем использовать перекрестную проверку?
7. Как называется матрица, используемая для оценки прогностической модели?
8. Какая связь между коэффициентами логистической регрессии и отношением шансов (Odds Ratio)?
9. Какая связь между анализом главных компонентов (PCA) и линейным и квадратичным дискриминантным анализом (LDA и QDA)?
10. Если бы у вас была категориальная зависимая переменная и смесь категориальных и непрерывных независимых переменных, какой алгоритм, метод или инструмент вы бы использовали для проведения анализа?
11. Бизнес-аналитика: в чем разница между логистической и линейной регрессией? Как избежать локальных минимумов?
Salesforce
1. Какие данные и модели вы бы использовали для измерения потерь/оттока? Как измерить производительность модели?
2. Попробуйте объяснить алгоритм машинного обучения нетехническому человеку.
Capital One
1. Как разработать модель для прогнозирования мошенничества с кредитными картами?
2. Что делать с отсутствующими или неправильными данными?
3. Как получить новые функции из существующих?
4. В прогнозировании пола клиента, если у вас есть только 100 точек данных, что может пойти не так с вашим прогнозом?
5. Исходя из двухлетней истории торговли, какие характеристики вы бы использовали для прогнозирования кредитного риска?
6. Пожалуйста, разработайте программу ИИ, которая может играть в крестики-нолики.
Zilow
1. Объясните, пожалуйста, что такое переобучение и как его избежать.
2. Почему SVM должен максимизировать разницу между опорными векторами?
Hadoop
1. Как использовать Map/Reduce для разделения большого графа на мелкие части и выполнения параллельных граничных вычислений в соответствии с быстрыми/динамическими изменениями данных?
2. Инженер по обработке данных. Для списка поклонников используется следующий формат: 123, 345234, 678345, 123... Первый столбец — это идентификатор поклонника, а второй столбец — идентификатор поклонника. Цель состоит в том, чтобы найти все взаимные группы поклонников (123, 345 в приведенном выше примере). Как использовать Map/Reduce для решения проблем, когда список выходит из памяти?
Capital One
1. Data Engineer: Что такое сериализация Hadoop?
Explain a simple Map/Reduce problem.
2. Объясните простую задачу Map/Reduce.
Статистика и вероятностные вопросы
1. Пожалуйста, объясните перекрестную проверку нетехническому специалисту.
Describe a non-normal probability distribution and how to applyit.
2. Пожалуйста, опишите ненормальное распределение вероятностей и как оно применяется.
Майкрософт
Интеллектуальный анализ данных: что такое гетероскедастичность и как ее исправить?
Как измерить взаимодействие с существующими пользовательскими данными Twitter?
Uber
1. Что такое метод прогнозирования временных рядов?
2. Расскажите об анализе главных компонентов (PCA) и используемых в нем уравнениях.
3. Как решить мультиколлинеарность?
4. Напишите уравнение для оптимизации расходов на рекламу в Twitter и Facebook.
Вытяните две карты из колоды, какова вероятность того, что выпадет одна и та же масть?
IBM
Что такое p-значения и доверительные интервалы?
Capital One
1. Аналитик данных. Предположим, у вас есть 70 красных шариков и соотношение зеленых и красных шариков составляет 2:7. Сколько зеленых шариков?
2. Как должно выглядеть распределение ежедневных данных о трафике в Нью-Йорке?
3. Что является наибольшим шансом получить 6 при 6 бросках, или хотя бы две 6 при 12 бросках, или не менее 100 6 при 600 бросках?
PayPal
Что такое Центральная предельная теорема и как ее доказать? Что такое приложение?
Программирование и алгоритмы
Аналитик данных: Пожалуйста, напишите программу, которая определяет высоту произвольного бинарного дерева.
Майкрософт
Пожалуйста, создайте функцию, которая проверяет, является ли слово палиндромом.
1. Создайте силовой набор.
How do you find the median of a very large dataset?
2. Как найти медиану в огромном наборе данных?
Uber
Инженер данных: Напишите функцию, которая вычисляет квадратный корень (до процентиля) заданного числа. Затем используйте механизм кэширования для оптимизации функции, чтобы избежать избыточных вычислений.
1. Предполагая, что у вас есть две двоичные строки, напишите функцию, которая складывает их вместе без использования каких-либо встроенных средств преобразования строки в целое или синтаксического анализа. Например: если вы дадите своей функции двоичные строки 100 и 111, она должна вернуть 1011. Какова пространственная и временная сложность вашего решения?
2. Напишите функцию, которая принимает на вход два отсортированных списка и выводит их объединение в отсортированный список.
1. Data Engineer: написать код, который определяет, сбалансированы ли скобки в строке?
2. Как найти второй по величине элемент в бинарном дереве поиска?
3. Напишите функцию, которая принимает на вход два отсортированных вектора и выдает отсортированный вектор.
4. Столкнувшись с потоком ввода чисел, как на лету найти наиболее часто встречающееся число?
5. Напишите функцию, которая прибавляет одно число к другому, как функция pow().
6. Разделите большую строку на допустимые поля и сохраните в словаре. Возвращает false, если строку нельзя разделить. В чем сложность вашего решения?
Salesforce
1. Какова вычислительная сложность поиска наиболее часто встречающихся слов в документе?
2. Столкнувшись с 10 ТБ неструктурированных данных о клиентах, как найти и извлечь ценную информацию?
Capital One
1. Инженер данных: как «разделить» две серии (как JOIN в SQL, но наоборот)?
2. Создайте функцию, которую можно добавить, и числа представлены в виде двух связанных списков.
3. Создайте функцию, которая вычисляет сумму матрицы.
4. Как я могу прочитать очень большой файл чисел, разделенных табуляцией, в Python, чтобы подсчитать, как часто встречается каждое число?
Paypal
1. Напишите функцию, которая читает предложение и печатает его в обратном порядке за время O(n).
2. Напишите функцию, которая принимает последовательность чисел, делит ее на массивы из двух столбцов всеми возможными способами за время O(n) и выводит максимально возможную разницу между двумя массивами.
3. Напишите программу, выполняющую сортировку слиянием.
SQL-проблема
Майкрософт
1. Аналитик данных: определите и объясните разницу между кластеризованными и некластеризованными индексами.
2. Аналитик данных. Какие есть способы вернуть количество строк в таблице?
1. Data Engineer: Учитывая таблицу необработанных данных, как выполнить ETL (извлечение, преобразование, загрузка) с помощью SQL, чтобы получить данные в нужном формате?
2. Как написать SQL-запрос, который вычисляет таблицу частот, включающую определенное свойство двух объединений? Какие изменения мне нужно внести, если я хочу ORDER BY или GROUP BY для определенных свойств? Как описать NULL?
Инженер данных: как повысить пропускную способность ETL (извлечение, преобразование, загрузка)?
игры ума и слов
Есть 10 упаковок шариков по 10 шариков в каждой. Вес одного из пакетов отличается от веса других. Как узнать, можно ли его взвесить только один раз?
1. Вы собираетесь лететь в Сиэтл и хотите знать, нужно ли брать с собой зонтик. Вы звоните каждому из трех своих друзей в Сиэтле. У каждого друга есть 2/3 шанса сказать вам правду и 1/3 шанса солгать вам. Если все говорят «будет дождь», какова вероятность дождя в Сиэтле?
2. Предположим, что есть равносторонний треугольник с муравьем в трех углах.Каждый случайным образом выбирает направление и ходит по сторонам треугольника.Какова вероятность,что эти муравьи не столкнутся? Если в многоугольнике с n углами есть n муравьев, какова вероятность?
3. Сколько нулей в факториале 100 (т.е. 100!)?
Uber
Предположим, вы работаете в больнице. Частота посещений пациентов подчиняется распределению Пуассона, а частота обращений врачей к пациентам подчиняется равномерному распределению. Пожалуйста, напишите функцию или фрагмент кода, который дает среднее время ожидания для пациентов и общее количество пациентов, осмотренных врачами в любой день.
Вы поднимаетесь по лестнице с n ступенями, вы можете использовать любое количество ступенек k. Итак, сколько существует различных способов добраться до вершины лестницы? (это модифицированная версия задачи о лестнице)
Статья: TinyMind