Дайте два каштана: как правильно собрать персональный набор проектов по машинному обучению

Из книги «На пути к науке о данных» Эдуарда Харриса.Составлено Heart of the Machine.

интервьюмашинное обучениеКогда дело доходит до работы, что вы пишете в разделе личного проекта своего резюме? моделирование? Занимаетесь проектом по машинному обучению? Откуда берутся данные проекта? В двух успешных примерах, представленных Эдуардом Харрисом, основателем SharpestMinds, люди начали проект шаг за шагом с базового сбора данных: цель ясна и конечная цель.

Я физик, работаю в стартапе YC. Наша миссия — помочь выпускникам найти свою первую работу в сфере машинного обучения.

Одна из вещей, которую вам нужно сделать, чтобы получить свою первую работу в области машинного обучения, — это создать собственное портфолио машинного обучения. Теперь позвольте мне сказать вам ответ.

Вам может быть интересно, почему это так важно, и это потому, что менеджеры по найму обычно знают вас по вашему резюме, и если у вас его нет, личный проект является ближайшей заменой.

По профессиональным причинам я видел сотни случаев личных проектов, некоторые из которых были выполнены очень хорошо, а некоторые очень плохо. Я покажу вам два превосходных случая.

изо всех сил

То, что я собираюсь рассказать дальше, — это реальная история, но я изменил имя главного героя из соображений конфиденциальности.

Компания X использует ИИ для оповещения продуктовых магазинов, когда пора заказывать новые товары. На нашей стороне есть студент, Рон, который очень хотел работать в компании X, поэтому он создал личный проект, посвященный собеседованиям в этой компании.

Обычно мы не рекомендуем идти ва-банк на компанию таким образом. Это немного рискованно. Другое дело такая компания, как Рон, который очень хочет перейти в эту компанию.

Отсутствующие элементы отмечены красными рамками.

Рон только что начал прикреплять свой телефон к тележке для покупок. Затем он ходил вверх и вниз по проходам, толкая тележку для покупок, записывая это на камеру. Он делал это от 10 до 12 раз в разных продуктовых магазинах.
Вернувшись домой, Рон начал строить модель машинного обучения. Его модель нашла на полках продуктовых магазинов пустой дефект: нехватка места на полке для кукурузных хлопьев (или чего-то еще).
Рон построил свою модель в прямом эфире на GitHub, полностью общедоступную. Каждый день он улучшает свой репозиторий (повышает точность и записывает изменения проекта в README своего репозитория).
Когда компания X поняла, что этим занимается Рон, компания X заинтересовалась, и более чем заинтересовалась, на самом деле, компания X немного нервничала. Почему они нервничают? Потому что Рон по незнанию скопировал часть их фирменного стека технологий за считанные дни.

Конечно, то, что сделал Рон, далеко не идеально: компания X вложила на порядки больше ресурсов, чем Рон, для решения этой проблемы. Но, будучи слишком похожими, они быстро позвонили Рону, чтобы он сделал репозиторий частным.

Технологии компании X считаются одними из лучших в отрасли. Тем не менее, в течение 4 дней проект Рона привлек личное внимание генерального директора компании X.

пилотный проект

Вот еще одна реальная история:

Алекс изучает историю, по специальности русский язык (на самом деле), и он также интересуется машинным обучением. Еще более необычно то, что он решил изучить Python, хотя никогда его не писал.

Алекс решил учиться, создавая практические проекты. Он решил создать классификатор, чтобы определять, находится ли летчик-истребитель в самолете без сознания. Алекс надеется выяснить это, посмотрев пилотное видео. Он знал, что человеку легко сказать ему, когда пилот без сознания, поэтому Алекс подумал, что машины тоже должны уметь это делать.

Вот что Алекс сделал за эти месяцы:

Демонстрация детектора бессознательного состояния Алекса, вызванного G-силой.

Алекс скачал все видеоклипы (десятки или около того) пилотов, управляющих самолетом из кабины, на YouTube.
Затем он начинает маркировать данные. Алекс создал пользовательский интерфейс, который позволял ему прокручивать тысячи видеокадров, нажимать одну кнопку для «в сознании» и другую для «бессознательного» и автоматически сохранять кадр в правильно помеченной папке. Процесс маркировки был очень, очень скучным и занял у него несколько дней.
Алекс построил конвейер данных для изображений, которые вырезали пилота из фона кабины, облегчая его классификатору фокусировку на пилоте. Наконец, он построил свой классификатор потери сознания.
Пока он делает все это, Алекс также показывает менеджерам по найму снимки своих проектов на сетевых мероприятиях. Всякий раз, когда он доставал свой проект и показывал его на своем телефоне, его спрашивали, как он это сделал, как построил трубопровод и как собирал данные. Но они никогда не спрашивали о точности его модели (ниже 50%).

Конечно, Алекс тоже планировал улучшить свою точность, но его наняли раньше, чем он это сделал. Выяснилось, что компания ценила визуальные эффекты его проектов, безумие и остроумие при сборе данных, а не точность его моделей.

что у них общего

Почему Рон и Алекс так успешны? Потому что они сделали четыре вещи правильно:

Они не тратили много сил на моделирование. Я знаю, это звучит странно, но сегодня во многих случаях моделирование — это решаемая проблема. На практике, если вы не занимаетесь передовыми исследованиями, от 80% до 90% вашего времени уходит на очистку данных. Как ваши личные проекты могут быть исключением?
Они сами собирают данные. Из-за этого окончательные данные, которые они получают, более беспорядочны, чем данные в базах данных Kaggle или UCI. Но именно эти беспорядочные данные улучшают их способность справляться с беспорядочными данными. Это позволяет им лучше понимать свои данные, чем загружать их с академического сервера.
Они визуализируют то, что делают. Собеседование — это не объективная оценка ваших способностей всезнающим судьей, а продажа себя другому человеку. Люди — визуальные животные. Если вы достанете телефон и покажете свою работу интервьюеру, стоит убедиться, что то, что вы делаете, выглядит интересно.
То, что они делают, кажется немного сумасшедшим. Нормальные люди не приклеивают свои телефоны к тележкам. Нормальному человеку не потребовалось бы так много времени, чтобы обрезать пилотное видео с YouTube. Кто бы сделал такое? Те, кто отчаянно пытается достичь своих целей, делают это. Это тип человека, которого компании хотят нанять.

То, что делают Рон и Алекс, может показаться преувеличением, но на самом деле это примерно то же самое, что вы делали бы на реальной работе. Вот суть: когда у вас нет опыта работы в чем-то, менеджеры по найму рассчитывают на то, что у вас есть аналогичный опыт в чем-то.

К счастью, вам нужно сделать проект такого масштаба только один или два раза — Рон и Алекс повторно используют ранее подготовленные проекты для всех своих интервью.

Так что если бы мне пришлось подытожить секрет отличных проектов машинного обучения в одном предложении, я бы сказал следующее: создайте проект с интересным набором данных, сбор которого требует больших усилий и является максимально эффектным визуально.

Оригинальная ссылка:к data science.com/he и -cold-body…