Google открыл код для поиска экзопланет

Автор: Крис Шаллью, старший инженер-программист, команда Google Brain
В последнее время благодаря обучениюНейронные сетиАнализ НАСАКосмический телескоп Кеплерданные и точно определить наиболее многообещающие планетарные сигналы, которые мы нашлидве экзопланеты. Хотя только этот период Первоначально было проанализировано 700 звезд, и мы по-прежнему считаем, что этот результат успешно демонстрирует возможность обнаружения экзопланет с помощью машинного обучения и, в более общем плане, возможность использования машинного обучения в различных областях науки (например,медицинская страховка,Квантовая химияиисследования ядерного синтеза) является еще одним свидетельством значительных успехов.

Мы рады выпустить новый инструмент для обработки данных Кеплера, обучения моделей нейронных сетей и прогнозирования сигналов новых кандидатов от планет.код. Мы надеемся, что этот запуск станет хорошим началом и вдохновит другие миссии НАСА (например,K2(вторая миссия Кеплера) и грядущееТранзитный спутник для исследования экзопланетзадача) разработать аналогичные модели. Наряду с выпуском кода мы также хотели бы воспользоваться возможностью, чтобы подробно рассмотреть, как работают модели, которые мы используем.

Открытие планет
Во-первых, давайте рассмотрим, как обнаружить наличие планет, используя данные, собранные телескопом Кеплер. Приведенный ниже график называется кривой блеска и показывает изменение яркости звезды во времени (нафотометр Кеплераизмерено). Когда планета проходит перед звездой, она ненадолго блокирует часть света, из-за чего измеренная яркость падает, а затем снова на короткое время повышается, создавая U-образный провал на кривой блеска.

Кривая блеска от космического телескопа Кеплер, где U-образный провал указывает на присутствие транзитной экзопланеты.

Однако другие астрономические и инструментальные явления также могут вызывать падение измеренного блеска звезд, в том числеБинарныйсистема,звездное пятно,космические лучиУдарил фотометр Кеплера и шум прибора.

Первая кривая блеска имеет форму буквы «V» и говорит нам о том, что перед звездой, за которой наблюдает Кеплер, проходит очень большой объект (то есть другая звезда). Вторая кривая блеска содержит два провала в яркости, что указывает на существование двойной звездной системы с двумя звездами, одной яркой и одной темной: больший провал вызван тем, что более слабая звезда проходит перед более яркой звездой, меньший провал вызван при прохождении более слабой звезды перед более яркой звездой, наоборот. Третья кривая блеска является примером многих других непланетных сигналов, в которых измеренная яркость звезды, по-видимому, уменьшилась.

Для поиска планет в данных Кеплера ученые используют автоматизированное программное обеспечение, такое какКонвейер обработки данных Kepler) для обнаружения сигналов, которые могут быть вызваны планетами, а затем вручную определить, является ли каждый сигнал планетой или ложным срабатыванием. Чтобы не быть перегруженным слишком большим количеством сигналов, находящихся вне их контроля, ученые наложили ограничение на автоматическое обнаружение: выше фиксированного порога.сигнал-шумбудет считаться заслуживающим последующего анализа, а все обнаружения ниже этого порога будут отброшены. Даже с этим ограничением количество обнаружений по-прежнему пугает: до сих пор мы вручную проверили более Из 30 000 обнаружений Кеплера около 2 500 были подтверждены как настоящие планеты!

Вы можете задаться вопросом: пропускает ли предел отношения сигнал/шум некоторые реальные планетарные сигналы? Ответ - да! Однако, если астрономам необходимо вручную следить за каждым обнаружением, нет необходимости снижать порог, потому что по мере уменьшения порога скорость ложноположительных обнаружений быстро увеличивается, а истинных обнаружений планет становится все меньше и меньше. Тем не менее, есть дразнящий стимул: некоторые потенциально обитаемые планеты, такие как Земля, которые относительно малы и вращаются вокруг относительно слабых звезд, могут скрываться чуть ниже традиционного порога обнаружения — возможно, в данных Кеплера.

методы машинного обучения
Мозговая команда GoogleПрименяйте машинное обучение ко всем видам данных, отчеловеческий геномприбытьпростые штрихи, затем кФормальная математическая логика. Учитывая огромный объем данных, собранных телескопом Кеплер, мы задались вопросом, что мы могли бы обнаружить, если бы использовали машинное обучение для анализа некоторых ранее неисследованных данных Кеплера. С этой целью наше сотрудничество с Техасским университетом в ОстинеAndrew VanderburgСотрудничество разработало нейронную сеть, чтобы помочь искать планеты в обнаружениях с низким уровнем сигнала к шуму.

мы обучилиСверточная нейронная сеть(CNN), чтобы предсказать вероятность того, что данный сигнал Кеплера вызван планетой. Мы выбираем CNN, потому что они полезны в других задачах с пространственной и/или временной структурой (например,генерация звукаиклассификация изображений) был очень успешным.

К счастью, у нас есть 30 000 сигналов Кеплера, которые были проверены и классифицированы людьми вручную. Мы использовали около 15 000 таких сигналов (3 500 были подтвержденными планетами или сильными кандидатами), чтобы обучить нашу нейронную сеть отличать планеты от ложных срабатываний. Входными данными для нашей сети являются два разных вида одной и той же кривой блеска: широкоугольный вид позволяет модели исследовать сигналы в других местах кривой блеска (например, вторичные сигналы, вызванные двойными звездами), а увеличенный вид позволяет модель для тщательного изучения Форма обнаруженного сигнала (например, различение U-образного сигнала от V-образного сигнала).

После того, как мы закончили обучение модели, мы изучили особенности кривой блеска, чтобы увидеть, соответствуют ли они нашим ожиданиям. Техника, которую мы используем (вЭто эссевпервые предложенный в ) состоит в том, чтобы систематически блокировать небольшую область входной кривой блеска и смотреть, изменится ли выход модели. Если заблокировать, области, которые особенно важны для решений модели, изменят выходные прогнозы, но блокировка неважных областей не будет иметь значительного эффекта. Ниже представлена кривая блеска двойной звезды, которая, как правильно предсказала наша модель, не была планетой. Точки, выделенные зеленым цветом, — это точки, которые при блокировке значительно изменят выходные прогнозы модели и точно соответствуют второй «раковине», указывающей на двоичную систему. Когда эти точки заблокированы, прогнозы выходных данных модели изменятся с примерно 0% вероятности того, что планеты находятся примерно на Вероятность 40%, что это планета. Таким образом, эти точки являются частью того, что заставило модель отбросить эту кривую блеска, однако модель также использует другие доказательства — например, увеличение основного провала в центре показывает, что на самом деле это V-образная форма, которая также является признак двойной звезды.

Поиск новых планет
Уверенные в предсказаниях модели, мы проверили ее эффективность, выполнив поиск новых планет в небольшом наборе данных из 670 звезд. Мы выбрали эти звезды, потому что уже знаем, что у них есть планеты, вращающиеся вокруг них, и мы думаем, что в некоторых из этих звездных систем могут быть другие планеты, которые еще не обнаружены. Важно отметить, что мы включили в наш поиск сигналы, которые, как считали ранее астрономы, были ниже порога отношения сигнал/шум. Неудивительно, что наша нейронная сеть отбросила большинство этих сигналов как ложные обнаружения, но также идентифицировала некоторых достойных кандидатов, включая два наших последних открытия:Кеплер-90i и Кеплер-80g.

Откройте для себя собственную планету!
Давайте посмотрим, как опубликованный сегодня код может помочь (пере)открытьKepler-90 iпланета. Первый шаг — следовать кодутитульная страницаОписание обучающей модели. Загрузка и обработка данных телескопа Cipher занимает некоторое время, но после того, как этот процесс будет завершен, модель обучения и прогноз в соответствии с новым сигналом будут относительно быстрыми. Способ найти новые сигналы для отображения в модели состоит в использованииОграничивающий прямоугольник Метод наименьших квадратов(BLS), который ищет периодические «коробчатые» провалы яркости (см. изображение ниже). Алгоритм BLS будет обнаруживать планетарные сигналы в форме буквы «U», сигналы двойных звезд в форме буквы «V» и многие другие типы ложных срабатываний, которые будут отображаться в модели. Существуют различные бесплатные программные реализации алгоритма BLS, в том числеVARTOOLSиLcTools. Кроме того, вы даже можете сделать что-то вродеохотник за планетамиТаким же образом используйте невооруженный глаз, чтобы найти возможные планетарные транзиты.

через алгоритм BLSКеплер 90 звездРезультат обнаружения с низким отношением сигнал/шум был получен на кривой блеска . Обнаружение имеет период 14,44912 дней и продолжительность 2,70408 часов (0,11267 дней), начиная с 2,2 дня после 12:00 1 января 2009 г. (год запуска Кеплера).

Чтобы запустить этот сигнал обнаружения через нашу обученную модель, мы просто выполняем следующую команду:

python predict.py  --kepler_id=11442793 --period=14.44912 --t0=2.2
--duration=0.11267 --kepler_data_dir=$HOME/astronet/kepler 
--output_image_file=$HOME/astronet/kepler-90i.png 
--model_dir=$HOME/astronet/model

Вывод команды — предсказание = 0,94, что означает, что модель на 94% уверена, что этот сигнал — настоящая планета. Конечно, это лишь небольшой шаг в общем процессе открытия и проверки экзопланет: предсказания моделей не могут быть сделаны с уверенностью. Процесс проверки того, что этот сигнал является реальной экзопланетой, требует большой последующей работы профессионального астронома — см.наш тезисПолную информацию см. в разделах 6.3 и 6.4. В этом конкретном случае наш последующий анализ подтвердил, что сигнал действительно был экзопланетой, которая теперь называется Кеплер-90i!

Наша работа над этим далека от завершения. Мы искали только 670 из 200 000 звезд, наблюдаемых Кеплером, — кто знает, что мы могли бы найти, если бы применили этот метод ко всему набору данных. Однако прежде чем приступить к этой работе, мы хотим внести в модель несколько улучшений. как и мыбумагаКак обсуждалось в , наша модель не работает так же хорошо, как некоторые более зрелые компьютерные эвристики при отбрасывании бинарных и инструментальных ложных срабатываний. Мы прилагаем все усилия, чтобы улучшить модель, и теперь, когда она открыта, мы надеемся, что к нам присоединятся и другие!

Если вы хотите узнать больше, Крис в последнем выпускеThis Week In Machine Learning & AIобсуждает свою работу.