Сердце машины Оригинал,Автор: Ван Цзыцзя, редактор: H4O.
Проблема сворачивания белка стоит дорого, и ее можно решить более эффективно и точно с помощью машинного обучения. В этой статье описаны текущие проблемы, возникающие в этой области, и конкретные алгоритмы, которые может помочь решить машинное обучение.
Проблема сворачивания белка всегда была дорогостоящей проблемой, но решение этой проблемы имеет большое значение для человека. Поэтому различные исследовательские институты начали искать разные решения проблемы сворачивания белков, надеясь найти эффективный и точный способ решить эту проблему.
К счастью, в этом году на CASP (Critical Assessment of Techniques for Protein Structure Prediction) DeepMind нашла одно из «решений машинного обучения» этой проблемы в этом году — AlphaFold, предложение AlphaFold очень хорошо решило эту проблему (1-е место в CASP этого года). , расширяя при этом ИИ для включения биологических наук. Сегодняшняя статья посвящена тому, как машинное обучение проявляется в биологических науках. В этой статье сначала представлены белки и текущие проблемы в области белков, затем рассказывается, что может сделать машинное обучение в этой области, и, наконец, дается взгляд на проблемы и будущее в этой области.
что такое белок
Белки играют чрезвычайно важную роль в нашей жизнедеятельности. Почти каждое действие нашего тела — сокращение мышц, восприятие света или преобразование пищи в энергию — можно объяснить взаимодействием одного или нескольких белков. Пока вы читаете это, гемоглобин в вашей крови переносит кислород к мышцам, транспортер переносит натрий для нейронов, чтобы генерировать потенциалы действия, и причина, по которой вы это читаете, заключается в том, что глаза в ваших глазах Белки фоторецепторов незаменимы.
Работают не только эти «доморощенные» белки: искусственно созданные белки также встраиваются в бактериальные геномы для производства инсулина или для расщепления пластиковых отходов для производства стирального порошка. Таким образом, понимание того, как разрабатывать подходящие искусственные белки, может помочь нам повысить эффективность производства и разработать белки с совершенно новыми функциями. В средней школе у нас фактически не было глубокого понимания белка. Но, возможно, для многих людей старшая школа была давным-давно.Чтобы помочь всем лучше понять эту статью, в этом разделе кратко представлены знания о белках, необходимые для этой статьи.
Вообще говоря, всего насчитывается 20 аминокислот, а белок представляет собой цепочку аминокислот, связанных между собой ковалентными связями. Мы можем думать об аминокислотах как о буквах английского языка, и эта «буква» позволяет нам представлять белки как ряд дискретных токенов, точно так же, как наши английские предложения. Это дискретное последовательное представление называется первичной структурой белка.
Однако в клетках белки существуют в трехмерных структурах. Знание этой трехмерной структуры чрезвычайно важно, потому что функция белка связана с этой структурой. Локальная геометрическая структура белка называется вторичной структурой, и эта структура соответственно определяет характеристики этой части. Наконец, общая геометрия белка называется третичной структурой, которая определяет общие характеристики белка. Все эти структуры закодированы информацией в ДНК.
проблема сворачивания белка
Как упоминалось выше, роль каждого белка зависит от его уникальной трехмерной структуры. Например, белки антител, из которых состоит наша иммунная система, имеют «Y-образную форму», как уникальные крючки, которые, нацеливаясь на вирусы и бактерии, обнаруживают и помечают болезнетворные микробы для их уничтожения. Коллаген, с другой стороны, имеет форму веревки, которая передает напряжение между хрящами, связками, костями и кожей.
Существует множество других типов белков, таких как Cas9, который управляется последовательностью CRISPR и действует подобно SEE, вырезая и вставляя фрагменты ДНК, белки-антифризы, трехмерная структура которых позволяет им связываться с кристаллами льда и предотвращать замерзание организмов; рибоза Организм работает как запрограммированный конвейер, помогая себе строить белки.
Поэтому очень важно определить трехмерную структуру белка. Как упоминалось ранее, определение трехмерной структуры может дать людям лучшее понимание роли белка в организме, чтобы ученые могли разрабатывать новые эффективные методы лечения, более целенаправленные. В то же время при некоторых заболеваниях, вызванных неправильным сворачиванием белков (таких как болезнь Альцгеймера, болезнь Паркинсона, болезнь Хантингтона, муковисцидоз и т. д.), знание правильной трехмерной структуры белков может значительно облегчить врачам понимание этих заболеваний. лечение.
Не только это, но и по мере того, как определяется все больше и больше трехмерных структур, это также становится скрытой силой в разработке лекарств. Помимо медицины, белки могут делать гораздо больше, например, разрабатывать биоразлагаемые ферменты, которые помогают нам расщеплять отходы более экологически безопасным способом, расщепляя загрязняющие вещества, такие как пластик и масло. Хотя определение трехмерной структуры может принести нам так много преимуществ, чем больше белок, тем сложнее и труднее его смоделировать, потому что необходимо учитывать больше взаимодействий между аминокислотами. Как указано в парадоксе Левенталя, потребуется больше времени, чем возраст Вселенной, чтобы перечислить все возможные конфигурации типичного белка, чтобы получить правильную трехмерную структуру.
Более того, нахождение трехмерной формы (вторичной и третичной структуры) белка только по его генетической последовательности (первичной структуре) является чрезвычайно сложной задачей. К сожалению, после десятилетий исследований ученые также обнаружили, что эту загадку нельзя обойти — ДНК содержит только первичную структурную информацию белков, но не может определить, как эти белки складываются (трехмерная структура).
Вот тут-то и возникает проблема, так называемая «проблема сворачивания белка» — предсказать, как эти цепи (первичные структуры) складываются в сложные трехмерные структуры. Чтобы облегчить исследования и оценить новейшие методы повышения точности прогнозирования, в 1994 г. был учрежден глобальный конкурс под названием «Эксперимент сообщества по критической оценке методов прогнозирования структуры белка» (CASP), который в настоящее время стал общим стандартом для всего сообщества. оценивающие технологии.
Зачем внедрять машинное обучение?
За последние пять десятилетий ученые смогли определить идентичность белков с помощью таких экспериментальных методов, как криоэлектронная микроскопия, ядерный магнитный резонанс и рентгеновская кристаллография, но каждый метод требует много времени и усилий для проведения экспериментов. . Чтобы обнаружить структуру, могут потребоваться годы и инвестиции в десятки тысяч долларов. Именно поэтому биологи обращаются к ИИ, надеясь, что ИИ найдет подходящую альтернативу этой долгой и кропотливой работе.
К счастью, из-за быстро снижающейся стоимости секвенирования генов область геномики богата данными, и количество соответствующих последовательностей растет в геометрической прогрессии.
Рисунок 2: Изменения количества белковых последовательностей (источник: https://bair.berkeley.edu/blog/2019/11/04/proteins/)
Таким образом, в последние несколько лет методы глубокого обучения для задач прогнозирования, основанные на геномных данных, становятся все более популярными. DeepMind также начала вмешиваться в эту непростую проблему и разработала на ее основе AlphaFold, которую организаторы CASP оценили как «беспрецедентный прогресс».
Сокровища существующих данных
Поскольку машинное обучение должно быть внедрено, первый вопрос, который необходимо решить, — какую технологию машинного обучения использовать. Если вы хотите провести контролируемое обучение по этой проблеме, вам нужны метки. В этой задаче нам нужно пометить трехмерные координаты каждого атома в белке. Мечение белков — это трудоемкий, ресурсоемкий и длительный процесс, и его могут выполнять только специалисты, особенно специалисты, использующие микроскопы стоимостью 10 000 долларов в час. Таким образом, путь обучения с учителем в настоящее время не работает.
Как было сказано выше, хотя размеченных данных очень мало, зато много неразмеченных геномных данных (белковых последовательностей), и если вы хотите выполнить задачу быстрее и качественнее, то, очевидно, первое, что нужно сделать, это научиться пользоваться этими данными. Оказывается, в этих данных содержится много полезной информации, и эволюционная взаимосвязь — одна из них. Суть эволюционного родства в гомологии, братья одного предка (семьи) должны иметь схожие характеристики. Чтобы лучше понять, что такое эволюционная взаимосвязь, ниже приводится краткое введение в основной метод, который ученые используют для извлечения этой взаимосвязи, — выравнивание последовательностей.
В этом методе мы размещаем последовательность запроса по всей базе данных, ища ее «родственные» последовательности (т. е. потомков одного и того же предка). Рисунок 3 представляет собой простой пример сопоставления (здесь A, T (или U), C, G относятся к нуклеиновым кислотам, а сопоставление белков более сложное, что будет рассмотрено позже). В этом примере мы можем использовать точки (.) для обозначения небольших несоответствий и тире (-) для обозначения отсутствующих значений.
После того, как вы получили общее представление о сопоставлении последовательностей, давайте посмотрим, как выполняется сопоставление белков. Помимо превращения нуклеиновых кислот в аминокислоты необходимо также обратить внимание на их биологические свойства. На следующем рисунке показано частичное выравнивание последовательности белков семейства GFP.Все эти белки являются флуоресцентными белками, то есть они могут излучать свет. Цвета на рисунке представляют разные группы аминокислот, а аминокислоты в одной группе обладают одинаковыми биофизическими свойствами и отмечены одним цветом.
В частности, фиолетовый представляет гидрофобность (C, A, V, L, I, M, F, W), красный представляет заряженные (D, E, R, K), а зеленый представляет положительные незаряженные (S, T, N), Q ). Если цвета двух последовательностей совпадают, значит, свойства этих позиций сохранились в ходе эволюции.
Так чего же мы хотим от эволюционных отношений? Как показано в примере выше, эти белки имеют схожие функции (светоизлучение), но некоторые положения сохраняются, а другие нет - эволюция неопределенна и не полностью наследуется (цвета идентичны). Иногда эти цветовые (аминокислотные) изменения не вызывают изменений в структуре белка и, соответственно, функция белка не меняется.
Поэтому мы хотим извлечь из базы данных информацию о том, где эволюция свободна, где у нее есть свобода действий, а где она полностью ограничена. И эта информация является важным входом при структурных прогнозах. Простой пример: соседние положения в трехмерном пространстве обычно коэволюционируют, то есть мутация в одном положении обычно вызывает мутацию в соседнем положении.Если мутация не происходит вместе, две аминокислоты не должны находиться в одном положении. смежные позиции.
НЛП и проблема сворачивания белка
Большой корпус, труднодоступные метки, выравнивание последовательностей, встраивание, последовательность токенов, а также информация, которую необходимо извлечь из него (встраивание), как упоминалось выше, студенты, изучавшие обработку естественного языка, могут почувствовать, что они вернулись к обработке естественного языка. (Эта связь еще более очевидна для исследователей НЛП в классах НЛП. В результате исследователи обратили свое внимание на один из главных недавних прорывов в НЛП — обучение с самоконтролем, метод получения полезной информации из неразмеченных данных. Одним из наиболее ярких представителей является BERT, вот краткое введение в BERT.
Как показано на рисунке ниже, во время обучения BERT некоторые слова сначала блокируются, а затем заблокированные слова предсказываются другими словами. Таким образом, мы можем получить распределение возможных слов, а затем обучить модель с кросс-энтропийной потерей. Обученная модель может изучить особенности последовательности из последовательности, и эти функции (вложения) можно легко перенести на последующие задачи.
Итак, если мы превратим предложения в аминокислотные последовательности, а последующей задачей станет предсказание структуры белка, станет ли это моделью для проблем сворачивания белков?
Затем задача становится такой: ввести аминокислотную последовательность, получить встраивание белка с помощью BERT и предсказать структуру белка с помощью встраивания белка.
TAPE (Задачи, оценивающие встраивание белка)
О теории было сказано много, так как же конкретно ее реализовать и каков эффект от этого? В статье «Оценка обучения переносу белка с помощью TAPE» точно так же, как GLUE используется в качестве эталона в задачах НЛП, автор предлагает эталон встраивания белка — TAPE (задачи, оценивающие встраивание белка), основанный на GLUE в задачах НЛП и использующий несколько уровней глубины. Модель была протестирована на нескольких классах последующих задач (обнаружение гомологии, белковая инженерия), включая предсказание структуры.
Во-первых, мы кратко представим значение трех последующих задач. Среди этих трех последующих задач выше было упомянуто предсказание структуры; поскольку изменение его аминокислотного состава (то есть изменение одной буквы последовательности) изменит свойства белка, большинство модификаций разрушит его свойства, и чем больше разница исходной последовательности, тем меньше вероятность сохранения функции белка, поэтому задача белковой инженерии заключается в том, как модифицировать белок для оптимизации определенной функции (например, заставить флуоресцентный белок светиться ярче); в то время как задача обнаружения гомологичных чтобы выяснить, являются ли два белка гомологичными (проблема решается выравниванием последовательностей, упомянутым ранее). Каждая из этих задач имеет свою роль, например, белковая инженерия может использоваться для оптимизации эффективности антител против гриппа для создания более качественных вакцин или для увеличения производства биохимических катализаторов для синтеза материала.
В TAPE авторы используют две функции потерь, обычно встречающиеся в задачах НЛП с самоконтролем. Функция потерь в первой задаче предсказания следующего маркера, которая оценивает p(x_i |x_1,...,x_i - 1). Однако многие белковые задачи представляют собой seq2seq и требуют двунаправленной контекстной информации, поэтому автор добавил обратную модель, а именно p(x_i |x_i+1,...,x_L), которая имеет двунаправленную контекстную информацию для каждой позиции. Вторая — это функция потерь в задаче предсказания замаскированных токенов, которая оценивает p(x| x_unmask). В то же время авторы также используют функцию потерь, специально применяемую к задаче с белком, а именно потерю задачи перед обучением с учителем.
При выборе модели автор использовал Transformer, LSTM и Dilated ResNet. Transformer имеет 12 слоев, в каждом из которых 512 скрытых единиц и 8 головок внимания, поэтому эта модель имеет 38 миллионов параметров. LSTM состоит из двух трехуровневых LSTM, аналогичных ELMO, соответствующих прямой и обратной языковым моделям, которые имеют 1024 скрытых модуля, и эти выходные данные объединяются вместе на последнем уровне. ResNet состоит из 35 блоков Res, каждый блок содержит два сверточных слоя и 256 фильтров, размер ядра равен 9, а скорость расширения равна 2. Гиперпараметры трех моделей в основном одинаковы.
TAPE использует Pfam (31 миллион данных) в качестве тренировочного набора перед обучением, где данные сгруппированы в разные семейства на основе эволюционных отношений. В то же время в последующих задачах автор использует 5 наборов данных (соответствующих 3 типам последующих задач, упомянутых выше), а размер наборов данных показан в следующей таблице.
При разделении обучающей выборки и тестовой выборки используются два метода — случайная группировка (Random Families) и группировка по семействам (Family Grouping, Heldout Families). Авторы используют точность, недоумение и экспоненциальную перекрестную энтропию (ECE) в качестве показателей оценки для оценки трех моделей (первые три), обученных с помощью самообучения в задаче обучения языковой модели, и оценивают результаты. в прошлом, и выполняется случайная базовая модель, и результаты показаны в следующей таблице.
Из таблицы видно, что точность (чем выше, тем лучше) и ECE (чем ниже, тем лучше) модели, обученной методом самообучения, лучше, чем у других моделей, при этом точность семейной группировки всегда ниже, чем у случайной сегментации. , показывая, что его способность к обобщению снижена. Обратите внимание, что хотя некоторые модели имеют более низкую сложность, чем другие, как для случайного разделения, так и для вспомогательного набора, эта более низкая сложность не обязательно соответствует лучшей производительности в последующих задачах.
При этом авторы также оценивали производительность этих моделей на 5 задачах. Пять задач таковы:
Предсказание вторичной структуры (Secondary Structure (SS) Prediction — Задача предсказания структуры): относится к задаче предсказания структуры, как следует из названия, предсказание вторичной структуры белка — это задача seq2seq, каждая аминокислота получит метку (спираль или цепь). Критерием оценки является точность.
Предсказание ассоциации (Contact Prediction - Structure Prediction Task): относится к задаче предсказания структуры, связывая входные аминокислоты (в соответствии с определенными принципами), если считается, что две аминокислоты находятся в контакте (в контакте), отношение помечается как 1, иначе отмечен 0. Для оценки использовались 5 лучших показателей точности в результатах.
Удаленное обнаружение гомологии (Удаленное обнаружение гомологии - задача эволюционного понимания): относится к задаче обнаружения гомологии, которая сопоставляет входную последовательность белка с определенной складчатой структурой. По сути, это задача классификации последовательностей, в качестве стандарта измерения принимается окончательная точность.
Предсказание ландшафта флуоресценции - задача белковой инженерии: относится к белковой инженерии и по существу является задачей регрессии. Как показано на панели (а), каждый белок картирован флуорофором. При тестировании в качестве показателя используется коэффициент ρ (корреляция оценок), предложенный Спирменом.
Прогнозирование ландшафта стабильности - белковая инженерия Задача: это также относится к белковой инженерии.Подобно прогнозированию флуоресценции, прогнозируемое содержание представляет собой максимальный диапазон, который аминокислота должна поддерживать для поддержания стабильности.
В следующей таблице приведены характеристики каждой схемы в каждой задаче Данные в таблице могут быть точностью, прецизионностью или ρ Спирмена в зависимости от задачи, но чем больше, тем лучше. Видно, что улучшение предобучения на большинстве задач очевидно.
AlphaFold
Наконец, вернемся к AlphaFold, который фокусирует наше внимание на области белков. Что именно сделал DeepMind? AlphaFold на самом деле представляет собой комбинацию методов глубокого обучения и традиционных методов, в частности CNN + Rosette. В этой статье в основном представлена часть, связанная с глубоким обучением (CNN), которая также является отличным алгоритмом для традиционных методов (Rosette).Процесс победы Чемпионат по AlphaFold Подробное введение давать не буду, если интересно, можете узнать сами.
В AlphaFold они разработали в общей сложности три разных метода: первый — самый традиционный метод, который очень похож на предыдущую экспертную систему — сначала создать двумерную матрицу контактных расстояний из одномерной аминокислотной последовательности (контактная матрица). ) Записать расстояние между двумя аминокислотами. Затем белок разделяется на домены — с сильными взаимными контактами внутри домена, но относительно слабыми контактами между молекулами внутри домена и вне его. Затем предскажите угол сгиба белковой основы.В соответствии с углом складывания белковой основы структура разрезается на серию коротких пептидов с перекрывающимися 9 аминокислотными остатками, которые предсказываются отдельно, а затем собираются вместе, чтобы предсказать структуру всего домена. Наконец, соберите сложенную конструкцию.
Этот метод является основой простого метода ab initio с системой подсчета очков на каждом этапе, чтобы сохранить хорошие результаты и удалить плохие, что также выполняется без глубокого обучения. Метод 2, основанный на методе 1, больше не «разбивается на небольшие короткие цепочки для прогнозирования по отдельности», а напрямую прогнозирует всю область. Метод 3 На основе метода 2 удален шаг сегментации домена, в этот раз шаг становится - сгенерировать 2-мерную матрицу контактных расстояний из одномерной аминокислотной последовательности, предсказать угол сворачивания белкового остова , и, наконец, Градиентный спуск выходит.
Есть три основных места, где используется глубокое обучение: первое место, где используется глубокое обучение, — это предсказание контактной матрицы. Здесь сверточная сеть CNN используется для расширения одномерной аминокислотной последовательности в контактную матрицу. При обучении этой контактной матричной сети сначала выполняется выравнивание последовательности BLAST, а затем функции, полученные в результате выравнивания последовательности, используются для прогнозирования. Эта глубина сети должна быть очень высокой, но на самом деле DNCON2 в начале этого года также может создавать мелкие слои. В сети в качестве метода оценки используется правдоподобие, и сначала выполняется скрининг.
Второе место, где используется глубокое обучение, - это прогнозирование структуры белкового остова.Здесь изображен угол кручения двугранного угла между каждой плоскостью связи.Этот шаг напрямую настраивает предыдущий метод генерации изображения - рекуррентная нейронная сеть для изображения Поколение. Третий — это оценочная сеть для каждого шага, которая также является CNN. Входными данными для оценочной сети являются контактная матрица, сгенерированная первой CNN, признаки, сгенерированные выравниванием последовательностей, геометрия структуры и т.п.
Перспективы и вызовы
Как показано выше, глубокое обучение само по себе не может очень хорошо решить проблему прогнозирования белка, а предварительное обучение не улучшает производительность во всех задачах.Можно видеть, что в этих последующих задачах неконтролируемого обучения (таких как задача прогнозирования контактов) производительность предварительной подготовки хуже. Хотя AlphaFold, выигравшая чемпионат в CASP, в определенной степени уменьшила нагрузку на рабочую силу, она предъявляет чрезвычайно высокие требования к оборудованию, поэтому в определенной степени победу AlphaFold также можно назвать победой оборудования DeepMind. не принципиально Найдите решение "машинного обучения".
Однако в CASP все 5 лучших использовали технологию глубокого обучения, и некоторые другие команды, которые использовали технологию глубокого обучения, также добились хороших результатов. Поэтому объединение результатов CASP и TAPE, машинного обучения и самообучения — это общие направления прогнозирования белков в будущем. И в момент бурного развития самообучения белки также предоставляют ему огромный полигон (с огромной библиотекой последовательностей), поэтому я считаю, что белковые задачи и самообучение будут развиваться все лучше и лучше в процессе взаимного продвижения .
Об авторе: Автором этой статьи является Ван Цзыцзя, который в настоящее время учится на степень магистра в области искусственного интеллекта в Имперском колледже Лондона.