Бумага | Автоматическая классификация клеточной экспрессии путем уменьшения размерности

машинное обучение искусственный интеллект анализ данных алгоритм

Оригинал: Автоматическая классификация клеточной экспрессии с помощью нелинейного стохастического встраивания (ACCENSE).
Картик Шекхар, Петтер Бродин, Марк М. Дэвис и Аруп К. Чакраборти.
Источник: Труды Национальной академии наук (ПНАС), 2014 г., 111(1): 202-207.

Резюме

Масс-цитометрия способна тестировать почти 40 различных белков на уровне отдельных клеток, обеспечивая беспрецедентный уровень многомерной информации. Из-за сложности разнообразных наборов данных о клеточных популяциях также возникают новые требования к вычислительным инструментам для сбора полезных биологических знаний. Ссылаясь на предыдущие методы кластеризации, идентификация клеток с различными функциями основана на сходстве представлений клеток для достижения дифференциации. Конечно, классические методы имеют определенные ограничения, такие как потеря разрешения по одной ячейке, классические методы требуют априорного знания количества объектов в кластере (в данном случае размера субпопуляции ячеек).

статья представляетACCENSE(Автоматическая классификация клеточной экспрессии с помощью нелинейного стохастического встраивания) Инструменты анализа многомерных одноклеточных данных:

  • Метод нелинейного уменьшения размерности, основанный на разбиении по плотности, шаг уменьшения размерности принимаетt-Distributed Stochastic Neighbor Embedding (t-SNE)алгоритм^{[1]}.
  • Исследовательский анализ данных, избегая какого-либо ручного阀门(阈值), который отличается от метода на основе расстояния (определение выбросов) и метода на основе плотности (порог плотности).
  • Упростите сложность и отобразите фенотип нескольких клеток на 2D- или 3D-карте.

Кроме того, в этой статье ACCENSE применяется к масс-проточной цитометрии с 35 параметрами для определения количества CD8+ Т-клеток (данные от конкретных свободных от патогенов и микробов мышей) и для стратификации клеток на фенотипические субпопуляции. То есть для конкретных алгоритмов кластеризации и алгоритмов уменьшения размерности конкретные символические имена будут заменены конкретными именами объектов.

текст

Введение

  • Иммунная система содержит множество типов клеток, которые выполняют различные функции и сложным образом взаимодействуют во время иммунного ответа, определяемого уровнями экспрессии различных белков, поэтому функция отдельной клетки тесно связана с ее клеточным фенотипом. Здесь мы предполагаем, что клетки с различными функциями можно различать путем кластеризации по фенотипическому сходству клеток.

  • Традиционная проточная цитометрия и масс-проточная цитометрия

    • Традиционная проточная цитометрия^{[2]}в, с荧光基因Меченые антитела окрашивают, и их белковые мишени количественно определяют по сигналам эмиссии света при разрешении одной клетки.

      Из-за ограниченных спектров и перекрывающихся сигналов излучения каждая ячейка ограничена 12-16 параметрами.

    • Массовая цитометрия^{[3]},использовать金属螯合探针Отдельные клетки могут быть количественно оценены по 42 параметрам.

    • По сравнению с традиционной проточной цитометрией и масс-спектрометрией существует два основных отличия:

      • Система маркировки различна, первая в основном использует различные флуорофоры в качестве меток антител, а вторая использует в качестве меток различные металлические элементы;
      • Система обнаружения отличается: в первой используются лазеры и фотоумножители, а во второй используется масс-спектрометрия с ИСП.

Алгоритм кластеризации

Зависит от质谱流式细胞技术产生的高维数据, это сложно интерпретировать биологически значимым образом. Однако многие инструменты кластеризации классифицируют клетки на основе сходства экспрессии их белков, например:

  • SPADE 算法 ^{[4,5]}: SPADE использует многомерную информацию для определения кластеров клеток и отображает основные фенотипические иерархии в виде древовидной структуры. Но есть еще недостатки:
    • Одним из них является потеря разрешения одной ячейки;
    • Во-вторых, необходимо предсказать количество целевых кластеров.

алгоритм уменьшения размерности

Точно так же алгоритмы уменьшения размерности объединяют пространственно организованные клеточные популяции в отдельные подмножества клеток в низкоразмерном пространстве на основе сходства экспрессии белков.

  • PCA 算法: Общая идея уменьшения размерности PCA заключается в том, чтобы выбрать и сохранить информацию с очевидными характеристиками и кажущуюся более важной. В этой статье Ньюэлл и др. применили анализ основных компонентов (PCA) к 25-параметрической масс-спектрометрии проточной цитометрии для определения количества CD8+ T-клеток человека и использовали первые три основных компонента (3D-PCA) для выделения клеток. подмножества. 3D-PCA представляет данные в виде трех суммарных переменных, каждая из которых представляет собой линейную комбинацию исходных измерений, и фиксирует дисперсию проецируемых данных до тех пор, пока она не примет максимальное значение. Тем не менее, СПС может найти оптимальные представления среди всех возможных линейных комбинаций в данных, но есть ограничения: линейные проекции могут быть слишком ограничивающими для получения точных представлений^{[6]}(Представляем алгоритм t-SNE).
  • t-SNE 算法 ^{[7]}: t-Distributed Stochastic Neighbor Embedded, метод уменьшения размерности данных и визуализации.Конкретные детали алгоритма следующие:

    • позволять\{x^{(i)}\}представляет фенотип клетки i (i=1, 2, …, M), кодируемый нормализованным n-мерным вектором экспрессии белка.
    • Если в 2D плане этажа,\{y^{(i)}\}Векторное представление больших размерностей\{x^{(i)}\}соответствует низкоразмерному отображению, которое допускает сходные фенотипы Т-клетки встроены близко друг к другу, а клетки с разными фенотипами встроены относительно далеко.
    • возьмем попарную вероятность между ячейками i и j\{p_{i,j}\}выражать\{x^{(i)}\}и\{x^{(j)}\}сходство между.
    • В двумерном плане попарные вероятности\{q_{i,j}\}выражать\{y^{(i)}\}и\{y^{(j)}\}сходство между.
    • минимизируя\{p_{i,j}\}и\{q_{i,j}\}Расхождение KL (можно понимать как функцию стоимости), а затем найти вектор вложения\{y^{(i)}\}, то есть он позволяет в наибольшей степени сохранить информацию о представлении от высокой до низкой размерности.

      КЛ-расхождение (Подробности см. в Приложении 1.), дивергенция Кульбака-Лейблера, также известная как относительная энтропия, которая описывает разницу между двумя распределениями вероятностей P и Q. Формула дивергенции КЛ (1) выглядит следующим образом:

      D KL ({ pi ,j }| {qi,j }) =∑ i,j pi,j log pi,j q i,j
    • \{y^{(i)}\}Может кодировать нелинейные отношения, в отличие от PCA, который ограничен\{x^{(i)}\}линейная комбинация .

    • 最佳嵌入определяется численным градиентным спуском, т.е. сумма KL-расхождений всех точек данных сводится к минимуму (Подробности см. в Приложении 2.).

Определить подмножества ячеек

  • Рассчитайте составное изображение из графика циторассеяния t-SNE, используя преобразование плотности ядраK_\gamma(y):

    K γ (y)=e xp(−| |y−y ′ || 2 2 γ2 )
  • В этом документе,K_\gamma(y)из局部最大值Представлены субпопуляции CD8+ Т-клеток с общим фенотипом, и для идентификации этих локальных максимумов использовали алгоритм обнаружения пиков Matlab.

    Конечно, алгоритм кластеризации K-средних также можно использовать в точках встраивания для идентификации подмножеств Т-клеток, но он требует, чтобы количество кластеров было указано заранее.

  • как получить局部最大值, ключ к формуле (2) в\gammaСколько параметров установлено. т. е. путем сравнения различных ядерно-широкополосных\gammaрезультат, есть\gammaЭто значение обеспечивает точное грубое представление локальных и глобальных признаков, присутствующих в пространстве фенотипов. На рисунках 1-2 предполагается, что мы можем приблизительно идентифицировать подмножества CD8+ Т-клеток на основе данных.

Связанные графики

  • Как показано на рис. 1-1, ACCENSE применяется к многомерным данным масс-спектра.

图1-1ACCENSE ACCENSE 应用于质谱高维数据

Рисунок 1-1 Применение ACCENSE к многомерным данным масс-спектрометрии

(A) Иллюстрация образцов набора данных цитометрии масс-спектрометрии. Строки соответствуют разным клеткам, а столбцы соответствуют разным меченым металлохелатирующим антителам, экспрессия которых (антигены клеточной поверхности и внутриклеточные белки) измерялась. Каждый кортеж соответствует преобразованному значению отношения массы к заряду (обратная гиперболическая функция), указывающему уровень экспрессии каждого маркера. (C) 2D профиль t-SNE CD8+ Т-клеток от мышей SPF B6. Каждая точка представляет собой ячейку из обучающего набора (M = 18304), а точки данных были получены путем понижения дискретизации исходного набора данных. (D) Используя ядровое преобразование плотности (K_{\gamma}(y)\,{,}\,\gamma = 7), встраивая локальные плотности вероятностей ячеек в составное изображение (C). Стандартный алгоритм обнаружения пиков использовался для выявления локальных максимумов в центре фенотипических субпопуляций, представленных на двумерных картах плотности.

  • Как показано на рисунке 1-2, пик увеличивается с\gammaменяется с увеличением.

图1-2展示了峰值随着γ的增加而变化

На рис. 1-2 пик показан как\gammaизменяется с увеличением

приложение

1 Вероятность в t-SNE

p_{i,j}вероятность

Основываясь на сходстве белков, установитеp_{j|i}(i,j = 1, 2, …, M) представляет собой вероятность того, что ячейка i выберет ячейку j в качестве ближайшего соседа (p_{j|i}чем большеx^{(i)} 和 x^{(j)}ближе):

pj|i = e xp(− d2 i, j /2 σ2 i )∑ k≠i exp (−d 2 i ,k /2σ 2 i ),di,j =||x (i) −x (j) ||2

для вероятностиp_{j|i}Несколько заметок:

  • d_{i,j}Вместо евклидовых парадигм расстояния можно использовать альтернативные парадигмы расстояния;
  • Исходный алгоритм SNE является асимметричным, для упрощения формулы градиента пусть условная вероятность формулы (3) в t-SNE будет симметричной. то есть инициализироватьp_{i|i} = 0, для любогоp_{i|j} = p_{j|i},Доступный:

    p i,j =p j|i +pi|j 2 M =e xp( −d 2 i ,j / 2σ 2 i ) ∑ k≠i exp (− d 2 i ,k / 2σ 2 i )
  • разные точкиx_i,пропускная способность\sigma_iЦенности тоже разные.

    • Полоса пропускания в уравнении (3)\sigma_iзаключается в том, чтобы каждая ячейка имела одинаковую сложность (Complexity). Сложность можно понимать как有效近邻点个数.
    • Определить сложность какP_i = 2^{H_{j|i}}, что приблизительно интерпретируется как количество ближайших соседей к ячейке i.
    • определениеp_{j|i}Энтропия Шеннона (информационная энтропия)H_{j|i} = - \sum_j p_{j|i} \log_2 p_{j|i}H_{j|i}вместе с\sigma_iувеличивается с ростом.

      В данной работе сложность графа t-SNE установлена ​​равной 30, то есть сложность в диапазоне 10-50 мало влияет на конечный результат (более высокую надежность).

q_{i,j}вероятность

для низкоразмерных\{y_i\}, в исходном алгоритме SNE^{[7]}У Хинтона и Роуэрса речь идет о гауссовских ядрах (Gaussian Kernels). определениеq_{i,j}, но встречается в низкоразмерных выражениях拥挤问题.

拥挤问题: то есть кластеры сгруппированы вместе и не могут быть различимы. Например, есть многомерные данные, которые могут быть хорошо выражены, когда размерность уменьшена до 10 измерений, но достоверная карта не может быть получена после того, как размерность уменьшена до двух измерений. Конкретная ситуация заключается в том, что если есть несколько точек в 10 измерениях, которые находятся на равном расстоянии друг от друга, достоверный результат отображения не может быть получен в двух измерениях.
Чтобы проиллюстрировать далее, предположим, что вы начинаете с точки данныхx^iпредставляет собой m-мерную сферу радиусом r (трехмерное пространство представляет собой сферу), а ее объем равенr^mрастет, предполагая, что точки данных равномерно распределены в m-мерной сфере, давайте посмотрим на другие точки данных сx^iРасстояние меняется по мере увеличения размера.

t-SNE облегчает проблему скопления людей, используя более длиннохвостое распределение для преобразования расстояний в распределения вероятностей.^{[8]}, так что естьq_{i,j}:

q i,j =( 1+∆ 2 i ,j ) −1 ∑ k≠i (1 + ∆ 2 i ,k ) −1 , ∆i ,j = ||y (i) − y (j) ||2

Аналогично, для вероятностиq_{i,j}Несколько заметок:

  • \Delta_{i,j}Вместо евклидовых парадигм расстояния можно использовать альтернативные парадигмы расстояния;
  • Исходный алгоритм SNE является асимметричным, для упрощения формулы градиента пусть условная вероятность формулы (5) в t-SNE будет симметричной. то есть инициализироватьq_{i|i}=0, для любогоq_{i|j} = q_{j|i}.

2 Численный градиентный спуск

  • Процедура, описанная в [7], дает формулу оптимизированного градиента следующим образом:
∂ DKL ( {pi ,j } | {qi ,j } ) ∂ ( i ) yt знак равно 4 ∑ j ( pi , j - qi , j ) ( 1 + | | y ( я ) т - y ( j ) т | | 2 ) ( у ( я ) т - у ( j ) т )
  • Итеративно вычисляет локальные максимумы градиентным спуском:

    y (i) t+ 1 = y (i) t + η(t) ∂D KL ({ pi ,j }| {qi,j }) ∂ ( i) yt +α (t) (y ( i) t − у ( я ) т -1 )
    • y_t^{(i)}представляет решение для итерации t раз,\eta(t)скорость обучения,\alpha(t)представляет импульс для t итераций.
    • Начальная скорость обучения\eta(t) = 100\,^{[9]}, а кинетическая энергия\alpha(t)установить как:

      α (t) = { 0,8 , t

недостаточный

  • t-SNE в основном используется для визуализации и его трудно использовать для других целей. Например, уменьшение размерности тестового набора, поскольку он не имеет явной части оценки, не может быть уменьшено напрямую в тестовом наборе.
  • О базовой пропускной способности\gammaПроблема с настройкой параметров: текст показывает\gammaВеличина параметра количественно коррелирует со способностью идентифицировать субпопуляции клеток. Однако, хотя подход, основанный на данных, может обеспечить автоматическую кластеризацию, ему не хватает\gammaОписание того, как управлять диапазоном настройки параметров.

Ссылаться на

[1] Maaten L, Hinton G. Visualizing data using t-SNE [J]. Journal of machine learning research, 2008, 9(Nov): 2579-2605.
[2] Cantor H, Simpson E, Sato V L и др. И функциональные исследования периферических Т-клеток, связывающих различное количество флуоресцентных анти-thy 1.2 (тета) антитело с использованием флуоресцентно-активируемого клеточного сортера (FACS) [J], 1975.
[3] Bendall SC, Nolan GP, ​​Roederer M, и др. Руководство по цитометрии для глубокого профайлера [J] Тенденции в иммунологии, 2012, 33(7): 323-332.
[4] Qiu P, Simonds E F, Bendall S C, et al. Extracting a cellular hierarchy from high-dimensional cytometry data with SPADE [J]. Nature biotechnology, 2011, 29(10): 886.
[5] Bendall S C, Simonds E F, Qiu P, et al. Single-cell mass cytometry of differential immune and drug responses across a human hematopoietic continuum [J]. Science, 2011, 332(6030): 687-696.
[6] Van Der Maaten L, Postma E, Van den Herik J. Dimensionality reduction: a comparative [J]. J Mach Learn Res, 2009, 10: 66-71.
[7] Maaten L, Hinton G. Visualizing data using t-SNE [J]. Journal of machine learning research, 2008, 9(Nov): 2579-2605.
[8] Крисфер. t-SNE Complete Notes [OL]. www.datakit.cn. 2017.
[9] Jacobs R A. Increased rates of convergence through learning rate adaptation[J]. Neural networks, 1988, 1(4): 295-307.

  • Автор этой статьи: Kofe
  • Ссылка на эту статью: Woohoo.KOF ES.Can/2018/06/АВТ…
  • Уведомление об авторских правах:Все статьи в этом блоге, если не указано иное, используютCC BY-NC-SA 3.0соглашение. Пожалуйста, укажите источник!