Методы анализа микрочипов - Microarray analysis techniques

Пример микроматрицы олигонуклеотидов с пятнами приблизительно 40 000 зондов с увеличенной вставкой для демонстрации деталей.

Методы анализа микрочипов используются для интерпретации данных, полученных в результате экспериментов с ДНК ( анализ генных чипов ), РНК и белковыми микрочипами , которые позволяют исследователям исследовать состояние экспрессии большого количества генов - во многих случаях всего генома организма - в одном эксперименте. Такие эксперименты могут генерировать очень большие объемы данных, позволяя исследователям оценить общее состояние клетки или организма. Данные в таких больших количествах трудно - если вообще возможно - анализировать без помощи компьютерных программ.

Вступление

Анализ данных микроматрицы - это заключительный этап считывания и обработки данных, производимых микрочипом. Образцы проходят различные процессы, включая очистку и сканирование с помощью микрочипа, который затем производит большой объем данных, требующих обработки с помощью компьютерного программного обеспечения. Он включает в себя несколько отдельных шагов, как показано на изображении ниже. Изменение любого из шагов приведет к изменению результата анализа, поэтому проект MAQC был создан для определения набора стандартных стратегий. Существуют компании, которые используют протоколы MAQC для выполнения полного анализа.

Шаги, необходимые в эксперименте с микрочипом

Методы

Ученый Национального центра токсикологических исследований анализирует данные микрочипов

Большинство производителей микрочипов, таких как Affymetrix и Agilent , предоставляют коммерческое программное обеспечение для анализа данных вместе со своими продуктами для микрочипов. Существуют также варианты с открытым исходным кодом, в которых используются различные методы анализа данных микрочипов.

Агрегация и нормализация

Сравнение двух разных наборов или двух разных образцов, гибридизованных с одним и тем же набором, обычно включает внесение поправок на систематические ошибки, вызванные различиями в процедурах и эффектами интенсивности красителя. Нормализация красителя для двух цветовых массивов часто достигается локальной регрессией . LIMMA предоставляет набор инструментов для коррекции фона и масштабирования, а также возможность усреднять повторяющиеся пятна на слайде. Распространенным методом оценки того, насколько хорошо нормализован массив, является построение графика скользящей средней для данных. Графики MA могут быть созданы с использованием таких программ и языков, как R, MATLAB и Excel.

Необработанные данные Affy содержат около двадцати зондов для одной и той же РНК-мишени. Половина из них - это «пятна несоответствия», которые не точно соответствуют целевой последовательности. Теоретически они могут измерить количество неспецифического связывания для данной цели. Надежное усреднение по нескольким массивам (RMA) - это подход к нормализации, который не использует преимущества этих точек несоответствия, но все же должен суммировать идеальные совпадения с помощью медианной полировки . Алгоритм медианной полировки, хотя и надежен, ведет себя по-разному в зависимости от количества проанализированных образцов. Квантильная нормализация, также являющаяся частью RMA, является одним из разумных подходов к нормализации пакета массивов, чтобы сделать дальнейшие сравнения значимыми.

Текущий алгоритм Affymetrix MAS5, в котором используются как датчики идеального совпадения, так и датчики несовпадения, по-прежнему пользуется популярностью и демонстрирует хорошие результаты в тестах «лицом к лицу».

Блок-схема, показывающая, как работает алгоритм MAS5 от Agilent.

Факторный анализ для надежного суммирования микрочипов (FARMS) - это основанный на модели метод суммирования данных массива на уровне зонда точного совпадения. Он основан на модели факторного анализа, для которой апостериорный метод байесовского максимума оптимизирует параметры модели в предположении гауссовского шума измерения. Согласно тесту Affycomp, FARMS превзошла все другие методы обобщения в отношении чувствительности и специфичности.

Выявление значимого дифференциального выражения

Существует множество стратегий для идентификации массивов зондов, которые показывают необычный уровень сверхэкспрессии или недостаточной экспрессии. Самый простой - назвать «значимым» любой зонд, который отличается в среднем как минимум в два раза между группами лечения. Более сложные подходы часто связаны с t-тестами или другими механизмами, которые учитывают как размер эффекта, так и изменчивость. Любопытно, что p-значения, связанные с конкретными генами, плохо воспроизводятся между повторными экспериментами, а списки, созданные прямым кратным изменением, работают намного лучше. Это представляет собой чрезвычайно важное наблюдение, поскольку цель проведения экспериментов связана с предсказанием общего поведения. Группа MAQC рекомендует использовать оценку кратности изменения плюс нестрогую отсечку значения p, дополнительно указывая на то, что изменения в процессе фоновой коррекции и масштабирования оказывают лишь минимальное влияние на порядок ранжирования различий кратных изменений, но существенно влияют на p-значения.

Кластеризация

Кластеризация - это метод интеллектуального анализа данных, используемый для группировки генов со схожими паттернами экспрессии. Иерархическая кластеризация и кластеризация k-средних являются широко используемыми методами в анализе микрочипов.

Иерархическая кластеризация

Иерархическая кластеризация - это статистический метод поиска относительно однородных кластеров. Иерархическая кластеризация состоит из двух отдельных фаз. Первоначально вычисляется матрица расстояний, содержащая все попарные расстояния между генами. Корреляции Пирсона и корреляция Спирмена часто используются в качестве оценки несходства, но и другие методы, такие как Манхэттен расстояние или евклидово расстояние , также могут быть применены. Учитывая количество доступных мер расстояния и их влияние на результаты алгоритма кластеризации, в нескольких исследованиях сравнивались и оценивались различные меры расстояния для кластеризации данных микрочипа с учетом их внутренних свойств и устойчивости к шуму. После вычисления исходной матрицы расстояний алгоритм иерархической кластеризации либо (A) итеративно объединяет два ближайших кластера, начиная с отдельных точек данных (агломерационный, восходящий подход, который довольно часто используется), либо (B) итеративно разделяет кластеры. начиная с комплектации (раздельный, нисходящий подход). После каждого шага новая матрица расстояний между вновь сформированными кластерами и другими кластерами пересчитывается. К методам иерархического кластерного анализа относятся:

Одиночная связь (минимальный метод, ближайший сосед)
Средняя связь ( UPGMA ).
Полная связь (максимальный метод, самый дальний сосед)

Различные исследования уже эмпирически показали, что алгоритм кластеризации с одним сцеплением дает плохие результаты при использовании для данных микроматрицы экспрессии генов, и поэтому его следует избегать.

К-средство кластеризации

Кластеризация K-средних - это алгоритм для группировки генов или образцов на основе шаблона в K групп. Группировка выполняется путем минимизации суммы квадратов расстояний между данными и соответствующим центроидом кластера . Таким образом, цель кластеризации K-средних - классифицировать данные на основе аналогичного выражения. Было показано, что алгоритм кластеризации K-средних и некоторые из его вариантов (включая k-medoids ) дают хорошие результаты для данных экспрессии генов (по крайней мере, лучше, чем методы иерархической кластеризации). В литературе можно найти эмпирические сравнения k-средних , k-медоидов , иерархических методов и различных мер расстояния.

Распознавание образов

Коммерческие системы для анализа генных сетей, такие как Ingenuity и Pathway studio, создают визуальные представления дифференциально экспрессируемых генов на основе современной научной литературы. Некоммерческие инструменты, такие как FunRich, GenMAPP и Moksiskaan, также помогают в организации и визуализации данных генной сети, полученных в результате одного или нескольких экспериментов с микрочипами. Через Bioconductor, написанный на языке программирования R , доступен широкий спектр инструментов анализа микрочипов . Часто цитируемый модуль SAM и другие инструменты микроматрицы доступны в Стэнфордском университете. Другой набор можно приобрести в Гарварде и Массачусетском технологическом институте.

Пример вывода инструмента FunRich. Изображение показывает результат сравнения 4 разных генов.

Также были разработаны специализированные программные инструменты для статистического анализа для определения степени избыточной или недостаточной экспрессии гена в эксперименте с микрочипом относительно эталонного состояния, чтобы помочь в идентификации генов или наборов генов, связанных с конкретными фенотипами . Один из таких методов анализа, известный как анализ обогащения генетического набора (GSEA), использует статистику в стиле Колмогорова-Смирнова для идентификации групп генов, которые регулируются вместе. Этот сторонний статистический пакет предлагает пользователю информацию об интересующих генах или наборах генов, включая ссылки на записи в базах данных, таких как GenBank NCBI, и тщательно подобранных базах данных, таких как Biocarta и Gene Ontology . Инструмент анализа обогащения белковых комплексов (COMPLEAT) обеспечивает аналогичный анализ обогащения на уровне белковых комплексов. Инструмент может идентифицировать динамическую регуляцию белкового комплекса в различных условиях или временных точках. Связанная система PAINT и SCOPE выполняет статистический анализ промоторных областей генов, выявляя избыточное и недостаточное представление ранее идентифицированных элементов ответа фактора транскрипции . Другой инструмент статистического анализа - это статистика сумм рангов для коллекций наборов генов (RssGsc), которая использует функции распределения вероятностей суммы рангов для поиска наборов генов, которые объясняют экспериментальные данные. Еще один подход - контекстный метаанализ, то есть выяснение того, как кластер генов реагирует на различные экспериментальные контексты. Genevestigator - это общедоступный инструмент для выполнения контекстного метаанализа по таким контекстам, как анатомические части, стадии развития и реакция на болезни, химические вещества, стрессы и новообразования .

Анализ значимости микрочипов (SAM)

Анализ значимости микроматриц (SAM) - это статистический метод , разработанный в 2001 году Вирджинией Тушер, Робертом Тибширани и Гилбертом Чу для определения того, являются ли изменения в экспрессии генов статистически значимыми. С появлением микрочипов ДНК теперь можно измерить экспрессию тысяч генов в одном эксперименте по гибридизации. Сгенерировано много данных, и метод сортировки того, что важно, а что нет, очень важен. SAM распространяется Стэнфордским университетом в R-пакете .

SAM идентифицирует статистически значимые гены путем проведения t-тестов для конкретных генов и вычисляет статистику d _j для каждого гена j , которая измеряет силу взаимосвязи между экспрессией гена и переменной ответа. В этом анализе используется непараметрическая статистика , поскольку данные могут не соответствовать нормальному распределению . Переменная ответа описывает и группирует данные на основе экспериментальных условий. В этом методе повторяющиеся перестановки данных используются для определения того, является ли экспрессия какого-либо гена значимой для ответа. Использование анализа на основе перестановок учитывает корреляции в генах и позволяет избежать параметрических предположений о распределении отдельных генов. Это преимущество перед другими методами (например, ANOVA и Bonferroni ), которые предполагают одинаковую дисперсию и / или независимость генов.

Базовый протокол

Проведите эксперименты с микрочипами - ДНК-микрочипы с праймерами олиго и кДНК, массивы SNP, массивы белков и т. Д.
Анализ входных выражений в Microsoft Excel - см. Ниже
Запуск SAM как надстройки Microsoft Excel
Отрегулируйте параметр настройки дельты, чтобы получить значительное количество генов вместе с приемлемой частотой ложного обнаружения (FDR) и оценить размер выборки, вычислив среднюю разницу в экспрессии в контроллере участков SAM.
Перечислите дифференциально экспрессируемые гены (положительно и отрицательно экспрессируемые гены)

Запуск SAM

SAM доступен для загрузки в Интернете по адресу http://www-stat.stanford.edu/~tibs/SAM/ для академических и неакадемических пользователей после завершения этапа регистрации.
SAM запускается как надстройка Excel, а контроллер графика SAM позволяет настраивать частоту ложного обнаружения и дельту, в то время как функции вывода SAM и вывода SAM создают список значимых генов, таблицу дельты и оценку размеров выборки.
Перестановки рассчитываются на основе количества выборок.
Блокировать перестановки
- Блоки представляют собой партии микрочипов; например, для восьми выборок, разделенных на две группы (контрольная и затронутая), имеется 4! = 24 перестановки для каждого блока, а общее количество перестановок составляет (24) (24) = 576. Рекомендуется минимум 1000 перестановок;

количество перестановок задается пользователем при вводе правильных значений для набора данных для запуска SAM

Форматы ответов

Типы:

Количественный - действительный (например, частота сердечных сокращений)
Один класс - проверяет, отличается ли средняя экспрессия гена от нуля
Два класса - два набора измерений
- Непарный - единицы измерения в двух группах разные; например, контрольная и лечебная группы с образцами от разных пациентов
- Парные - одинаковые экспериментальные единицы измеряются в двух группах; например, образцы до и после лечения от одних и тех же пациентов
Мультикласс - более двух групп, каждая из которых содержит разные экспериментальные единицы; обобщение двухклассового непарного типа
Выживание - данные о времени до события (например, смерти или рецидива).
Временной ход - каждая экспериментальная единица измеряется более чем в одной временной точке; экспериментальные единицы делятся на одно- или двухклассные конструкции
Обнаружение паттернов - явный параметр ответа не указан; пользователь указывает собственный ген (главный компонент) данных выражения и рассматривает его как количественный ответ

Алгоритм

SAM вычисляет тестовую статистику для относительной разницы в экспрессии генов на основе анализа перестановок данных экспрессии и вычисляет частоту ложного обнаружения. Основные расчеты программы проиллюстрированы ниже.

Константа s _o выбрана так, чтобы минимизировать коэффициент вариации d _i . r _i равно уровням экспрессии (x) гена i в y экспериментальных условиях.

${\ displaystyle \ mathrm {False \ discovery \ rate \ (FDR) = {\ frac {Median \ (или \ 90 ^ {th} \ percentile) \ of \ \ # \ of \ falsely \ named \ genes} {Number \ из \ генов \ под названием \ значительный}}}}$

Складчатые изменения (t) указаны для гарантии того, что гены, вызывающие существенное изменение, по крайней мере, на заранее заданную величину. Это означает, что абсолютное значение средних уровней экспрессии гена при каждом из двух условий должно быть больше, чем кратное изменение (t), чтобы называться положительным, и меньше, чем обратное кратное изменение (t), чтобы называться отрицательным.

Алгоритм SAM можно сформулировать как:

Упорядочить статистику испытаний по величине
Для каждой перестановки вычислить упорядоченные нулевые (незатронутые) оценки
Постройте график упорядоченной статистики теста против ожидаемых нулевых оценок
Назовите каждый ген значимым, если абсолютное значение тестовой статистики для этого гена за вычетом средней тестовой статистики для этого гена превышает установленный порог.
Оцените частоту ложного обнаружения на основе ожидаемых и наблюдаемых значений.

Выход

Значимые наборы генов
- Положительный набор генов - более высокая экспрессия большинства генов в наборе генов коррелирует с более высокими значениями фенотипа y
- Отрицательный набор генов - более низкая экспрессия большинства генов в наборе генов коррелирует с более высокими значениями фенотипа y

Возможности SAM

Данные из массивов Oligo или кДНК, массива SNP, массивов белков и т. Д. Могут быть использованы в SAM.
Коррелирует данные экспрессии с клиническими параметрами
Коррелирует данные выражения со временем
Использует перестановку данных для оценки уровня ложного обнаружения для множественного тестирования
Сообщает о локальной частоте ложных обнаружений (FDR для генов, имеющих такой же d _i, что и у этого гена) и о частоте пропусков
Может работать с блокированным дизайном, когда обработки применяются в разных пакетах массивов
Может регулировать пороговое значение, определяющее количество гена, называемого значимым

Исправление ошибок и контроль качества

Контроль качества

Целые массивы могут иметь очевидные недостатки, обнаруживаемые визуальным осмотром, попарными сравнениями с массивами в той же экспериментальной группе или анализом деградации РНК. Результаты можно улучшить, полностью исключив эти массивы из анализа.

Коррекция фона

В зависимости от типа массива сигнал, связанный с неспецифическим связыванием флуорофора, можно вычесть для достижения лучших результатов. Один из подходов заключается в вычитании средней интенсивности сигнала в области между пятнами. Различные инструменты для коррекции фона и дальнейшего анализа доступны от TIGR, Agilent ( GeneSpring ) и Ocimum Bio Solutions (Genowiz).

Точечная фильтрация

Визуальная идентификация местных артефактов, таких как дефекты печати или стирки, также может предложить удаление отдельных пятен. Это может занять значительное время в зависимости от качества изготовления массива. Кроме того, некоторые процедуры требуют удаления всех пятен со значением экспрессии ниже определенного порога интенсивности.

Languages

In other projects