Поиск пиков в данных ChiP-Seq
Из Википедии, бесплатной энциклопедии
Поиск пиков (англ. Peak calling) — компьютерный метод поиска областей генома, обогащённых выровненными ридами из данных ChiP-Seq эксперимента. Такие области называют пиками, поскольку они являются локальными максимумами покрытия генома ридами (то есть количества прочтений, выровненных в данной позиции). Определённые таким образом регионы считаются местами связывания белка, с которым проводился опыт. Если речь идёт о транскрипционном факторе, то обогащённые области по сути являются сайтами связывания транскрипционного фактора. Определение областей пиков является важным шагом любого Chip-Seq эксперимента, поскольку именно на этом этапе происходит интерпретация данных — нужно отличить шумы от сигнала[1].
Обобщённый алгоритм
[править | править код]Операция нахождения пиков содержит в себе несколько этапов, необходимых для получения итогового списка пиков[2]:
- Смещение ридов (важно в случае секвенирования с одного конца — single-end sequencing). Каждый рид, полученный после секвенирования, имеют длину 50-300 нуклеотидов и маркирует только один из концов фрагмента ДНК, очищенного иммунопреципитацией. Соответственно, он может не содержать в себе сайта связывания белка, если длина ДНК фрагментов больше длины рида, а белок был связан с центром фрагмента. На начальном этапе поиска идентифицируют области, обогащённые ридами. После этого находят отдельно максимумы обогащения для «+» и «-» цепей. Расстояние между максимумами считают средней длиной фрагментов ДНК. После этого все риды смещают на половину такой длины в сторону центра пика (то есть в сторону их 3’-конца), и определяют истинную область связывания. В случае секвенирования парных ридов (с обоих концов каждого фрагмента), эта операция не требуется, поскольку пара ридов точно маркирует каждый фрагмент, а значит сайт связывания заведомо находится между ними.
- Оценка уровня шума. Чаще всего для оценки уровня шума проводят контрольные Chip-Seq эксперименты, в которых стадия иммунопреципитации пропущена или используются неспецифические антитела (IgG-контроли). Однако существуют программы, способные оценить шум по данным одного эксперимента.
- Идентификация пиков. Чаще всего используется скользящее окно, которое сканирует геном и определяет регионы, в которых покрытие ридами превышает некий заданный порог, или отношение покрытия условного пика превышает окружающий его шум в заданное число раз.
- Оценка качества определённых пиков. Многие программы подсчитывают P-value для каждого пика, его высоту и обогащения ридами относительно фона. Исходя из статистической значимости пиков можно сделать оценку ожидаемого уровня ложных предсказаний (FDR).
- Удаление артефактов. В данных Chip-Seq встречаются артефакты ПЦР, возникающие при пробоподготовке библиотек для секвенирования. При фильтрации пиков на предмет артефактов, удаляются такие из них, которые содержат только дуплицированные (то есть идентичные) риды, поскольку считается, что такие пики возникли из-за ПЦР. Также критически относятся к ситуациям, когда риды картированы резко асимметрично (только на 3’ или 5’ цепь).
Параметры, влияющие на качество определения пиков
[править | править код]На качество определения пиков влияет множество параметров, начиная от способа картирования ридов на геном. Так, количество разрешённых при картировании несовпадений влияет на долю ридов, которые будут успешно картированы, а значит и на профиль покрытия генома. А операции по удалению ридов, способных выравниваться с несколькими местами в геноме, могут привести к потере пиков, расположенных в областях с повторами. Кроме того, в каждом из пяти перечисленных пунктов обобщённого алгоритма идентификации пиков существуют свои параметры, аккуратный подбор которых позволяет добиться максимальной селективности и специфичности[3][4].
Программы для поиска пиков
[править | править код]К настоящему времени существуют десятки программ для определения пиков, отличающиеся по своей применимости и используемым алгоритмам. В данной статье будет разобрана самая популярная программа — MACS, которая хорошо подходит для поиска относительно узких пиков, характерных для сайтов связывания транскрипционных факторов. Также будет рассмотрена программа SICER, целью которой является поиск слабых и диффузных сигналов (то есть широких и слабых пиков), характерных для распределения модификаций гистонов или отражающих работающие полимеразы[5].
MACS
[править | править код]MACS (англ. Model-based Analysis of Chip-Seq) — программа анализа данных ChiP-Seq эксперимента. Используемый программой метод хорошо подходит для поиска относительно узких пиков, характерных для сайтов связывания транскрипционных факторов. MACS является наиболее часто используемым алгоритмом для поиска пиков.
Стадии алгоритма
[править | править код]1. Моделирование размера сдвига ChiP-Seq ридов
ChiP-Seq риды представляют собой концы фрагментов в ChiP-DNA библиотеке. По описанным выше причинам (см. Обобщённый алгоритм), они часто сдвинуты в сторону 5'-концов и размер этого сдвига неизвестен экспериментатору. Так как фрагменты ChiP-DNA равновероятно секвенированы с обоих концов, то плотность ридов вокруг истинного сайта связывания будет бимодальным: на «+» цепи плотность возрастает до сайта связывания, на «-» цепи — после (рис.1). MACS использует этот двойной паттерн для построения эмпирической модели размера сдвига ридов в сторону их 3’-конца для лучшего определения сайта связывания. Для первичного поиска регионов, богатых ридами, данный алгоритм использует 2 параметра: bandwidth (средняя длина фрагментов ДНК, получаемая при пробоподготовке, например, при облучении ультразвуком) и mfold (пороговое обогащение относительно уровня фона, используемого моделью, выше которого заданная область считается статистически обогащённой ридами). Скользя по геному «окном» размером 2*bandwidth алгоритм ищет регионы, mfold которых выше, чем mfold при случайном распределении ридов по геному. Затем MACS выбирает 1000 случайных, из определённых на предыдущем шаге областей, и отделяет в них риды «+» и «-» цепей. Если максимум плотности ридов «+» цепи лежит левее максимума для «-» цепи, то алгоритм выравнивает их относительно центров распределений. Расстояние между максимумами «+» и «-» цепей в выравнивании будет определяться как d (рис.1). MACS сдвигает все теги на расстояние d/2 в сторону 3'-конца для определения наиболее вероятного сайта взаимодействия ДНК с белком.
2. Поиск пиков
В экспериментах с контролем (см. Обобщённый алгоритм), MACS линейно увеличивает число контрольных ридов до общего количества ридов, полученных в ChiP-Seq эксперименте. В случае дуплицированных ридов, MACS способен эффективно удалять идентичные последовательности для снижения уровня шума.
Для статистической оценки значимости пиков программа использует предположение, что количество ридов, выровненных в данной позиции генома, распределено по Пуассону[6]. Преимуществом данной модели является то, что один параметр — λBG, оценённый для всего генома по контрольным точкам, определяет среднее значение и дисперсию распределения. После того, как MACS сдвинул каждый относящийся к обогащённому региону рид на d/2, алгоритм ещё раз сканирует геном, теперь уже «окном» шириной 2d и находит статистически значимые пики (используя приближение о Пуассоновском распределении числа ридов с параметром λBG и уровнем значимости по умолчанию 10−5). Пересекающиеся пики сливаются, а участок их слияния называют summit. Он определяет локализацию сайта связывания.
В контрольных образцах часто наблюдаются флуктуации в распределении ридов. На это могут влиять многие факторы, такие как локальные структуры хроматина, шум, возникающий при амплификации и секвенировании и вариации в числе копий генома. Поэтому, MACS может использовать не только λBG, оценённый по всему геному, но и динамический параметр λlocal, который вычисляют для каждого пика как:
где λ1k, λ5k и λ10k — это параметры, определённые для «окон» шириной в 1 кб, 5 кб и 10 кб соответственно, центрированных относительно рассматриваемого пика . Таким образом, λlocal отражает влияние местных флуктуаций.
Далее MACS использует λlocal для подсчёта p-value каждого потенциального пика и удаляет ложно положительные результаты, вызванные шумом в покрытии ридами. Потенциальные пики с p-value ниже заданного (по умолчанию 10−5) отмечаются, а отношение между количеством ридов ChiP-Seq, выровненных в данной позиции и λlocal называют fold enrichment. Для Chip-Seq эксперимента с контролем, MACS вычисляет ожидаемый уровень ложных предсказаний (FDR) для каждого определённого пика, используя процедуру, которая применялась и в ранних алгоритмах поиска, таких как MAT[7] и MA2C[8].
Преимущества MACS
[править | править код]MACS сравнивали с другими алгоритмами по поиску пиков, например — ChIPSeq Peak Finder[9], FindPeaks и QuEST. Для того чтобы сравнить специфичность их предсказаний, ChiP-Seq данные были поменяны местами с соответствующими им контролями, а по результатам программной обработки вычислили FDR каждого алгоритма. MACS каждый раз давал меньше ложноположительных результатов, нежели другие методы (рис.2).
SICER
[править | править код]SICER (англ. spatial identification of ChIP-enriched regions) — это компьютерный метод, разработанный для идентификации кластеров, обогащённых выровненными ридами на основании данных ChiP-Seq эксперимента с учётом оценки уровня шума. Хотя данный метод создан для анализа слабых и диффузных сигналов, характерных для модификаций гистонов, при правильном выборе параметров он может быть применён для поиска узких пиков, соответствующих сайтам связывания, например, транскрипционных факторов.
Программа представляет собой пакет, использующий в качестве интерфейса командную строку, подходит для операционных систем Unix/Linux, язык программирования: Python.
Главной особенностью метода является объединение сигналов от соседних нуклеосом, несущих одинаковую модификацию и расположенных близко друг к другу. Данный подход улучшает отношение сигнал-шум и особенно полезен при диффузных модификациях хроматина, которые могут иметь большую (килобазы или даже мегабазы) протяжённость в геноме. C помощью математического подхода идентифицируются статистически значимые области генома, обогащённые выровненными ридами. Далее проводится оценка уровня шума с использованием контрольной библиотеки (создаётся на основе контрольных ChIP-Seq экспериментов на тотальной клеточной ДНК без стадии иммунопреципитации)[10].
На основании полученных данных идентифицируется набор локальных максимумов покрытия ридами (пиков), для которых отношения покрытия ридами превышает фоновый шум в определённое пороговое число раз. Геном делится на неперекрывающиеся участки фиксированной длины — «окна», статистически значимые области генома называются «острова». Статистически значимыми областями генома принято считать кластеры окон, для которых отношение их покрытия ридами к фоновому покрытию превышает некий заданный порог. Окна внутри островов, для которых велик фоновый шум или маленькое покрытие ридами — «гэпы» (рис. 3).
Острова представляют особый интерес. Гэпы разрешены в островах для учёта:
- Неточности ридов и неоднозначности данных секвенирования
- Повторяющихся геномных участков и дуплицированных ридов
- Немодифицированных нуклеосом
Размер гэпа может быть скорректирован в зависимости от природы модификации хроматина. Статистический вес острова высчитывается, основываясь на степени обогащения ридами на всем идентифицированном участке, а не на степени обогащения ридами каждого отдельного пика[11].
На вход программе подаётся библиотека выровненных ридов из данных ChIP-Seq эксперимента, выбирается размер окна, эффективная длина генома (наибольшая длина генома, покрытая выровненными ридами) и размер гэпа. Размер гэпа должен быть кратным выбранному размеру окна. Как правильно, чем большую протяжённость имеют домены, тем большого размера следует выбирать гэп. Для точной оценки размера гэпа можно представить суммарный статистический вес всех значимых островов как функцию от размера гэпа. Таким образом, лучшим размером гэпа будет тот, который соответствует наибольшему весу островов. На рис. 4 рассмотрен пример такого графика, в данном случае размер гэпа следуют выбирать равным шести окнам.
При наличии контрольной библиотеки идентифицированный набор островов проверяется на способность кластеризоваться с мягким порогом Е-value (основан на предварительном анализе обогащения ридами относительно фона в контрольной библиотеке). Далее SICER вычисляет p-value и q-value для каждого идентифицированного острова с использованием распределения Пуассона и FDR уже с учётом удаления артефактов. При отсутствии контрольной библиотеки тоже можно получить статистически значимые острова, используя различные пороги E-value. На выходе программы получается набор островов, высоко обогащённых выровненными ридами[12] (рис. 5).
Особенность данной программы состоит в том, что для её алгоритма локальная степень обогащения сильно зависима от контекста. Иными словами, если окно является обогащённым, этого ещё недостаточно, чтобы оно стало статистически значимым. Однако в присутствии соседних обогащённых окон оно (наряду с другими членами кластера) становится таковым. Это и отличает SICER от подходов, основанных на локальной статистике, которые бы идентифицировали бы его как не значимый в обоих случаях. Данный метод, благодаря нивелированию общего шума, подходит для таких задач, как статистический анализ данных ChIP-Seq экспериментов, нормализация данных и масштабный анализ больших последовательностей с диффузным обогащением[10].
Математика
1. Схема подсчёта статистических весов
Геном эффективной длины делится на неперекрывающиеся окна размером . Статистический вес для окна с ридами идентифицируется как , где — распределение Пуассона с параметром , учитывающим среднее число ридов в окне; - общее число ридов в библиотеке ChIP-Seq. Статистические веса окон представляют собой отрицательный логарифм вероятности нахождения ридов в окне при условии, что риды могут охватывать любой участок в геноме с равной вероятностью (модель случайного фона). Статистические веса кластеров окон являются аддитивными, представляющими собой отрицательный логарифм совместной вероятности нахождения наблюдаемой конфигурации в модели случайного фона. Чем выше статистический вес, тем меньше вероятность того, что наблюдаемый профиль является случайным.
2. Идентификация острова
Для числа ридов в каждом окне устанавливается порог , полученный из значения P-value, основанного на распределении Пуассона:
Более того, зависит от размера ChIP-Seq библиотеки.
3. Рекуррентное соотношение для вероятности острова с данным статистическим весом на случайном фоне
Сначала высчитывается вероятность распределения статистических весов отдельного окна:
где — дельта-функция Дирака. Вероятность того, что окно является «неподходящим» равна:
Далее вводится параметр , отражающий число гэпов в окне. Острова идентифицируются как кластеры окон, разделённые гэпами, не большего размера, чем . На основании этого высчитывается гэп-фактор . Статистический вес острова является совокупным статистическим весом всех окон на данном острове.
— вероятность нахождения острова со статистическим весом , начиная от заданной позиции вдоль генома; зависит от , и через , и . Так как остров должен быть окружён гэпами размеров не меньше, чем , можно записать как сумму:
Тогда рекуррентное соотношение:
Граничные условия: и .
Число островов со статистическим весом: .
4. Асимптотика для распределения статистических весов островов на случайном фоне
Подставим анзац в рекуррентное соотношение:
Тогда
5. Нахождение значимых островов без использования контрольной библиотеки
Распределение статистических весов островов на случайном фоне позволяет выявить пороговое значение статистического веса ,. Данный параметр используется для поиска статистически значимых островов. определяется c учётом того, что ожидаемое число островов со статистическим весом выше, чем порог , должно быть не больше порогового значения E-value :
6.Нахождение значимых островов c использованием контрольной библиотеки
Сначала используется мягкий порог E-value для идентификации набора островов-кандидатов, которые демонстрируют кластеризацию при модели случайного фона. Затем для каждого кандидата высчитывается число картированных ридов и ридов контрольной библиотеки . P-value вычисляется как:
где с равно соотношению размера библиотеки ChIP к размеру контрольной библиотеки (). Острова-кандидаты с отбрасываются, потому что необходимо рассматривать только случаи обогащения. Значимые острова могут быть идентифицированы с помощью порога P-value с использованием поправки Бонферрони[10].
Примечания
[править | править код]- ↑ Valouev A., etal. Genome-wide analysis of transcription factor binding sites based on ChIP-seq data (англ.) // Nature Methods : journal. — 2008. — September (vol. 6, no. 5). — P. 829—834. — doi:10.1038/nmeth.1246. — PMID 19160518. — PMC 2917543. Архивировано 10 августа 2011 года.
- ↑ Guide: Peak Calling for ChIP-Seq . Дата обращения: 2 мая 2016. Архивировано 1 мая 2016 года.
- ↑ Koohy Hashem, Down Thomas A., Spivakov Mikhail, Hubbard Tim. A Comparison of Peak Callers Used for DNase-Seq Data // PLoS ONE. — 2014. — 8 мая (т. 9, № 5). — С. e96303. — ISSN 1932-6203. — doi:10.1371/journal.pone.0096303.
- ↑ Allhoff Manuel, Seré Kristin, Chauvistré Heike, Lin Qiong, Zenke Martin, Costa Ivan G. Detecting differential peaks in ChIP-seq signals with ODIN // Bioinformatics. — 2014. — 3 ноября (т. 30, № 24). — С. 3467—3475. — ISSN 1460-2059. — doi:10.1093/bioinformatics/btu722.
- ↑ Feng Jianxing, Liu Tao, Qin Bo, Zhang Yong, Liu Xiaole Shirley. Identifying ChIP-seq enrichment using MACS (англ.) // Nature Protocols[англ.] : journal. — 2012. — 29 August (vol. 7, no. 9). — P. 1728—1740. — doi:10.1038/nprot.2012.101.
- ↑ Mikkelsen T. S., etal. Genome-wide maps of chromatin state in pluripotent and lineage-committed cells (англ.) // Nature : journal. — 2007. — July (no. 448). — P. 553—560. — doi:10.1038/nature06008. — PMID 17603471. — PMC 2921165. Архивировано 13 августа 2011 года.
- ↑ Johnson W. E., etal. Model-based analysis of tiling-arrays for ChIP-chip (англ.) // Proceedings of the National Academy of Sciences of the United States of America : journal. — 2006. — August (no. 103). — P. 12457—12462. — doi:10.1073/pnas.0601180103. — PMID 16895995. — PMC 1567901.
- ↑ Song J. S., etal. Model-based analysis of two-color arrays (MA2C) (англ.) // Genome Biol.[англ.] : journal. — 2007. — No. 8. — P. R178. — doi:10.1186/gb-2007-8-8-r178. — PMID 17727723. — PMC 2375008.
- ↑ Johnson D. S., etal. Genome-wide mapping of in vivo protein-DNA interactions (англ.) // Science : journal. — 2007. — No. 316. — P. 1497—1502. — doi:10.1126/science.1141319. — PMID 17540862. Архивировано 30 мая 2016 года.
- ↑ 1 2 3 Chongzhi Zang, Dustin E. Schones, Chen Zeng, Kairong Cui, Keji Zhao. A clustering approach for identification of enriched domains from histone modification ChIP-Seq data (англ.) // Bioinformatics : journal. — 2009. — 1 August (vol. 25, no. 15). — P. 1952—1958. — doi:10.1093/bioinformatics/btp340.
- ↑ Joel Rozowsky, Ghia Euskirchen, Raymond K. Auerbach, Zhengdong D. Zhang, Theodore Gibson. PeakSeq enables systematic scoring of ChIP-seq experiments relative to controls (англ.) // Nature Biotechnology. — Nature Publishing Group, 2009-01-01. — Vol. 27, iss. 1. — P. 66—75. — ISSN 1087-0156. — doi:10.1038/nbt.1518. Архивировано 11 мая 2016 года.
- ↑ Shiliyang Xu, Sean Grullon, Kai Ge, Weiqun Peng. Spatial Clustering for Identification of ChIP-Enriched Regions (SICER) to Map Regions of Histone Methylation Patterns in Embryonic Stem Cells (англ.) // Stem Cell Transcriptional Networks / Benjamin L. Kidder. — Springer New York, 2014-01-01. — P. 97—111. — ISBN 9781493905119. — doi:10.1007/978-1-4939-0512-6_5.