🧬Генетический стандарт человека стал на одну хромосому длиннее.
Весной 2022 года Консорциум T2T опубликовал новую практически полную версию генома, CHM13. Но в эту версию вошла только последовательность Х-хромосомы. Дело в том, что CHM13 — это клетки опухоли, которая образовалась при удвоении генома сперматозоида с X-хромосомой. Поэтому все хромосомы у нее были в двух идентичных экземплярах, в том числе и Х.
Чтобы собрать Y-хромосому, исследователи взяли другой геном, HG002, принадлежащий реальному человеку — мужчине-ашкеназу. Здесь их ждала другая техническая сложность — как и у большинства мужчин, в его клетках есть одновременно Х- и Y-хромосомы. А у них немало очень похожих (псевдоаутосомных) участков.
Сначала исследователи отсеквенировали две эти хромосомы с помощью технологии PacBio HiFi и построили струнные графы — диаграммы, на которых видны отдельные непересекающиеся фрагменты хромосом, но не всегда очевидно, в каком порядке они расположены. Эти графы для X- и Y-хромосомы ожидаемо перекрывались — потому что часть фрагментов была общей.
Чтобы восстановить последовательность хромосом более точно и по отдельности, ученые секвенировали их еще раз с помощью другой технологии — Oxford Nanopore. А потом прогнали через алгоритм, который помогает справиться с повторами — а их в Y-хромосоме немало — и выстроить их в последовательность. После чего понадобилось еще четыре раунда «полировки» — то есть сопоставления с другими результатами секвенирования.
На выходе получился текст длиной в 62 460 029 нуклеотидов без пробелов — и, по оценкам авторов работы, с вероятностью ошибки меньше, чем в 1 нуклеотид на 10 миллионов пар.
Отличия затронули несколько мест хромосомы. Во-первых, псевдоаутосомные участки — которые для GRCh38 просто скопировали с X-хромосомы, а не собрали с нуля именно для Y-хромосомы. Во-вторых, центромеры — в предыдущей сборке они были скорее моделью, чем честно выстроенной последовательностью. В-третьих, повторы — их на Y-хромосоме немало. И хотя они чаще всего не несут наследственной информации, но влияют на структуру хромосомы в целом, а заодно мешают быстро собрать ее последовательность.
Потом исследователи аннотировали собранную хромосому — то есть расписали, какой участок чему соответствует и где расположены конкретные гены. Всего они насчитали 693 гена, из которых 107, вероятно, кодируют белки.
Кроме того, ученые подтвердили, что Y-хромосома может работать стандартом при поиске клинически значимых мутаций. А еще — образцом при поиске человеческих «следов» в бактериальной ДНК.