Десять лет тому назад ученые ставили себе цель расшифровать геном одного человека. Сейчас 1000 геномов — это абсолютный минимум. В рамках проекта «1000 геномов» был создан подробнейший каталог генетического непостоянства человека — собрание миллионов неизвестных ранее однонуклеотидных полиморфизмов (SNP) и других вариаций. Исследователи уже используют эти данные для определения участков ДНК, связанных с тяжелыми наследственными заболеваниями.
Хотя все люди на 99% имеют одинаковые ДНК, 1% различий влияет на болезни, личностные и прочие черты. Первой масштабной попыткой обнаружить эти различия стал международный проект HapMap, в рамках которого было определено 3,5 млн. однонуклеотидных полиморфизмов (различий последовательности ДНК размером в один нуклеотид в геноме представителей одного вида). Генетики использовали эти SNP в полигеномных исследованиях ассоциаций (GWAS) для выявления генов, важных для таких болезней, как диабет, заболевания сердца, разные виды рака и возрастная макулярная дегенерация. Однако эти исследования охватывали только вариации, существовавшие по крайней мере у 10% людей, и зачастую помогали определить участок генома, связанный с повышенным риском заболеваемости, но не конкретный нуклеотид, который обусловливает этот риск.
Проект «1000 геномов», учрежденный в 2008 г., направлен, в частности, и на решение этих вопросов. Над ним начали работать институт Wellcome Trust Sanger (Хинкстон, Великобритания), Национальный научно-исследовательский институт человеческого генома (Бефесда, штат Мериленд) и BGI (Шеньчжень, Китай). Цель — выявление полиморфизмов, имеющихся как минимум у 1% людей, а также других различий, в конечном итоге — секвенирование вариаций 2500 образцов ДНК 27 групп населения во всем мире.
Проект состоял из трех исследований. В рамках одного ученые секвенировали геномы двух семей, состоявших из трех человек — матери, отца и ребенка, и обнаружили, что потомки наследуют около 60 мутаций, которые произошли у их отцов, причем от отца — немного больше, чем от матери. Второе исследование предусматривало менее подробное секвенирование геномов 179 человек родом из Европы, Восточной Азии и Африки. В рамках третьего были определены последовательности 8140 экзонов (в пределах 906 генов) 697 человек. Протестировав различные технологии секвенирования и разработав способы подготовки и анализа образцов, исследовательская группа, состоявшая из девяти центров, обнаружила надежные методы изучения генетического непостоянства, которые быстро становятся стандартом в отрасли. Об этом доложил один из руководителей проекта «1000 геномов» Дейвид Альтшулер, генетик из Института Броуд (Кембридж, штат Массачусетс).
В результате исследований были идентифицированы 15 млн. SNP, в частности 8,5 млн. ранее неизвестных, а также 1 млн. микровставок и делеций и 20 тыс. других структурных вариаций. Это на порядки больше, чем было известно ранее.
Ученые уже используют данные из исследований проекта «1000 геномов» для дополнения своих карт участков генома, связанных с болезнями. Так, Джонатан Марчин, статистик из Оксфордского университета, и его коллеги, которые искали гены, связанные с курением, воспользовались данными проекта при метаанализе 20 исследований. Эти исследования очертили кластер генов на 15-й хромосоме, кодирующей белки, сильно связывающиеся с никотином. Ученые использовали данные проекта «1000 геномов» для выявления конкретных SNP, влияющих на транскрипцию одного из этих генов.
Данные могут также помочь отследить гены, связанные с редчайшими генетическими заболеваниями. Генетик Секар Катирсан из Массачусетского общего госпиталя в Бостоне и его коллеги искали дефектный ген в семье с очень низким уровнем холестерина, надеясь, что это поможет выработать новые стратегии для снижения уровня холестерина. «Наш анализ опирался на предположение, что искомая вариация является только у этой семьи и, следовательно, ее не окажется в имеющихся базах данных генетического непостоянства», — объясняет Катирсан. В результате ученые сузили поиск от тысяч до 481 SNP и в конце концов определили два SNP в гене под названием ANGPTL3.
Но даже проект «1000 геномов» имеет ограничения: в поисках генетических вариаций обычно пропускают изменения на больших отрезках ДНК, которые часто дублируются (в этих участках размещаются около 1000 генов). Осознание данного факта помогло Эвану Эйхлеру из университета Вашингтона в Сиетле найти способ проанализировать эту ранее непроницаемую ДНК.
Эйхлер и его коллеги разработали метод для подсчета количества копий гена на любом дублирующемся участке. Количество копий генов может быть различным у разных людей и может влиять на количество вырабатываемого белка, кодированного этим геном, и, соответственно, на функции этого белка.
Группа Эйхлера также нашла способ обнаруживать почти идентичные копии. Со временем копии имеют тенденцию к развитию небольших различий в последовательностях, которые также могут влиять на работу этого гена или белка, который он кодирует. Группа Эйхлера каталогизировала эти сигнальные варианты нуклеотидов для около 70% дублированных генов.
Неожиданно анализ данных проекта «1000 геномов» обнаружил довольно большие расхождения в количестве копий некоторых генов между африканскими, европейскими и азиатскими популяциями. «Люди больше отличаются между собой, чем мы до сих пор представляли», — говорит Эван Эйхлер.
По материалам
Украинского научного клуба
и журнала Science