Нас учат, что гены — "инструкции жизни", а генетический код — универсальный словарь, по которому клетка переводит ДНК в белки. Но откуда взялся этот словарь и почему он устроен именно так? Новая работа исследовательской группы Иллинойсского университета в Урбане-Шампейне предлагает неожиданный ответ: следы происхождения кода "вшиты" не только в нуклеиновые кислоты, но и в сами белки — точнее, в сочетания аминокислот, называемые дипептидами.
Этот взгляд объединяет филогеномику, биоинформатику и идеи синтетической биологии и подталкивает к более точной инженерии живых систем.
Команда сопоставила эволюционные деревья трёх уровней: структурных доменов белков, транспортных РНК (тРНК) и дипептидов — минимальных "кирпичиков" из двух аминокислот.
Выяснилось, что временные шкалы согласуются: порядок "подключения" аминокислот к генетическому коду отражается в том, какие дипептиды и белковые домены появлялись и закреплялись у архей, бактерий и эукариот. В огромной базе — 4,3 млрд дипептидных последовательностей из 1561 протеома — прослеживается общий ритм усложнения белкового мира и уточнения кода.
"Мы обнаружили, что происхождение генетического кода таинственным образом связано с дипептидным составом протеома — совокупности белков в организме", — сказал профессор Густаво Каэтано-Анольес.
Ключевая идея: дипептиды не случайны. Они возникали как структурные модули, помогающие белкам сворачиваться и работать, а параллельно закладывались правила "соответствий" между кодонами и аминокислотами — от раннего операционного кода тРНК/синтетаз до современного универсального генетического кода.
Жизнь держится на связке двух кодов: нуклеотидного (ДНК/РНК) и белкового. Между ними — рибосома и набор аминоацил-тРНК-синтетаз, ферментов-"корректоров", которые подбирают к каждой тРНК "свою" аминокислоту и исправляют ошибки. Работа показывает, что совершенствование этих ферментов шло рука об руку с расширением аминокислотного алфавита и появлением новых дипептидов.
"Почему жизнь основана на двух языках — одном для генов, а другом для белков?", — задался вопросом профессор Густаво Каэтано-Анольес.
Отдельный сюрприз — "двойственность" дипептидов: пары вида AL и LA (антидипептиды) часто возникали почти синхронно, будто отражаясь друг в друге на эволюционной шкале. Это намекает на древнюю комплементарность кодирования в двух цепях нуклеиновых кислот и "минималистичные" тРНК на заре белкового мира.
"Мы обнаружили, что результаты согласуются друг с другом", — отметил профессор Густаво Каэтано-Анольес.
А что если рассматривать дипептиды как "первичный белковый код", комплементарный раннему тРНК-коду? Тогда инженерия ферментов (CRISPR-систем, полимераз, шасси-организмов) сможет целенаправленно использовать эволюционно "закалённые" сочетания аминокислот, повышая стабильность, собираемость и точность катализа.
Это пары аминокислот (400 вариантов). Их частоты в протеомах отражают отбор за структуру и функции и несут эволюционные сигналы.
Независимые данные (домены, тРНК, дипептиды) совпали по порядку "включения" аминокислот — это снижает риск систематической ошибки.
Даёт "библиотеку" устойчивых мотивов/дипептидов для более стабильных белков-редакторов, каналов и ферментов.
"Синтетическая биология признаёт ценность эволюционной перспективы", — подчеркнул профессор Густаво Каэтано-Анольес.
Уточнения
Дипептиды (от греч. peptós — сваренный, переваренный) — органические соединения, состоящие из двух аминокислотных остатков, связанных пептидной связью. Дипептиды — наименьшие возможные по размеру олигопептиды, соединения, промежуточные между полипептидами и аминокислотами.
Биоинформа́тика — междисциплинарная область, объединяющая общую биологию, молекулярную биологию, кибернетику, генетику, химию, компьютерные науки, математику и статистику. Главным образом включает в себя изучение и разработку компьютерных методов и направлена на получение, анализ, хранение, организацию и визуализацию биологических данных.