В недавнем исследовании, опубликованном в Frontiers in Plant Science, исследователи представили сборку эталонного генома чиа.

Общие сведения
Чиа, богатая питательными веществами продовольственная культура, выращиваемая преимущественно на юге Мексики и в Центральной Америке, имеет решающее значение для долгосрочной продовольственной безопасности. Глобальные программы улучшения урожая позволили увеличить производство зерна и спасти несколько жизней, но скрытый голод остается серьезной проблемой. Важно разнообразить рацион питания людей, добавляя продукты из второстепенных культур с высоким содержанием питательных веществ и сиротских культур, выращиваемых в маргинальных районах, для обеспечения долгосрочной продовольственной безопасности.
Акцент на этих культурах повысил глобальный спрос, увеличил число потребителей и сделал их ценными в смягчении угроз изменения климата. Создание генетических ресурсов для этих недоиспользуемых культур могло бы улучшить их производство и экологичность.
Об исследовании
В настоящем исследовании ученые исследовали транскриптом чиа.
Исследование включало геномное секвенирование, транскриптомный анализ метаболических генов (выработка розмариновой кислоты, синтез семенной слизи и метаболизм жирных кислот) и открытие полезных генетических показателей для улучшения качества сельскохозяйственных культур. Семена чиа второго поколения инбредных сортов выращивались в контейнерах шириной восемь дюймов с автоклавированной почвой и тщательно поливались в контролируемых тепличных условиях.
Молодые листья были собраны с 14-дневных саженцев, которые были предварительно обработаны в темных условиях в течение 2,0 дней, заморожены в растворе азота и транспортированы для извлечения, секвенирования и сборки дезоксирибонуклеиновой кислоты (ДНК) генома. Они создали две генетические библиотеки HiC «Ласточкин хвост» и библиотеку секвенирования дезоксирибонуклеиновой кислоты Chicago HighRise для создания геномных каркасов. Для сборки de novo они использовали массив парных генетических считываний с конца 2×150 бп, полученных методом секвенирования типа shotgun. Первоначальный набор данных включал 956 миллионов пар считанных генов из парных генетических библиотек.
Команда предсказала повторения de novo, объединив шесть библиотек растений с идентифицированными повторами генов de novo. Они выполнили оценку генетической модели, используя наборы данных биопептидов пяти видов и четырех растений семейства Lamiaceae. Исследователи использовали подготовленный набор данных с внешними подсказками, полученный из ранее опубликованных анализов секвенирования рибонуклеиновой кислоты (RNA-seq) 13 тканей для оценки генетической модели.
Команда из silico проанализировала наличие биопептидных сигнатур в протеоме чиа, которые могут положительно влиять на здоровье человека. Они использовали библиотеку отобранных биопептидов в качестве зонда для выявления сходных сигнатур последовательностей в белках чиа. Конвейер HiRISE использовался для улучшения сборки генома и построения каркасов, прогнозирования субклеточного расположения белков, кодируемых геномом чиа, и сравнения недавно опубликованных отчетов о геномных последовательностях S. hispanica с их геномной сборкой и отображениями генов чиа. Исследователи создали высокоточные классификаторы сайтов сращивания для фильтрации соединений в последовательностях считывания РНК.
Результаты
Геном чиа занимает 304 Мбайт и кодирует 48 090 генов, кодирующих белки. Анализ показал, что 42,0% генома содержат повторяющуюся информацию, и идентифицировал три миллиона однонуклеотидных полиморфизмов (SNP) с 15 380 участками простого повтора последовательности (SSR). Исследователи создали геном chid гаплоидного типа с размером генома 356 Мб. Каркас HiRISE произвел 304 Мб (85%) от ожидаемого размера генома чиа, с 2185 каркасами и прогнозируемым физическим покрытием 2692x.
Секвенированный геном состоял из 299 Мб каркасов, кодирующих гаплоидные хромосомы или псевдомолекулы. Недавно опубликованные данные транскриптомного атласа по 13 образцам тканей, нанесенным на шесть крупнейших каркасов, предоставили 99,0% транскриптов, полученных de novo. Результаты показали, что шесть каркасов охватывают почти все транскрибируемые области и соответствуют гаплоидным хромосомам. Благодаря выявлению содержания в нем повторов, геномная сборка была замаскирована под повторы, составляя 42% генома чиа. Наиболее распространенные повторяющиеся последовательности (99,6 Мб) не были классифицированы, что указывает на то, что они не были найдены в общедоступных базах данных.
Для оценки генетической модели и последующей оценки исследователи использовали только шесть псевдомолекул (Sh1-6). Для создания не избыточных и всеобъемлющих моделей генов 48 743 гена, кодирующих белок, были отфильтрованы с помощью генной фильтрации, анализа и конверсии (gFACs). В геноме чиа содержится 799 генов переноса рибонуклеиновой кислоты (тРНК), что на 30 и 70% больше генов, чем у томатов и арабидопсисов соответственно. Аннотация к рибосомальной РНК (рРНК) идентифицировала 37 генов рРНК в геноме, из которых только десять присутствовали в псевдохромосомах. Команда идентифицировала 98 гомологов семейства лектиновых в чиа на основе сходства последовательностей с представителями семейства лектиновых Arabidopsis.
Основываясь на результатах исследования, эталонный геном богатой питательными веществами бесхозной культуры чиа (Salvia hispanica) обеспечивает почти полный охват генного пространства и вносит свой вклад в ресурсы геномных данных. Сборка генома объемом 304 Мб включает 2185 каркасов, покрывающих 94% генного пространства, и 48 090 генов, кодирующих белок. Команда предлагает последовательные названия хромосом чиа и справочную номенклатуру генома, основанную на номерах хромосом и местоположении генов в псевдохромосомах. Гармонизация генома и номенклатуры генов является первоочередной задачей.