73 памятных вещи о лете 73-го
May 16, 2023Прогнозирование аберрантного сплайсинга в тканях человека
Sep 02, 2023Сравнение пайки оплавлением и волновой пайки
Jun 17, 2023Размер рынка Agv (автоматизированные управляемые транспортные средства) (выручка)
Aug 18, 2023Системы наведения и навигации AGV
Jun 05, 2023Прогнозирование аберрантного сплайсинга в тканях человека
Nature Genetics, том 55, страницы 861–870 (2023 г.) Процитировать эту статью
13 тысяч доступов
1 Цитаты
174 Альтметрика
Подробности о метриках
Аберрантный сплайсинг является основной причиной генетических нарушений, но его прямое обнаружение в транскриптомах ограничено клинически доступными тканями, такими как кожа или жидкости организма. Хотя модели машинного обучения на основе ДНК могут отдавать предпочтение редким вариантам, влияющим на сплайсинг, их эффективность в прогнозировании тканеспецифического аберрантного сплайсинга остается неоцененной. Здесь мы создали набор эталонных данных аберрантного сплайсинга, охватывающий более 8,8 миллионов редких вариантов в 49 тканях человека из набора данных Genotype-Tissue Expression (GTEx). При полноте 20% современные модели на основе ДНК достигают максимальной точности 12%. Путем картирования и количественной оценки использования тканеспецифичных сайтов сплайсинга в масштабах всего транскриптома и моделирования конкуренции изоформ мы увеличили точность в три раза при одном и том же воспроизведении. Интеграция данных секвенирования РНК клинически доступных тканей в нашу модель AbSplice позволила повысить точность до 60%. Эти результаты, воспроизведенные в двух независимых когортах, вносят существенный вклад в идентификацию некодирующих вариантов потери функции, а также в разработку и анализ генетической диагностики.
Идентификация некодирующих вариантов ДНК с потерей функции является основным узким местом интерпретации всего генома, поскольку предсказание функции вне кодирующих областей затруднено1. Варианты, изменяющие сплайсинг, представляют собой важный класс некодирующих вариантов с потерей функции, поскольку они могут приводить к радикально измененным изоформам РНК, например, индуцируя сдвиг рамки считывания или абляцию функционально важных белковых доменов. Если вариант сильно меняет выбор изоформ сплайсинга, оставшееся количество функциональных изоформ РНК может быть настолько уменьшено, что функция гена будет потеряна. Из-за важности сплайсинга для интерпретации вариантов, особенно в диагностике редких заболеваний и онкологии, были разработаны алгоритмы, позволяющие предсказать, влияют ли варианты на сплайсинг2,3,4,5,6,7,8,9. Однако лишь недавно в тканях человека были выявлены аберрантные события сплайсинга, то есть редкие большие изменения в использовании изоформ сплайсинга10,11,12. Хотя был предложен метод апостериорного определения приоритета потенциальных причинно-редких вариантов для наблюдаемых событий аберрантного сплайсинга12, прямая проблема, то есть предсказание среди редких вариантов, какие из них приведут к аберрантному сплайсингу, не была решена.
Здесь мы намеревались создать модели, предсказывающие, связан ли редкий вариант с аберрантным сплайсингом в той или иной ткани человека. Сначала мы предположили, что доступна только ДНК, а затем дополнительно рассмотрели данные комплементарного секвенирования РНК (RNA-seq) клинически доступных тканей (CAT) (рис. 1).
Мы намеревались предсказать, связаны ли редкие варианты с аберрантным сплайсингом в 49 тканях человека. а) Мы установили комплексный эталон для аберрантного сплайсинга, обрабатывая образцы GTEx с помощью недавно опубликованного вызывающего аберрантный сплайсинг10, на основе которого мы могли оценить и разработать предикторы, которые могли бы использовать в качестве входной последовательности ДНК и, необязательно, данные секвенирования РНК CAT. б. Бенчмаркинг выявил умеренную производительность используемых в настоящее время алгоритмов, основанных только на ДНК, существенное улучшение производительности при интеграции этих моделей с SpliceMap, количественной картой тканеспецифического сплайсинга, которую мы разработали в этом исследовании, и дальнейшие улучшения, когда также включаются прямые измерения аберрантных сплайсинг в доступных тканях.
Мы создали тест, используя программу аберрантного сплайсинга FRASER (Find RAre Splicing Events in RNA-seq)10 на 16 213 образцах RNA-seq из набора данных Genotype-Tissue Expression (GTEx), охватывающего 49 тканей и 946 человек. По сравнению с другими методами обнаружения выбросов сплайсинга11,12, FRASER неизменно показывал самое высокое согласие с предикторами на основе последовательностей и поэтому впоследствии использовался для наших оценок (расширенные данные, рис. 1). Для каждого человека мы рассматривали каждый ген, кодирующий белок, несущий по крайней мере один редкий вариант (частота минорных аллелей (MAF) менее 0,1% на основе базы данных агрегации генома (gnomAD)13 и обнаруженный не более чем у двух человек в GTEx) и установили Мы хотим предсказать, в какой ткани (если таковая имеется) происходит аберрантный сплайсинг этого гена. Мы определили, что ген подвергается аберрантному сплайсингу в образце, если он был назван значимым выбросом сплайсинга во всем транскриптоме и имел достаточную амплитуду (дифференциальный процент сплайсинга (Ψ) более 0,3; методы и см. Расширенные данные, рис. 1). для результатов с альтернативными пороговыми значениями). Предыдущие исследования показали, что до 75% событий аберрантного сплайсинга в образцах GTEx RNA-seq не реплицируются в тканях10,12 и, таким образом, могут отражать технические артефакты или аберрантный сплайсинг, который не обусловлен генетически. Мы количественно оценили обогащение реплицированных выбросов сплайсинга в тканях одного и того же человека в зависимости от расстояния до ближайшего редкого варианта и обнаружили, что они обогащены до расстояния 250 пар оснований (п.н.) (расширенные данные, рис. 2). Поэтому мы также требовали, чтобы редкий вариант находился на расстоянии менее 250 п.н. от границ любого интрона, связанного с сайтом аберрантного сплайсинга (Методы и расширенные данные, рис. 3). Этот фильтр дал те же результаты, что и фильтрация повторяющихся аберрантных событий, с дополнительным преимуществом, заключающимся в том, что он применим к независимым когортам, имеющим одну выборку на человека (расширенные данные, рис. 4).