banner
Дом / Блог / Прогнозирование аберрантного сплайсинга в тканях человека
Блог

Прогнозирование аберрантного сплайсинга в тканях человека

Jun 09, 2023Jun 09, 2023

Nature Genetics, том 55, страницы 861–870 (2023 г.) Процитировать эту статью

14 тысяч доступов

2 цитаты

171 Альтметрика

Подробности о метриках

Аберрантный сплайсинг является основной причиной генетических нарушений, но его прямое обнаружение в транскриптомах ограничено клинически доступными тканями, такими как кожа или жидкости организма. Хотя модели машинного обучения на основе ДНК могут отдавать предпочтение редким вариантам, влияющим на сплайсинг, их эффективность в прогнозировании тканеспецифического аберрантного сплайсинга остается неоцененной. Здесь мы создали набор эталонных данных аберрантного сплайсинга, охватывающий более 8,8 миллионов редких вариантов в 49 тканях человека из набора данных Genotype-Tissue Expression (GTEx). При полноте 20% современные модели на основе ДНК достигают максимальной точности 12%. Путем картирования и количественной оценки использования тканеспецифичных сайтов сплайсинга в масштабах всего транскриптома и моделирования конкуренции изоформ мы увеличили точность в три раза при одном и том же воспроизведении. Интеграция данных секвенирования РНК клинически доступных тканей в нашу модель AbSplice позволила повысить точность до 60%. Эти результаты, воспроизведенные в двух независимых когортах, вносят существенный вклад в идентификацию некодирующих вариантов потери функции, а также в разработку и анализ генетической диагностики.

Идентификация некодирующих вариантов ДНК с потерей функции является основным узким местом интерпретации всего генома, поскольку предсказание функции вне кодирующих областей затруднено1. Варианты, изменяющие сплайсинг, представляют собой важный класс некодирующих вариантов с потерей функции, поскольку они могут приводить к радикально измененным изоформам РНК, например, индуцируя сдвиг рамки считывания или абляцию функционально важных белковых доменов. Если вариант сильно меняет выбор изоформ сплайсинга, оставшееся количество функциональных изоформ РНК может быть настолько уменьшено, что функция гена будет потеряна. Из-за важности сплайсинга для интерпретации вариантов, особенно в диагностике редких заболеваний и в онкологии, были разработаны алгоритмы, позволяющие предсказать, влияют ли варианты на сплайсинг2,3,4,5,6,7,8,9. Однако лишь недавно в тканях человека были выявлены аберрантные события сплайсинга, то есть редкие большие изменения в использовании изоформ сплайсинга10,11,12. Хотя был предложен метод апостериорного определения приоритета потенциальных причинно-редких вариантов для наблюдаемых событий аберрантного сплайсинга12, прямая проблема, то есть предсказание среди редких вариантов, какие из них приведут к аберрантному сплайсингу, не была решена.

Здесь мы намеревались создать модели, предсказывающие, связан ли редкий вариант с аберрантным сплайсингом в той или иной ткани человека. Сначала мы предположили, что доступна только ДНК, а затем дополнительно рассмотрели данные комплементарного секвенирования РНК (RNA-seq) клинически доступных тканей (CAT) (рис. 1).

Мы намеревались предсказать, связаны ли редкие варианты с аберрантным сплайсингом в 49 тканях человека. а) Мы установили комплексный эталон для аберрантного сплайсинга, обрабатывая образцы GTEx с помощью недавно опубликованного вызывающего аберрантный сплайсинг10, на основе которого мы могли оценить и разработать предикторы, которые могли бы использовать в качестве входной последовательности ДНК и, необязательно, данные секвенирования РНК CAT. б. Бенчмаркинг выявил умеренную производительность используемых в настоящее время алгоритмов, основанных только на ДНК, существенное улучшение производительности при интеграции этих моделей с SpliceMap, количественной картой тканеспецифического сплайсинга, которую мы разработали в этом исследовании, и дальнейшие улучшения, когда также включаются прямые измерения аберрантных сплайсинг в доступных тканях.

Мы создали тест, используя программу аберрантного сплайсинга FRASER (Find RAre Splicing Events in RNA-seq)10 на 16 213 образцах RNA-seq из набора данных Genotype-Tissue Expression (GTEx), охватывающего 49 тканей и 946 человек. По сравнению с другими методами обнаружения выбросов сплайсинга11,12, FRASER неизменно показывал самое высокое согласие с предикторами на основе последовательностей и поэтому впоследствии использовался для наших оценок (расширенные данные, рис. 1). Для каждого человека мы рассматривали каждый ген, кодирующий белок, несущий по крайней мере один редкий вариант (частота минорных аллелей (MAF) менее 0,1% на основе базы данных агрегации генома (gnomAD)13 и обнаруженный не более чем у двух человек в GTEx) и установили Мы хотим предсказать, в какой ткани (если таковая имеется) происходит аберрантный сплайсинг этого гена. Мы определили, что ген подвергается аберрантному сплайсингу в образце, если он был назван значимым выбросом сплайсинга во всем транскриптоме и имел достаточную амплитуду (дифференциальный процент сплайсинга (Ψ) более 0,3; методы и см. Расширенные данные, рис. 1). для результатов с альтернативными пороговыми значениями). Предыдущие исследования показали, что до 75% событий аберрантного сплайсинга в образцах GTEx RNA-seq не реплицируются в тканях10,12 и, таким образом, могут отражать технические артефакты или аберрантный сплайсинг, который не обусловлен генетически. Мы количественно оценили обогащение реплицированных выбросов сплайсинга в тканях одного и того же человека в зависимости от расстояния до ближайшего редкого варианта и обнаружили, что они обогащены до расстояния 250 пар оснований (п.н.) (расширенные данные, рис. 2). Поэтому мы также требовали, чтобы редкий вариант находился на расстоянии менее 250 п.н. от границ любого интрона, связанного с сайтом аберрантного сплайсинга (Методы и расширенные данные, рис. 3). Этот фильтр дал те же результаты, что и фильтрация повторяющихся аберрантных событий, с дополнительным преимуществом, заключающимся в том, что он применим к независимым когортам, имеющим одну выборку на человека (расширенные данные, рис. 4).

 0.8, MMSplice score > 2 (absolute score) and an AbSplice-DNA score > 0.2 in at least one tissue. Asterisks mark significance levels of two-sided Fisher tests of AbSplice-DNA compared with SpliceAI (*<0.05, **<10−4, ***<10−8). NS, not significant./p> 0.3) and then by significance level. This simple method yielded a markedly increased precision compared with the DNA-based models, up to nearly 40% recall (Fig. 5c and Extended Data Fig. 10a). However, RNA-based predictions remain limited to those splice sites expressed and spliced in the CAT. Therefore, we next trained models integrating AbSplice-DNA features together with RNA-seq-based features from CATs, including differential splicing amplitude estimates to leverage the splicing scaling law and the SpliceMaps (Methods). These models, which we call AbSplice-RNA, outperformed all other models (Fig. 5c and Extended Data Fig. 10a). We found that using fibroblasts only led to the same performance as using all CATs, reaching around 60% precision at 20% recall and amounting to a twofold improvement over AbSplice-DNA (Fig. 5c and Extended Data Fig. 10b). Those improvements were consistent across target tissues (Fig. 5d). As expected, AbSplice-RNA outperformed AbSplice-DNA for genes expressed in CATs and remained on par with it otherwise (Extended Data Fig. 10c). Altogether, these results establish a formal way to integrate direct measurements of aberrant splicing along with sequence-based models to predict aberrant splicing in a tissue of interest./p> 0.3). The same filters were applied to the splicing efficiency metrics./p> 0.3) lower than the remaining genes, and further ranked genes within each of these two groups by increasing P value./p>

 0.3, FDR < 0.05, 126,308 aberrant events) b, Filter 2: same as a, but restricting to genes that are aberrantly spliced in at least two different tissues from the same individual (32,886 aberrant events). c, Filter 3: same as a, but restricting to genes that have a rare variant within 250 bp of the splice sites (22,766 aberrant events). While the results are best with Filter 3, the relative improvements in terms of precision at the same recall between the methods is the same as with Filter 2. In particular, having restricted to variants 250 bp away from any detected split read boundary (Filter 3) did not bias our analysis for the splice-site centric method MMSplice over SpliceAI. d, After applying Filter 3, outliers were stratified into ‘replicated’ (14,030 aberrant events), that is appearing in at least two different tissues of the same individual, and ‘not replicated’ (8,736 aberrant events). All models showed a significantly higher performance for aberrant splicing events replicated in two or more samples compared to those reported in a single sample only./p> 0.3) across tissues./p> 1 (transcript per million). AbSplice-RNA improves for genes expressed in fibroblasts and remains on par with AbSplice-DNA for genes not expressed in fibroblasts./p>