科學報科學文摘探索

轉錄組測序到底在做什麼（二）

字體大小：
更新日期：2019年1月11日
文章欄目：
文章標籤：

微分基因
經過《轉錄組測序到底在做什麼（一）》的介紹，我們已經完成前期分析，拿到了clean data，下面請跟隨小微，進入到轉錄組測序真正的核心分析內容。 
核心分析
在獲得clean data後，我們需要將得到的clean data回貼（mapping）到參考基因組或參考轉錄組上（有參轉錄組）。 在這個步驟中，回貼的比例（mapping
rate）就顯得至關重要。 如對於人的轉錄組，一般期望回貼到參考基因組上的比例能達到70%-90%。 而回帖到參考轉錄組時，這個比例會略低，因為資料中未註釋的轉錄本無法進行回貼。 另外，覆蓋度也十分重要。 例如在回貼中發現轉錄本的5』端覆蓋度較低而3』端覆蓋度較高，則表示樣本質量較差，發生了一定的降解。 而對於沒有參考基因組、參考轉錄組（無參轉錄組）或參考基因組及轉錄組不完整的樣本，則需要對得到的資料進行從頭拼接，組裝出轉錄組序列。 （圖2）對於有參轉錄組在進行回貼分析後，還可對參考轉錄組中未註釋的新的轉錄本進行鑑定與分析。 也可以對轉錄本的變異進行分析，如對SNP位點的分析、InDel分析、不同型別的可變剪下的分析等。 還可基於mapping的結果進行融合基因的分析。 
圖二
完成回貼、組裝、新轉錄本預測、變異分析、融合基因等的分析後，就進入到轉錄組最核心的部分，即轉錄本的表達定量和差異表達分析。 轉錄本的表達定量，即對各轉錄本測到的reads數進行轉錄本長度、測序深度等因素的均一化後進行的表達量評估。 在雙端測序中常使用FPKM（fragments per kilobase of exon model per million mapped
reads）這一指標來衡量，即每1百萬個fragments中map到外顯子的每1K個鹼基上的reads個數，其中的fragment指在雙端測序中由插入片段兩端的一組reads所確定的一個片段（fragment）。 而差異表達分析則是在轉錄本定量的基礎上，為找出不同樣本組中表達量發生顯著差異的轉錄本，同時確定其表達量的變化的趨勢及倍數所進行的分析。 而透過樣本間的相關性分析，可以判斷生物學重複間的相似度，處理組與對照組之間的整體的基因表達差異大小。 
功能分析也是轉錄組測序分析流程中的重要的一部分。 透過對新基因、差異表達基因等的功能與可能參與的代謝通路進行推測，幫助研究人員分析樣本的處理組和對照組間出現表型差異的可能的生化與分子生物學原因。 
透過以上的這些分析，我們可以清晰的瞭解到不同樣本間的各轉錄本的表達量差異，變異（SNP、InDel、可變剪接、融合基因等），以及這些差異轉錄本的功能及所在的代謝通路。 為分析不同樣本組間的表型差異的原因提供了豐富的資料。 
高階分析
由於轉錄本是基因表達調控中極為關鍵的一個環節，因此轉錄組不僅可以作為獨立的分析內容，也可以與其他的組學相互聯用進行更深層次的研究。 如可與DNA甲基化資料聯用，進一步分析DNA甲基化與基因表達間的關係，從基因表達調控的角度進行如疾病的發病原理等的應用。 而與CHIP-seq資料的聯用，則可以探索組蛋白修飾與基因表達的關係。 與其他ncRNA的聯合分析，如sRNA、lncRNA、circRNA等的功能探索，基因表達調控通路的研究等。 而普通轉錄組自身也在向單細胞轉錄組、全長轉錄組等方向拓展和進化，在研究工作中勢必起到越來越大的作用。

透過這一輪的回顧，大家應該對轉錄組測序有了一個更加全面的認識，那就不要浪費了這個強大的工具，趕緊應用到你的研究中來吧！
參考文獻
1、Conesa A, Madrigal P, Tarazona S, et al. A survey of best practices for RNA-seq data analysis. Genome biology, 2016, 17(1): 13.
2、Yalamanchili H K, Wan Y W, Liu Z. Data Analysis Pipeline for RNA‐seq Experiments: From Differential Expression to Cryptic Splicing. Current protocols in bioinformatics, 2017,59(1): 11.15.
1-11.15. 21.
3、Lott S C, Wolfien M, Riege K, et al. Customized workflow development and data modularization concepts for RNA-Sequencing and metatranscriptome experiments. Journal of biotechnology, 2017,
261: 85-96.
4、Miao Z, Han Z, Zhang T, et al. A systems approach to a spatio-temporal understanding of the drought stress response in maize. Scientific reports, 2017, 7(1): 6590.
5、Roca C P, Gomes S I L, Amorim M J B, et al. Variation-preserving normalization unveils blind spots in gene expression profiling. Scientific Reports, 2017, 7: 42460.
6、Lu Y, Ye Y, Bao W, et al. Genome-wide identification of genes essential for podocyte cytoskeletons based on single-cell RNA sequencing. Kidney international, 2017, 92(5): 1119-1129.
7、Bush S J, McCulloch M E B, Summers K M, et al. Integration of quantitated expression estimates from polyA-selected and rRNA-depleted RNA-seq libraries. BMC bioinformatics, 2017, 18(1):
301.
8、Paulson J N, Chen C Y, Lopes-Ramos C M, et al. Tissue-aware RNA-Seq processing and normalization for heterogeneous and sparse data. BMC bioinformatics, 2017, 18(1): 437.

本文朗讀完畢，請繼續下一頁。喜歡、科學報 cn-n.net 的內容，請記得按讚、收藏及分享！

微分基因

經過《轉錄組測序到底在做什麼（一）》的介紹，我們已經完成前期分析，拿到了clean data，下面請跟隨小微，進入到轉錄組測序真正的核心分析內容。

核心分析

在獲得clean data後，我們需要將得到的clean data回貼（mapping）到參考基因組或參考轉錄組上（有參轉錄組）。在這個步驟中，回貼的比例（mapping

rate）就顯得至關重要。如對於人的轉錄組，一般期望回貼到參考基因組上的比例能達到70%-90%。而回帖到參考轉錄組時，這個比例會略低，因為資料中未註釋的轉錄本無法進行回貼。另外，覆蓋度也十分重要。例如在回貼中發現轉錄本的5』端覆蓋度較低而3』端覆蓋度較高，則表示樣本質量較差，發生了一定的降解。而對於沒有參考基因組、參考轉錄組（無參轉錄組）或參考基因組及轉錄組不完整的樣本，則需要對得到的資料進行從頭拼接，組裝出轉錄組序列。（圖2）對於有參轉錄組在進行回貼分析後，還可對參考轉錄組中未註釋的新的轉錄本進行鑑定與分析。也可以對轉錄本的變異進行分析，如對SNP位點的分析、InDel分析、不同型別的可變剪下的分析等。還可基於mapping的結果進行融合基因的分析。

圖二

完成回貼、組裝、新轉錄本預測、變異分析、融合基因等的分析後，就進入到轉錄組最核心的部分，即轉錄本的表達定量和差異表達分析。轉錄本的表達定量，即對各轉錄本測到的reads數進行轉錄本長度、測序深度等因素的均一化後進行的表達量評估。在雙端測序中常使用FPKM（fragments per kilobase of exon model per million mapped

reads）這一指標來衡量，即每1百萬個fragments中map到外顯子的每1K個鹼基上的reads個數，其中的fragment指在雙端測序中由插入片段兩端的一組reads所確定的一個片段（fragment）。而差異表達分析則是在轉錄本定量的基礎上，為找出不同樣本組中表達量發生顯著差異的轉錄本，同時確定其表達量的變化的趨勢及倍數所進行的分析。而透過樣本間的相關性分析，可以判斷生物學重複間的相似度，處理組與對照組之間的整體的基因表達差異大小。

功能分析也是轉錄組測序分析流程中的重要的一部分。透過對新基因、差異表達基因等的功能與可能參與的代謝通路進行推測，幫助研究人員分析樣本的處理組和對照組間出現表型差異的可能的生化與分子生物學原因。

透過以上的這些分析，我們可以清晰的瞭解到不同樣本間的各轉錄本的表達量差異，變異（SNP、InDel、可變剪接、融合基因等），以及這些差異轉錄本的功能及所在的代謝通路。為分析不同樣本組間的表型差異的原因提供了豐富的資料。

高階分析

由於轉錄本是基因表達調控中極為關鍵的一個環節，因此轉錄組不僅可以作為獨立的分析內容，也可以與其他的組學相互聯用進行更深層次的研究。如可與DNA甲基化資料聯用，進一步分析DNA甲基化與基因表達間的關係，從基因表達調控的角度進行如疾病的發病原理等的應用。而與CHIP-seq資料的聯用，則可以探索組蛋白修飾與基因表達的關係。與其他ncRNA的聯合分析，如sRNA、lncRNA、circRNA等的功能探索，基因表達調控通路的研究等。而普通轉錄組自身也在向單細胞轉錄組、全長轉錄組等方向拓展和進化，在研究工作中勢必起到越來越大的作用。

轉錄組測序到底在做什麼（二）

透過這一輪的回顧，大家應該對轉錄組測序有了一個更加全面的認識，那就不要浪費了這個強大的工具，趕緊應用到你的研究中來吧！

參考文獻

1、Conesa A, Madrigal P, Tarazona S, et al. A survey of best practices for RNA-seq data analysis. Genome biology, 2016, 17(1): 13.

2、Yalamanchili H K, Wan Y W, Liu Z. Data Analysis Pipeline for RNA‐seq Experiments: From Differential Expression to Cryptic Splicing. Current protocols in bioinformatics, 2017,59(1): 11.15.

1-11.15. 21.

3、Lott S C, Wolfien M, Riege K, et al. Customized workflow development and data modularization concepts for RNA-Sequencing and metatranscriptome experiments. Journal of biotechnology, 2017,

261: 85-96.

4、Miao Z, Han Z, Zhang T, et al. A systems approach to a spatio-temporal understanding of the drought stress response in maize. Scientific reports, 2017, 7(1): 6590.

5、Roca C P, Gomes S I L, Amorim M J B, et al. Variation-preserving normalization unveils blind spots in gene expression profiling. Scientific Reports, 2017, 7: 42460.

6、Lu Y, Ye Y, Bao W, et al. Genome-wide identification of genes essential for podocyte cytoskeletons based on single-cell RNA sequencing. Kidney international, 2017, 92(5): 1119-1129.

7、Bush S J, McCulloch M E B, Summers K M, et al. Integration of quantitated expression estimates from polyA-selected and rRNA-depleted RNA-seq libraries. BMC bioinformatics, 2017, 18(1):

301.

8、Paulson J N, Chen C Y, Lopes-Ramos C M, et al. Tissue-aware RNA-Seq processing and normalization for heterogeneous and sparse data. BMC bioinformatics, 2017, 18(1): 437.