收藏本站

電腦請使用 Ctrl + D 加入最愛
手機請使用 收藏
關閉

科學報 科學文摘 探索

轉錄組測序到底在做什麼(一)


字體大小:
更新日期:2019111
文章欄目:
文章標籤:               
 
微分基因

轉錄組廣義上指在特定環境(或生理條件)下,一個或一群細胞中所轉錄出的所有RNA的總和,包括信使RNA(mRNA)、核糖體RNA(rRNA)、轉運RNA(tRNA)及非編碼RNA;而我們通常所說的轉錄組則特指mRNA的集合。

隨著二代測序價格的不斷下降及生信分析技術的不斷進步,轉錄組測序被廣泛的應用於生物學研究的方方面面。而「測個序吧」也成了研究者在缺乏明確目標的情況下篩選後續研究方向的一個省時省力,且經濟實惠的手段。即使在目前組學研究突飛猛進的情況下,經典轉錄組也依然占據著極重要的地位。然而,對於一些對二代測序技術了解不多的研究者而言,想使用這個方便而強大的工具依然有一定的門檻。

那麼,轉錄組測序到底在做什麼呢?到底能做什麼呢?實驗方案設計上又有哪些講究呢?下面就跟隨小微理清轉錄組測序的方方面面,為您的研究課題提供一個強有力的工具。

其實早在2016年,佛羅里達大學、加州大學等的研究人員就在Genome Biology上發表了題為「A survey of best practices for RNA-seq data

analysis」的review,對經典轉錄組測序及數據分析作了細緻的介紹,目前該綜述的累計引用次數已經接近700次,足見轉錄組測序的火爆程度。我們可以將一個完整的轉錄組測序的實驗流程分為了三部分(圖一)。

第一部分是前期分析部分,包括對實驗方案的設計、測序方案的設計、以及測序數據的質控。第二部分則是核心分析,包括轉錄組測序整體評估,基因差異表達分析及功能分析。第三部分是高級分析,這部分需要針對特定的實驗目的和需求進行選擇,如轉錄因子的分析、融合基因分析、與其他組學的聯合分析等。

圖一

前期分析

轉錄組測序的根本目的在於回答特定的生物學問題,因此一個良好的實驗方案的設計是其根本。其中,生物學重複的數量、文庫類型及測序深度等因素直接關係到結果的好壞。在這裡要尤其強調至少三個以上的生物學重複的重要性。三個以上的生物學重複是進行任何可信的下游數據的統計分析的基礎,過少的生物學重複或者沒有重複將使分析結果的可信度大大降低。

而由於轉錄組情況的複雜,選擇合適的文庫類型也顯得極為重要。文庫的選擇一般考慮兩個問題:

amocity
amocity

  


01、如何獲取mRNA片段?

真核生物成熟的mRNA一般帶有polyA尾巴,因此常規的轉錄組建庫流程中通常直接對具有PolyA尾巴的片段進行捕獲,這樣可以得到純度較高的mRNA。但是這樣的方式對於mRNA的完整度要求較高,發生降解的樣本使用這種建庫方式會損失一定的轉錄組信息。另一種獲得mRNA的方式則去除在Total

RNA中占比最高的rRNA(通常占比超過90%以上),而剩下的RNA中就包括了mRNA(占比為1-2%),這種方式對降解樣本的耐受度相對較高,但需要更高的測序數據量,且成本也更高。原核生物由於其mRNA不具有PolyA尾巴,因此只能選擇rRNA去除的方式。

02、是否構建鏈特異性文庫?

由於RNA為單鏈,但普通的轉錄組文庫會同時測到模板鏈及其反向互補信息,不但無法判斷原始的mRNA的方向,同時也會對轉錄本的定量的準確性產生干擾。而鏈特異性文庫則可以在建庫過程中將反向互補序列的文庫直接消化掉,不僅保留了原始的mRNA的方向,同時也提高了定量的準確性。

微分基因所有的轉錄組產品(包括真核有參轉錄組、真核無參轉錄組、原核轉錄組)均已全面升級為鏈特異性文庫。

另一個重要的因素就是測序數據量的大小(即測序深度)。但是最佳的測序數據量並沒有一個固定的值,而會因為目標轉錄組的複雜度的不同而不同。一些人認為5M的mapped

reads足夠對轉錄組中的中度及高度表達的轉錄本進行精確定量了。但是對低豐度的轉錄本的定量則需要更高的測序深度,而過高的測序深度所帶來的轉錄本的噪聲也可能影響定量的準確性。在對轉錄組的整體評估中,飽和曲線可以較好的評估測序深度是否合適。

amocity
amocity

  


通過對以上這些實驗設計因素的控制後通過測序就得到了測序數據。我們還需要對原始數據(RAW data)進行質控,包括對低質量的測序數據的去除,接頭序列的去除,rRNA序列的去除等。經過質控過濾後得到的數據(clean data)才能進行後續的分析。同時,也可以通過鹼基分布、Q20、Q30、rRNA比例等指標初步判斷測序質量好壞。

至此,我們得到的clean data就可以進行真正的轉錄組學分析,來解決我們的實際的生物學問題了。那麼需要經過哪些分析流程呢?又可以拿到哪些分析結果呢?請關注轉錄組測序到底在做什麼(二),小微將為您帶來有關轉錄組數據分析方面的詳細解答。

參考文獻:

1.Conesa A, Madrigal P, Tarazona S, et al. A survey of best practices for RNA-seq data analysis. Genome biology, 2016, 17(1): 13.

2.Hasin Y, Seldin M, Lusis A. Multi-omics approaches to disease. Genome biology, 2017, 18(1): 83.

3.Pimentel H, Bray N L, Puente S, et al. Differential analysis of RNA-seq incorporating quantification uncertainty. Nature methods, 2017, 14(7): 687.

4.Lowe R, Shirley N, Bleackley M, et al. Transcriptomics technologies. PLoS computational biology, 2017, 13(5): e1005457

5.Hardwick S A, Chen W Y, Wong T, et al. Spliced synthetic genes as internal controls in RNA sequencing experiments. Nature methods, 2016, 13(9): 792.

6.Sallam T, Sandhu J, Tontonoz P. Long noncoding RNA discovery in cardiovascular disease: decoding form to function. Circulation research, 2018, 122(1): 155-166.

延伸閱讀
撩世界