收藏本站

電腦請使用 Ctrl + D 加入最愛
手機請使用 收藏
關閉

科學報 科學文摘 探索

裏程碑!首次完整破譯人類基因組


字體大小:
更新日期:2022402
文章欄目:
文章標籤:           
 

2022年04月02日 09:00

【科學快訊】

  圖片來源:T。
POTAPOVA AND J。
GERTON/STOWERS INSTITUTE FOR MEDICAL RESEARCH

  從1990年至今,我們一直在接近完整的人類基因組。今天,在發表於《科學》雜志的6項新研究中,科學家破解了最為關鍵的測序難題,獲得了完整的人類基因組序列,或能將我們對人類的生長發育和疾病的了解,推向了新的高度。

  撰文 | 栗子、clefable

  人類的細胞裏,通常有23對染色體。如果仔細觀察這些染色體,你會發現組蛋白和纏繞在其上的DNA。我們的DNA由ATCG4種堿基排列而成,生命的密碼就藏在其中。人類的基因組包含大約30億個堿基對,排列極其複雜,但有規律,因為人與人基因組的相似性高達99.9%。多年來,科學家們一直想要借助其中的規律了解人體工作的原理,特別是與疾病相關的機制。

  1986年,《科學》雜志上刊登了一篇由諾貝爾生理學或醫學獎得主Renato Dulbecco撰寫的文章。他認為,癌症研究已經來到一個關鍵的結點:要麼零碎地挖掘一些關鍵的癌症基因,要麼測定一個特定物種完整的基因組。而想要攻克人類的癌症,測定人的基因組,了解參與關鍵的生理學和病理學過程中各個基因是必不可少的。

  同年,杜爾貝科和其他科學家聯合發起了人類基因組計劃(Human Genome Project)——對人類的核基因組進行完整地測序,1990年這項計劃正式啟動,被譽為生命科學領域的「登月計劃」。又過了14年,也就是2004年,首個人類基因組測序結果發表,但基因組上仍有大約2億個堿基未知,占全部序列的8%。這些未知序列當中包含很多高度重複的堿基序列,受限於當時的技術難以破譯。

  從那以後,科學家們陸續發布了越來越完整的人類基因組序列。到2017年,圖譜上的缺口已經不足1000個,但人類基因組依然不夠「完整」。

amocity
amocity

  


  今天,一個由近100名研究人員組成的國際性的科學組織——端粒到端粒(T2T)聯盟,在《科學》雜志上發表了6篇論文,表示他們測出了那些高度重複的DNA序列,並獲得了迄今為止最完整的人類基因組T2T-CHM13,其中包括30.55億個堿基對,由22條常染色體和X染色體無縫組裝而成。此時,基因組的缺口僅剩5個,這項研究也被認為是首個完整的人類基因組測序。

  突破難題

  為了獲得完整的基因組,團隊首先要解決測序中的一個難點:人體內的大多數細胞都包含兩個基因組——一個來自父親,一個來自母親。當研究人員將DNA片段組裝起來時,父本和母本的序列會混合在一起,無法確定某一個基因組中實際發生的變異。

  因此,研究團隊使用了一個匿名的細胞系,這個細胞系來自20多年前從一位女性子宮裏切除的異常生長物。那位女性經曆了妊娠失敗——精子進入一個沒有染色體的卵細胞。如果受精卵中只有精子的遺傳物質的話,就無法長成一個胚胎,但依然可以複制,尤其是在精子攜帶X染色體的時候。

  異常的受精卵有個好處,就是只包含一個基因組,23對染色體都是兩兩相同的。華盛頓大學的遺傳學家、協助領導人類基因組計劃的羅伯特·沃特斯頓(Robert Waterston)說,這對填補基因組中的缺口有很大的幫助,因為測序儀不再需要解決父母染色體不一樣的問題了。

  除此之外,還有一個更重要的難點,就是高度重複的序列。在進行基因組測序時,科學家通常需要將DNA切成較短的片段再逐一測序,然後將測序結果拼湊起來。但遇到大量高度相似的序列時,研究者便難以確定它們之間的排列順序。因此,科學家需要借助更加先進的技術,每次測量更長的DNA序列,來減少拼湊的需求。

  於是,T2T聯盟的科學家使用了多項前沿的測序技術,包括讀取10萬個堿基的納米孔測序設備(nanopore device)和一個更加精確但每次只能讀取約1萬個堿基的測序儀等。團隊把這些手段用在一起,幾乎消滅了所有的基因組難題,只剩下5個缺口,總共大約1000萬個未知堿基。另外,由於那個細胞系中只有常染色體與X染色體,Y染色體的堿基序列還需要詳細解析。

  首次確定的序列

amocity
amocity

  


  此次,研究團隊為基因組填補了大約2億個堿基,主要位於著絲粒區域和近著絲粒染色體的短臂區域,還有許多長度超過1000個堿基的大段重複序列。這些序列中包含1900 多個基因,大部分是已知基因的拷貝,但也包括182個新基因。

  研究團隊在著絲粒上發現了一段特別的序列,它可以和一種名叫「動粒」的蛋白複合物結合,而「動粒」參與調控著染色體的移動,也參與染色體的分裂過程。一旦這個序列發生變異,就可能影響細胞內的基因表達,從而導致癌症。

  4種類型的染色體,其中從左到右地3個為近著絲粒染色體。這類染色體的短臂非常短。圖片來源於Vedantu

  科學家也發現,著絲粒區域出現了異常高的變異水平。他們分析,著絲粒以及附近區域呈現出「分層擴散」的演化模式,即存在著不斷重複、但有突變的序列,新的序列會和舊序列連接,而舊的序列被新的序列擠到邊緣,慢慢縮短。

amocity
amocity

  


  除此之外,5條近著絲粒染色體的短臂區域的測序結果顯示,這些短臂區域中包含了編碼核糖體RNA的基因的多個拷貝,一共400份。更重要的是,短臂區域的變異水平也比較高,並有大量的重複序列,如可移動的轉座子等。研究團隊認為,短臂區域很可能是基因演化的熱點區域,因為停留在那裏的基因拷貝可以自由變異並獲得新的功能。

  圖中右側為染色體,它含有兩條姐妹染色單體,它們的連接處為著絲粒。圖片來源:National Human Genome Research Institute

  科學家們十分重視基因組中的重複序列,並給它們編排了目錄。在這些序列當中,堿基上的化學修飾可能和許多疾病有關,例如一些神經障礙和發育障礙等。並且那些疾病的出現,通常和某些重複序列的拷貝數量變化有關。

  後續的計劃

  毫無疑問,這個新的人類基因參考圖譜將會對基因組分析產生重大影響。它將能更好地支持個性化醫療、人群基因組分析和基因組編輯。歐洲分子生物學實驗室的副主任、生物信息學家尤恩·伯尼(參與了人類基因組計劃,沒有參與這些研究)表示:「即使是5年前,我們也沒有想到能做到這一點,更不用說10年前了。這些研究工作極為出色。」基因編輯公司Inscripta的基因組學家迪安娜·丘奇(Deanna Church)認為,這些此前未知的DNA區域讓我們對基因組有了更多新的了解。

  雖然,這些新的研究工作使基因組測序達到了一個新的裏程碑,但人類基因組測序儀器並沒有完全下班。由於使用的細胞系沒有Y染色體,T2T聯盟的科學家獲取了哈佛大學系統生物學家列昂尼德·佩什金(Leonid Peshkin)的基因組,並對他的一條Y染色體進行了測序。此前,佩什金博士的基因組已經被研究得相對充分了,只是還沒有得到完整的基因組序列。好消息是,昨日,T2T聯盟在推特上宣布他們已經確定了Y染色體上缺失序列的正確排列形式。想必離解析出完整的Y染色序列也不遠了。

  除此之外,人類基因組計劃聯合負責人、貝勒醫學院遺傳學家理查德·吉布斯(Richard Gibbs)說:「還有一些工作要做。」包括他在內的許多研究人員都強調,現在需要從更多樣化的人群中獲取完整的基因組序列,來尋找染色體短臂中可能存在的變異,以及其他獲取其他測序難度比較高的區域的變異,因為這些都有可能和疾病或別的性狀有關。

  此外,他們還有一個新目標——從不同種族或血統的人中提取350個基因組(目前已破譯了70個基因組)。這些基因組是人類泛基因組參考聯盟(Human Pangenome Reference Consortium)的一部分,它們的測序更有挑戰性,因為每一對染色體都是兩兩不同的。最終,科學家希望給每一個基因組,都找出端粒到端粒的完整序列。

  參考鏈接:

延伸閱讀
撩世界