科學也可以如此靠近

中科院科學家研究開發國際領先基因組序列變異庫

12月
15
2017

2017年12月15日20時 今日科學 基因谷

基因谷

近日,中國科學院生命與健康大數據中心科學家團隊開發了國際領先、國內首個規模最大的基因組序列變異庫——GVM(Genome Variation Map)。該庫基於人工審編整合了多個物種的大量基因組序列單核苷酸多態位點和小的插入與刪除變異信息,是基因組序列變異信息匯交、管理與檢索的資源庫。研究成果以Genome Variation Map: a data repository of

genome variations in BIG Data Center為題,在線發表在Nucleic Acids Research上。

基因組序列變異是基因組DNA水平發生的可遺傳變異,是生物多樣性的基礎,是物種進化、分子育種、優良性狀選育、人類疾病等研究最為寶貴的遺傳資源。近年來,隨著測序技術發展,越來越多物種的基因組被精細解析;物種內遺傳多態變異位點也通過大規模的群體測序獲得,並廣泛應用於複雜性狀的關聯解析。國際兩大數據中心NCBI和EBI旗下的dbSNP和EVA是主要的基因組序列變異資源庫。今年5月,NCBI宣布自2017年9月1日起,dbSNP和dbVar兩大資料庫停止接收非人物種的SNP提交信息,自2017年11月1日起停止非人物種的SNP在線查詢與提交。這對基於序列變異研究的科研人員造成了不便。

為此,GVM作為生命與健康大數據中心的核心數據資源庫之一,搜集了以二代測序和晶片技術為主要檢測手段的全基因組序列變異檢測的原始數據,通過標準化的變異位點鑑定與注釋,獲得包括人、畜牧動物、主要農作物和其他資源物種在內的19個物種共約50億的變異信息,8,884個個體的基因型數據,並通過人工審編收錄了13,262條高質量非人物種的基因型與表型知識數據,整合了180,911條人變異位點的知識信息。其中,大熊貓、虎鯨、毛竹、橡膠、小麥是GVM資料庫所特有的物種。

GVM開發了友好的數據提交、瀏覽、搜索和可視化功能。用戶可通過基因組位置、變異影響、基因名稱和基因功能等檢索變異位點信息,並下載數據;可通過ftp服務下載VCF和FASTA文件格式的全基因變異信息;可在線或離線方式向系統提交數據,這方便了科研人員的數據共享。

研究工作得到了中科院戰略性先導科技專項、中科院國際大科學計劃、國家科技攻關計劃、國家高技術研究發展計劃(863計劃)、國家自然基金項目、中科院百人計劃、中科院青年創新促進會等的資助。

GVM資料庫物種變異信息統計表


延伸閱讀

極地冰層細菌的發現將對地球氣候變遷的理解產生重大

《細胞》:意想不到!腸道微生物竟是帕金森病的致病

人體的秘密,放大後看細思極恐,每個人睫毛上都有睫

3500萬年前南極可能是熱帶荒漠,冰塊突然出現在

科學家發現吃魚會讓人變得更聰明 且有助於改善睡眠


熱門內容

友善連結