第 687 期

研究發展
從多源基因體序列資料中有效組裝出病毒全基因體工具之開發
NHRI researcher develops drVM: a new tool for efficient genome assembly of known eukaryotic viruses from metagenomes


現今使用高通量的次世代定序技術來解析樣本中的病原基因體方法已漸趨成熟,因此可以應用來鑑識出樣本中的病原體;然而,實際上操作、分析這樣的序列資料是須要先配置特定的分析工具,再經過繁瑣的分析步驟與一連串的資料解析程序,才能夠獲得最終想獲得的病原體資訊。

因此,本院群體健康科學研究所廖玉潔助研究員研究團隊開發一套易於使用(user-friendly)且具有圖形化操作介面(graphical user interface)的drVM工具(detect and reconstruct known viral genomes from metagenomes, drVM),來有效地組裝多源基因體(metagenomes)序列資料中的病毒基因體。並將程式包裝成虛擬機器(virtual machine),方便使用者可以直接下載、匯入後使用;除此之外,也提供進階使用者直接使用程式碼和各種通用的映像檔,包括Amazon machine image以及Docker。

此套自動化分析工具的分析程序如圖1所示,主要提供了病毒基因體資料庫建置的程式CreateDB.py以及病毒序列分析的主程式drVM.py,可以讓使用者自行建構最新的病毒基因體資料庫,並快速地組裝出樣本中所含有的病毒基因體序列;最終產出容易解讀的資料型態,提供病毒序列對應至組裝基因序列上的分布圖譜(coverage profile),幫助使用者瞭解樣本中該病毒的序列深度以及組裝序列的正確性與完整性。圖2為一個實際分析結果的例子:使用此工具分析人類微生物基因組學計畫(human microbiome project, HMP)中的樣本,自動化組裝出兩條完整的、不同型別卻共存的人類乳突病毒(human papillomavirus, HPV)HPV type 45以及type 53的全基因體病毒序列。







圖1:drVM的分析流程圖
(請點擊圖檔放大)


圖2:drVM產出的結果圖譜

此工具實際應用在分析超過三百組的多源基因體序列,成功地組裝出各式的病毒基因體序列,表一摘要出分析結果中所涵蓋的病毒種類以及對應的序列資料來源。比較此工具和其他類似工具的結果,此工具在操作上、執行速度以及組裝序列的完整性都具有絕佳的優勢,可以應用於臨床樣本中新興病毒的鑑定。此自動化分析工具可於線上免費下載( https://sourceforge.net/projects/sb2nhri/files/drVM/),且研究成果已於今年年初發表於GigaScience期刊。


表1:drVM可以組裝出各式的病毒基因體
《文/圖:群體健康科學研究所廖玉潔助研究員》