摘要:隨著高通量測序技術的快速發展和測序成本的逐漸降低,個體基因組測序已成為研究不同物種的基因型、變異情況和相關疾病的重要手段。然而,由于基因組上的大量重復序列和高變異區域,日益增大的測序數據量以及測序技術的局限等因素,如何準確且快速地將大量測序數據比對到參考基因組面臨巨大挑戰。闡述基于哈希思想的基因組數據的存儲和索引方法。本文說明基于seed-and-extension思想的基本比對思路。本文提出一個基于de Bruijn圖模型的索引結構DBG-index以及該索引的3層結構數據存儲方式。分析該索引結構的特性并提出種子的基本操作方法。該索引結構利用圖模型特性可以有效組織基因組上的重復序列,從而在整體上減少了候選種子數量并極大提高了比對速度。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社