【
儀表網 行業(yè)標準】近日,國家標準計劃《大規(guī)模并行測序 測序數據的質量評估》編制完成并征求意見,時間截止到2023年6月23日。主要起草單位為中國測試技術研究院等。
測序技術應用廣泛,一次測序得到大量數據,數據整理與分析是高通量測序應用于生物研究最關鍵的環(huán)節(jié),若未按需求對數據進行分析與評估,則所測得數據無法驗證實驗結果。有效的數據分析與質量控制有利于物種鑒定、病原體識別、病毒基因溯源、醫(yī)療診斷、環(huán)境微生物檢測、測序儀校準等需要,用于通過測序和序列比對分析來進行基因鑒定的行業(yè)/科研領域。
大規(guī)模并行測序的數據質量評估是一項跨領域的分析手段,涉及生物信息學知識較多,廣泛影響生物科技的許多方面。例如,在食品領域,即使沒有參考樣本或參考基因序列,通過對植物或動物產品中源性成分各目標基因進行測序,通過數據庫序列信息比對即可確定源性,以進行物種真實性鑒定,實現對復雜背景樣本和未知物種樣本中各種源性成分信息的高通量檢測,用于品牌維護及肉類摻假鑒定;對土壤、水體、空氣中微生物及發(fā)酵產品、果蔬貯藏過程中微生物的多樣性及功能分析;通過血清中腫瘤標志物的測定,協(xié)助腫瘤的診斷、預后判斷及療效評價;通過檢測腫瘤患者特定的基因變異情況,協(xié)助實施針對靶點的精準治療方案;基于reads 深度、雙末端映射、拆分read、從頭拼接等方法檢測拷貝數變異,以探究人類多種疾病的成因。
大規(guī)模并行測序技術由于其準確性和檢測通量改變了整個檢測領域的發(fā)展。一次高通量測序可以讀取400 000-4 000 000條序列,不同的測序平臺可讀取到的堿基數不等,測序平臺的不斷進步與更新促進了測序方法/儀器的廣泛發(fā)展,目前NGS 的主要代表平臺有Illumina公司的Solexa基因組分析儀、華大基因的MGISEQ-2000平臺及ABI的SOLiD測序儀,Solexa 聚合酶合成測序的關鍵技術是:“DNA簇”和“可逆性末端終結”,SOLiD連接酶測序取代了傳統(tǒng)PCR,可對單拷貝DNA片段進行大規(guī)模擴增和高通量測序。
然而,對測序所得的數據進行整理與分析仍面臨巨大的挑戰(zhàn)。首先,一次測序得到海量數據,對數據分析處理需采用大量軟件及工具,要求試驗人員熟練操作各項軟件并具有生物信息學知識的儲備;其次,測序過程中存在儀器報錯的可能性,影響測序數據質量,加大數據分析難度;此外,核酸濃度及純度未達到測序要求、選擇不合適的文庫制備方法會影響測序結果,導致檢測效率低、準確性差。
本標準的研制有利于提高測序數據的準確性及可信度、支持測序方法的選擇和優(yōu)化、提供可用于性能資質鑒定的關鍵性能參數。具有更高可信度的生物技術和生物學工業(yè)數據,能實現數據的共享,提升檢測準確性,減少風險和成本,促進國際交流。
本文件適用于測序數據的質量評估與驗證。確定了原始數據的評估指標(序列長度分布、每個序列GC含量、質量值、序列重復水平、超出閾值水平、集群密度、出錯率等)、分析用于不同應用的序列校正及比對軟件;測序校正和比對的質量控制,包括單端測序片段比對,配對段測序片段比對,子片段的長度比對;變異識別,能識別SNV、插入缺失、CNV和SVs 四種變異類型,變異識別質量指標包括變異質量值、等位基因讀取百分比、樣品間污染分析等;質量指標驗證,包括建立去除低質量堿基的方法、確定比對質量參數、定義平均覆蓋范圍;高通量測序方法特異性及靈敏度確認(單一物種驗證、混合樣品檢測、不同加工方式樣品檢測)。
所有評論僅代表網友意見,與本站立場無關。