技術文章
樣本標記/追蹤與質控在大規模新一代測序 項目中的必要性與技術方案
閱讀:3155 發布時間:2017-8-31
必要性:
隨著醫學項目在*范圍內的不斷開展,基于新一代測序(NGS)技術的大規模基因組數據采集已經成為重要的研究手段之一。在此基礎上建立起來的大數據平臺,輔以、全面的健康和醫學數據,將為疾病的診斷與治療,藥物的研發與個體用藥,人群的健康保障等臨床與轉化醫學研究帶來極大的推動。
在大規模人群中開展NGS測序工作時,樣本的準確性、可溯源性將會對zui終的大數據質量產生不可忽視的影響。由于NGS測序流程的復雜性(參見下圖,NGS測序工作經典流程),在樣本庫內得到準確標記的樣本,在測序流程中仍然有一定幾率會發生混淆或者污染。根據上大型測序中心的估算,隨著測序樣本量的增加,一個操作流程完善、工作人員受過專業培訓的基因檢測實驗室,仍然有可能產生千分之一左右的樣本偏差。
因此,一種準確有效卻又成本低廉的樣本標記與追蹤手段,在大規模NGS測序工作中具有重要的現實意義。在美國ACMG(美國醫學遺傳學與基因組學學院)發布的“臨床實驗室NGS測序標準”中指明:“相關實驗室必須采取措施,避免樣本混淆,并能夠隨時追蹤與確認zui終結果”。2017年3月,中華醫學會病理學分會發布的“臨床分子病理實驗室二代基因測序檢測專家共識”中進一步闡明:“為確保檢測過程中樣本沒有混淆或污染,可選用多個SNV位點或其他標簽作為樣本身份標識(sample ID),在檢測前對每個樣本進行SNV位點信息的測定,在NGS檢測后對上述位點進行追蹤,證明沒有交叉污染”。
同時,一個大型測序數據庫中面臨的樣本種類較為繁雜,其中與腫瘤相關的樣本類型如石蠟包埋切片(FFPE)中提取的DNA、血漿中提取的循環腫瘤DNA等,均在正確標記、追蹤之外,還需在NGS文庫制備之前,對其中DNA片段降解程度進行有效評估,從而防止質量較差的樣本帶來的測序成本損失。
技術方案:
樣本標記與跟蹤目前的主要方案,是從待測序列(全基因組、全外顯子組、靶向片段等)中選擇若干標志性單堿基核苷酸變異(SNV),在樣本入庫及測序前,進行基于這些位點的等位基因分型,從而確保樣本的收集與使用流程中沒有發生混淆。在測序完成后,再次利用之前這些位點的基因數據,與測序結果進行再次驗證比對,如果信息一致,即可確認樣本正確性,以及測序覆蓋范圍與數據質量均達到標準。
為達到足夠的區分效果,SNV需要滿足以下兩點標準:1)在待檢測人群(中國人群)中具有較高的雜合度與區分力;2)需達到一定數量(30-40個)以在大規模樣本庫中仍可區分所有個體樣本。根據這兩點標準,國內外*人類基因組測序中心Broad Institute與華大基因均采用了美國Agena Bioscience公司基于核酸質譜MassARRAY®開發的樣本標記/追蹤技術。
該技術是利用MassARRAY®可以在一個反應中完成40多重SNV分型的特點,根據不同測序項目目標片段,選擇約40個SNV位點(包括性染色體標記位點,用于追蹤樣本性別信息),并加入用于樣本降解程度評估的片段完整性內參標記,在同一次反應中,同時完成對樣本的標記與質控,隨后以報告軟件自動生成檢測結果,并整合進入樣本庫相關數據。
根據樣本庫與數據庫規模,MassARRAY®平臺可采用384格式。在一天內,該平臺可完成對6張384孔芯片(即2304個樣本)的標記/追蹤與質控。
利用MassARRAY®強大的定制功能,對不同的測序項目可以選取不同的SNV位點,整合為新的檢測組合,因此具有更高的靈活性與針對性。
隨著醫學項目在*范圍內的不斷開展,基于新一代測序(NGS)技術的大規模基因組數據采集已經成為重要的研究手段之一。在此基礎上建立起來的大數據平臺,輔以、全面的健康和醫學數據,將為疾病的診斷與治療,藥物的研發與個體用藥,人群的健康保障等臨床與轉化醫學研究帶來極大的推動。
在大規模人群中開展NGS測序工作時,樣本的準確性、可溯源性將會對zui終的大數據質量產生不可忽視的影響。由于NGS測序流程的復雜性(參見下圖,NGS測序工作經典流程),在樣本庫內得到準確標記的樣本,在測序流程中仍然有一定幾率會發生混淆或者污染。根據上大型測序中心的估算,隨著測序樣本量的增加,一個操作流程完善、工作人員受過專業培訓的基因檢測實驗室,仍然有可能產生千分之一左右的樣本偏差。
因此,一種準確有效卻又成本低廉的樣本標記與追蹤手段,在大規模NGS測序工作中具有重要的現實意義。在美國ACMG(美國醫學遺傳學與基因組學學院)發布的“臨床實驗室NGS測序標準”中指明:“相關實驗室必須采取措施,避免樣本混淆,并能夠隨時追蹤與確認zui終結果”。2017年3月,中華醫學會病理學分會發布的“臨床分子病理實驗室二代基因測序檢測專家共識”中進一步闡明:“為確保檢測過程中樣本沒有混淆或污染,可選用多個SNV位點或其他標簽作為樣本身份標識(sample ID),在檢測前對每個樣本進行SNV位點信息的測定,在NGS檢測后對上述位點進行追蹤,證明沒有交叉污染”。
同時,一個大型測序數據庫中面臨的樣本種類較為繁雜,其中與腫瘤相關的樣本類型如石蠟包埋切片(FFPE)中提取的DNA、血漿中提取的循環腫瘤DNA等,均在正確標記、追蹤之外,還需在NGS文庫制備之前,對其中DNA片段降解程度進行有效評估,從而防止質量較差的樣本帶來的測序成本損失。
技術方案:
樣本標記與跟蹤目前的主要方案,是從待測序列(全基因組、全外顯子組、靶向片段等)中選擇若干標志性單堿基核苷酸變異(SNV),在樣本入庫及測序前,進行基于這些位點的等位基因分型,從而確保樣本的收集與使用流程中沒有發生混淆。在測序完成后,再次利用之前這些位點的基因數據,與測序結果進行再次驗證比對,如果信息一致,即可確認樣本正確性,以及測序覆蓋范圍與數據質量均達到標準。
為達到足夠的區分效果,SNV需要滿足以下兩點標準:1)在待檢測人群(中國人群)中具有較高的雜合度與區分力;2)需達到一定數量(30-40個)以在大規模樣本庫中仍可區分所有個體樣本。根據這兩點標準,國內外*人類基因組測序中心Broad Institute與華大基因均采用了美國Agena Bioscience公司基于核酸質譜MassARRAY®開發的樣本標記/追蹤技術。
該技術是利用MassARRAY®可以在一個反應中完成40多重SNV分型的特點,根據不同測序項目目標片段,選擇約40個SNV位點(包括性染色體標記位點,用于追蹤樣本性別信息),并加入用于樣本降解程度評估的片段完整性內參標記,在同一次反應中,同時完成對樣本的標記與質控,隨后以報告軟件自動生成檢測結果,并整合進入樣本庫相關數據。
根據樣本庫與數據庫規模,MassARRAY®平臺可采用384格式。在一天內,該平臺可完成對6張384孔芯片(即2304個樣本)的標記/追蹤與質控。
利用MassARRAY®強大的定制功能,對不同的測序項目可以選取不同的SNV位點,整合為新的檢測組合,因此具有更高的靈活性與針對性。