分子數位產品資訊

以次世代定序技術辨識宿主基因體中病毒/載體的嵌入位點

在宿主基因體嵌入病毒、反轉錄病毒、轉錄子及載體基因為基因體生物學與基因工程的一大特色。對嵌入位點分子特性的描繪,是確保基因嵌入的安全性與嵌入後能否產生預期效果最重要的一步;同時在基因篩檢策略也是相當有力的工具。目前可用於描繪基因嵌入的技術包含反向聚合酶連鎖反應 (inverse PCR (iPCR)),特定位點擴增(targeted locus amplification (TLA)),以及雜交捕捉次世代定序 (next-generation sequencing (NGS) hybridization capture)。

描繪基因嵌入的目的是找出所有載體嵌入的事件-包含嵌入部分或重新排列等嵌入不完全的情況。常用的雜交捕捉法係透過將讀長(reads)逐一比對(align)至嵌入序列後,再將未比對到的讀長重新比對至宿主基因體上。若是使用雙端定序(paired-end)的技術,則可額外提供配對的讀長比對到不同參考序列(discordant read mates)結果的資訊,例如配對的讀長(read pairs)其中一讀長比對到的參考序列為嵌入序列,另一讀長比對到宿主的序列 [1]。

免付費專線 我想諮詢

以特定序列捕捉增殖技術進一步描繪載體嵌入事件

CLC的分析工具 Identify Viral Integration Sites,現在可支援特定序列捕捉增殖技術(sequence capture enrichment protocols)的分析,來描繪基因嵌入特性。該技術放大了嵌入序列,捕捉嵌合體(chimeric reads)及配對讀長比對到的參考序列不一致的事件。該分析模組先前已被應用於人類乳突病毒(human papilloma virus, HPV)嵌入位的辨識 [2]。

Identify Viral Integration Sites整合Find Best References Using Read Mapping分析工具,將讀長同時比對至(1)宿主基因體以及(2)病毒/載體嵌入序列的資料庫,搜尋配對程度最佳的序列作為參考序列。針對未比對上宿主基因體的讀長,Find Best References Using Read Mapping保留這些讀長並重新比對至病毒/載體嵌入序列的資料庫;同時,未比對上病毒/載體嵌入序列資料庫的讀長也重新比對至宿主基因體。透過同時將讀長比對至宿主及病毒的基因體,CLC得以產出無論在分析的時間上或精準度上皆優於線性比對(seuqential mapping)的結果。

完成比對後,針對配對讀長某一端讀取方向(respective orientation)有誤或是讀長間的距離(distance between the reads)有誤者-即所謂斷裂的配對讀長(broken read pairs),Identify Viral Integration Sites接續著分析某一端斷裂配對讀長的斷裂點資訊(breakpoint information),以辨識是為宿主的或為病毒/載體的讀長。該功能皆可透過使用者自行調整參數,以獲取最佳的敏感度(sensitivity)及特異度(specificity)。

接下來讓我們透過分析實際資料,了解這些功能是怎麼運做的。

 

以CLC描繪載體嵌入位的特性

我們將上段提到的分析工具,應用至Inagake等人所發布的定序資料 [2],來辨識阿拉伯芥(Arabidopsis thaliana)的基因體嵌入位。該筆定序資料係利用探針(probe)抓取Transfer-DNA(T-DNA)區域後,以Illumina pair-end的方式定序,最後將辨識到的嵌合體以多重聚合酶連鎖反應(polymerase chain reaction, PCR)驗證。Sun等人以CLC重新分析該批資料後,發現了存在其他T-DNA混合或部份嵌入的證據 [1]。

以TAIR10 Arabidopsis 為宿主的參考序列分析,CLC準確地辨識經PCR驗證過的嵌入位點pCAMBIA3300(Table 1標示黃底列)。CLC也辨識出Sun等人以更進階的分析方法額外找出的T-DNA嵌入位點(綠底列)[1]。除了前述已知的嵌入位點,CLC的分析結果也找到了各不同樣本中在之前的研究未被發現的嵌入位點(藍底列);顯示CLC的分析工具可以提供單一樣本分析時更好的解析能力,進而更全面的描繪嵌入事件。CLC分析載體嵌入位的工具,可以幫助您準確地辨識T-DNA序列、確切的斷裂點、變異位點以及重組事件等,確保您能在分子層次描繪出應有的遺傳變異。

CLC的分析工具提供了宿主及病毒/載體嵌入序列資料庫的反覆比對、提取斷裂的配對讀長、序列組裝(de novo assembly)以及讀長重新比對(realignment)至宿主或病毒/載體基因體等流程,讓您可以重新建構辨識到的嵌入位點之嵌合事件。這些工具解構了讓基因體資訊錯綜複雜的嵌合事件,協助您更全面的描繪嵌入位點。

 

Table 1. 彙整偵測到的嵌入位點、其讀取方向以及支持其的證據。樣本編號SRR2077990 pCAMBIA3300-pFWA-HTB2-CFP_18,其讀長比對至嵌入基因體與宿主基因體參考序列之結果可參考Figure 1 & 2。Figure 3 & 4則顯示該樣本的圓形圖,有底色扇形區域包含覆蓋率(coverage)、斷裂配對讀長、未比對上的一端(unaligned ends)以及其起始位點等資訊。

圖片

有興趣進一步瞭解CLC如何協助您基因體學上的研究嗎?歡迎至下列網址瀏覽相關資訊:
https://digitalinsights.qiagen.com/products-overview/discovery-insights-portfolio/analysis-and-visualization/qiagen-clc-workbench-premium/

參考文獻:

  1. Sun L, et al. TDNAscan: A Software to Identify Complete and Truncated T-DNA Insertions. Front Genet. 2019;10:685. doi: 10.3389/fgene.2019.00685.
  2. Inagaki S, Henry IM, Lieberman MC, Comai L. High-Throughput Analysis of T-DNA Location and Structure Using Sequence Capture. PLoS One. 2015;10(10):e0139672. doi: 10.1371/journal.pone.0139672.
  3. Shen-Gunther J, Cai H, Wang Y. HPV Integration Site Mapping: A Rapid Method of Viral Integration Site (VIS) Analysis and Visualization Using Automated Tools in CLC Microbial Genomics. Int J Mol Sci. 2022;23(15):8132. doi: 10.3390/ijms23158132.

免付費專線 我想諮詢

 

圖片

Figure 1. SRR2077990 pCAMBIA3300-pFWA-HTB2-CFP_18樣本讀長比對至嵌入基因體參考序列。比對結果中的左邊界(Left Border Repeat)T-DNA重複顯示,未比對上參考序列的一端來自宿主。

圖片

Figure 2. SRR2077990 pCAMBIA3300-pFWA-HTB2-CFP_18樣本讀長比對至宿主之基因體參考序列。
左邊界T-DNA重複的兩個嵌入位點(Chr1 28314915以及位於反向的28314970)顯示未比對上參考序列的一端源自T-DNA。

圖片

Figure 3. SRR2077990 pCAMBIA3300-pFWA-HTB2-CFP_18樣本偵測為嵌入位點之圓形圖。有底色扇形區域(由外向內)顯示覆蓋率(coverage)、斷裂配對讀長、未比對上的一端(unaligned ends)以及其起始位點。

圖片

Figure 4. SRR2077990 pCAMBIA3300-pFWA-HTB2-CFP_18樣本偵測為嵌入位點之圓形圖。圖形顯示為Chr1 28314915以及反向的28314970嵌入位點。嵌入位點與figure 2宿主參考序列為同樣的區域;本圖的嵌入序列與figure 1讀長比對到嵌入參考序列區域一致。有底色扇形區域(由外向內)顯示覆蓋率(coverage)、斷裂配對讀長、未比對上的一端(unaligned ends)以及其起始位點。

免付費專線 我想諮詢