簡介
PacBio Sequel的長讀長可實現(xiàn)全長轉錄本測序,并使基因可變剪接形式的識別成為可能,因此可以對新基因及其Iso-form進行更全面的研究。同時,長讀長不再需要對RNA-Seq的Reads進行組裝,因此可以更完整的對基因模型和轉錄的基因進行更全面的注釋,用以改進參考基因組中的基因注釋信息。
技術流程
文庫構建流程
PacBio Sequel系統(tǒng)使用的全長轉錄組建庫有SMARTer?和SuperScript®兩種方式。
1、使用Clontech公司的SMARTer® PCR cDNA Synthesis Kit(634925,634926,634928)進行建庫時,PolyA+RNA最少需要1 ng,總RNA最少需要2 ng,同時采用Takara公司的全能酶Tks Gflex? DNA Polymerase(R060A)進行擴增,是PacBio推薦的方案;
2、 采用Life Technologies(旗下Invitrogen)公司的SuperScript® Full-length cDNA Library Construction Kit進行建庫,建庫時間至少是SMARTer?的兩倍,PolyA+RNA最少需要10 μg。
相比前代RS系列測序儀,Sequel系統(tǒng)在SMRT Cell片段長度偏好性方面已經(jīng)有很大改進,4 kb以下的建庫無需進行片段大小選擇。目前Sequel系統(tǒng)一般采用SMARTer?建庫方式。經(jīng)過我們對儀器和試劑的調試,也推薦效率更高的SMARTer?建庫方式。當然,如果想要追求更精準的研究結果,仍可采用分段建庫的方式獲得更好的測序結果,其流程可參考下圖:
一般而言,對于初步研究一個物種的轉錄組序列情況通常推薦三個Cell的數(shù)據(jù)量(6 G),也就是建庫片段長度1 ~ 2 kb一個Cell、2 ~ 3 kb一個Cell和3 ~ 6 kb測一個Cell。當然也有一些高分文章測了幾十個Cell,此類文章中通常是對不同組織部位或者不同時間點的組織進行測序,由此增加了測序所需的Cell數(shù)。數(shù)據(jù)量可以根據(jù)樣本電泳情況調整,多倍體建議數(shù)據(jù)量加大保證數(shù)據(jù)準確性。由于3' UTR + 5' UTR長度>1 kb,所以不構建<1 kb文庫。
分析流程
數(shù)據(jù)分析內(nèi)容
Iso-seq分析包含4個主要的步驟,分別是CCS,Classify,Cluster和Subset(可選)。
· CCS步驟:該步驟主要基于來自同一條Polymerase Read中的Subreads序列構建CCS序列。
· Classify步驟:該步驟通過分析CCS序列,輸出兩個文件。一個文件包含全長非嵌合體序列(Full-length Non-chimeric Reads)和非全長序列。在該過程中,Classify步驟會去除CCS序列中包含的PolyA/T Tails和Primer序列,去除污染序列,但是會保留PCR引起的嵌合體序列。
· Cluster步驟:該步驟基于全長非嵌合體序列和非全長序列,進行質量校正處理,生成Polished高質量的一致性序列和低質量一致性序列。
· Subset步驟:這是一個可選步驟,主要用于從輸出文件中將指定類型的序列輸出出來,比如非嵌合體Reads等。
轉錄組分析根據(jù)物種是否有已知的參考基因組和基因注釋文件,分為有參轉錄組測序和無參轉錄組測序。無參轉錄組測序常常需要基于測序得到的Reads根據(jù)Overlap信息進行組裝,得到Unigene并進行下面的分析。對于全長轉錄組測序來講,根據(jù)物種是否有參,在分析策略上同意也分析有參和無參全長轉錄組測序。由于測序上的先進性,無參全長轉錄組測序分析時不用軟件進行組裝,只需要在進行初級質控后就可以進行注釋。
無參轉錄組
主要包含序列特征鑒定和功能注釋兩大方面:
(1) 序列特征預測包含:CDS預測、SSR預測、lncRNA預測等;
(2) 功能注釋包括:NR注釋、Swissport注釋、COG/KOG注釋、GO注釋和KEGG注釋等。
*無參轉錄組測序不能做可變剪接分析。
有參轉錄組
對于有參全長轉錄組分析,因為加入了與參考序列比對,所以分析內(nèi)容上相對無參轉錄組有很大提升。