錄調(diào)控研究中公共數(shù)據(jù)整合分析思路.jpg)
08月01 轉(zhuǎn)錄調(diào)控研究中公共數(shù)據(jù)整合分析思路
分析思路1
? ? ? ?共表達(dá)分析中,整合大量相關(guān)公共樣本測(cè)序數(shù)據(jù),可構(gòu)建出相較于常規(guī)樣本量下可靠度更高的基因共表達(dá)網(wǎng)絡(luò),從而基于該網(wǎng)絡(luò)進(jìn)行更加準(zhǔn)確的后續(xù)分析:a)預(yù)測(cè)目標(biāo)轉(zhuǎn)錄因子的下游調(diào)控基因、目標(biāo)調(diào)控網(wǎng)絡(luò)中的關(guān)鍵轉(zhuǎn)錄因子;b)預(yù)測(cè)ncRNA與mRNA之間的靶向關(guān)系;c)基于網(wǎng)絡(luò)中已知功能基因推測(cè)同網(wǎng)絡(luò)中其他功能未知基因功能;e)?將每個(gè)共表達(dá)模塊分別作為一個(gè)整體,計(jì)算其與各組織或各發(fā)育時(shí)間點(diǎn)之間的相關(guān)性,建立各組織相關(guān)或各時(shí)期相關(guān)基因表達(dá)網(wǎng)絡(luò)……
思路解析:
一般認(rèn)為,在功能上具有相關(guān)性的基因在生物體內(nèi)具有相似的表達(dá)模式,比如轉(zhuǎn)錄因子與其下游調(diào)控基因、lncRNA與其反式調(diào)控的靶基因、處于同一代謝通路的基因等在功能上都具有相關(guān)性,因此,研究者可根據(jù)每個(gè)基因的表達(dá)模式,來判斷上述幾種相互關(guān)系。
生信分析中,研究者可使用共表達(dá)分析的方法,基于轉(zhuǎn)錄組測(cè)序數(shù)據(jù),分析每個(gè)基因的表達(dá)模式,最終將不同的基因劃入各自所在的表達(dá)模式網(wǎng)絡(luò)中,常用的共表達(dá)分析方法主要有兩種WGCNA與k-means,大樣本量下(15組以上的樣本)建議使用WGCNA,該算法相較于K-means,采用對(duì)相關(guān)系數(shù)取冪加權(quán)處理、考慮兩個(gè)基因間的間接相關(guān)等優(yōu)化算法,使得構(gòu)建的共表達(dá)網(wǎng)絡(luò)更加符合基因調(diào)控網(wǎng)絡(luò)的無尺度網(wǎng)絡(luò)分布(scale-free networks)、基因間可間接調(diào)控等特征。
無論是使用哪種方法進(jìn)行共表達(dá)分析,從統(tǒng)計(jì)學(xué)的角度來看,樣本量越大,預(yù)測(cè)的基因表達(dá)模式分辨率更高,構(gòu)建的共表達(dá)網(wǎng)絡(luò)也就越可靠。受限于項(xiàng)目經(jīng)費(fèi),很多研究者便借助公共數(shù)據(jù)庫擴(kuò)充這類共表達(dá)分析中的樣本量。
支持文獻(xiàn)思路概述:
a) Jennnifer等人鑒定了Specialized Metabiolic(后面簡(jiǎn)稱SM)代謝通路相關(guān)基因,此類基因種類較少,且序列保守性較低,難以通過常規(guī)的序列同源比對(duì)的方法預(yù)測(cè),因此研究者采用了基于基因表達(dá)量的共表達(dá)分析方法,參考少數(shù)已知功能基因,鑒定存在于不同植物中的SM代謝相關(guān)基因以及SM代謝網(wǎng)絡(luò)。研究者搜集了8個(gè)植物物種的10個(gè)基因共表達(dá)數(shù)據(jù)集合的21,876個(gè)實(shí)驗(yàn)的基因芯片和RNA-seq公共數(shù)據(jù),構(gòu)建了各個(gè)物種中高可靠度的基因共表達(dá)模塊。為了說明本研究鑒定SM途徑方法的可靠性,篩選了甲硫氨酸來源的脂肪族硫代葡萄糖苷生物合成途徑(metGSL)及基因,與鑒定的共表達(dá)基因模塊進(jìn)行比較分析。在擬南芥中,共表達(dá)基因模塊鑒定了metGSL生物合成每一步的基因,以及一個(gè)特異的轉(zhuǎn)運(yùn)子和3個(gè)轉(zhuǎn)錄因子。比如,在最小的N1(共17個(gè)基因)網(wǎng)絡(luò)中,metGSL途徑的34個(gè)酶基因中14個(gè)均在這個(gè)模塊中,該模塊中只有3個(gè)基因是功能上未鑒定屬于metGCL的。在網(wǎng)絡(luò)中,還發(fā)現(xiàn)參與metGSL相關(guān)生化過程的一些基因,如激酶APK1和APK2、細(xì)胞色素P450基因CYP79B2和CYP79B3。因此,利用該研究中建立的共表達(dá)網(wǎng)絡(luò)可較為準(zhǔn)確預(yù)測(cè)SM代謝通路相關(guān)基因,該成果發(fā)表于The Plant Cell雜志【文獻(xiàn)詳細(xì)解讀見附件1】。
共表達(dá)基因模塊重現(xiàn)擬南芥metGSL生物合成途
b)Yu C等人,為了揭示與玉米子葉發(fā)育各個(gè)時(shí)期相關(guān)的轉(zhuǎn)錄因子-調(diào)控基因(之后簡(jiǎn)稱TF-TFBS)調(diào)控網(wǎng)絡(luò),利用公共數(shù)據(jù),將樣本量從9組個(gè)擴(kuò)充至22組,進(jìn)行WGCNA分析,建立了與玉米子葉發(fā)育各個(gè)時(shí)期相關(guān)共表達(dá)模塊?;诠脖磉_(dá)信息,并參考基因GO注釋、TF-TFBS數(shù)據(jù)庫(TRANSFAC、JASPAR、AthaMap等),總共得到176個(gè)TF-TFBS,成果發(fā)表于PNAS雜志?!?strong>原文題目見附件2】
TF-TFBS預(yù)測(cè)過程
c)Wen Z等人,為了鑒定與大鼠各個(gè)發(fā)育時(shí)期各個(gè)組織相關(guān)的ncRNA及其與mRNA共同參與的調(diào)控網(wǎng)絡(luò),從GEO數(shù)據(jù)庫中下載得到Y(jié)ing等人上傳的原始轉(zhuǎn)錄組測(cè)序數(shù)據(jù)(GSE53960),數(shù)據(jù)集中包含來自四個(gè)發(fā)育時(shí)間點(diǎn)的32只大鼠的320個(gè)bodymap樣本的轉(zhuǎn)錄組測(cè)序數(shù)據(jù)。首先基于測(cè)序數(shù)據(jù)進(jìn)行轉(zhuǎn)錄本組裝、定量、ncRNA鑒定、差異表達(dá)等前期分析,然后基于基因定量結(jié)果,使用方差分析(analysis variance,ANVOA)鑒定不同的發(fā)育時(shí)期、不同的組織部位中或性別間顯著差異的基因(Benjamin-Hochberg corrected p-value < 0.05),鑒定獲得的差異基因即為時(shí)期相關(guān)、組織相關(guān)或性別發(fā)育相關(guān)基因,之后利用WGCNA分別對(duì)上述各個(gè)基因集構(gòu)建共表達(dá)網(wǎng)路模塊,最終鑒定得到32個(gè)器官發(fā)育相關(guān)模塊、4個(gè)性別發(fā)育相關(guān)模塊、14個(gè)發(fā)育時(shí)期相關(guān)模塊。該成果發(fā)表于Scientific Reports雜志【文獻(xiàn)詳細(xì)解讀見附件1】。
發(fā)育時(shí)期相關(guān)共表達(dá)模塊
d)LiJ等人為了全面鑒定豬的長鏈非編碼RNA(lincRNAs)和探索lincRNAs在豬植入前胚胎發(fā)育(PED)過程中可能發(fā)揮的作用,從NCBI-SRA數(shù)據(jù)庫中下載得到五個(gè)豬RNA-Seq數(shù)據(jù)集。基于測(cè)序數(shù)據(jù)進(jìn)行轉(zhuǎn)錄本組裝和篩選后獲得了7,618個(gè)lincRNAs。在分析了豬lincRNAs的結(jié)構(gòu)特點(diǎn)、表達(dá)模式、組織特異性和順式作用后,對(duì)胚胎發(fā)育階段相關(guān)lincRNAs和mRNAs進(jìn)行了WGCNA分析,鑒定出了23個(gè)共表達(dá)模塊,其中5個(gè)顯示發(fā)育階段特異性。qRT-PCR分析4細(xì)胞階段特異性模塊中的樞紐基因集后發(fā)現(xiàn)了兩個(gè)與PED密切相關(guān)的lincRNA:TCONS_00166370 和TCONS_00020255。該成果發(fā)表于Scientific Reports雜志【文獻(xiàn)詳細(xì)解讀見附件1】。
共表達(dá)網(wǎng)絡(luò)分析PED相關(guān)lincRNAs
分析思路2
????研究某一類基因的轉(zhuǎn)錄水平在不同處理下(或不同組織部位間、或不同發(fā)育時(shí)間點(diǎn)等)的變化規(guī)律,可整合多個(gè)類似研究中的公共測(cè)序數(shù)據(jù)來共同揭示該變化規(guī)律,使結(jié)果更加可靠。
思路解析:
該思路相對(duì)比較簡(jiǎn)單,但是若論點(diǎn)新穎,多個(gè)項(xiàng)目或多個(gè)物種的數(shù)據(jù)均對(duì)此論點(diǎn)支持,該分析也可單獨(dú)成文;該分析也可作為對(duì)常規(guī)轉(zhuǎn)錄調(diào)控分析的補(bǔ)充,從常規(guī)分析得到的一些相關(guān)基因中挑選一些關(guān)鍵基因,在其他物種、其他類似項(xiàng)目中尋找對(duì)該類關(guān)鍵基因在該項(xiàng)目中某種變化規(guī)律的支持證據(jù),可以提升常規(guī)分析的廣度。
支持文獻(xiàn)思路概述:
?a)sweet基因家族編碼一類外排轉(zhuǎn)運(yùn)蛋白(efflux transporter),與糖運(yùn)輸、韌皮部裝載、宿主-病原菌互作、生殖組織發(fā)育相關(guān),這類基因的研究主要集中在水稻與擬南芥中,而在大豆中的研究幾乎是空白。
Gunvant P等人搜集了公共數(shù)據(jù)庫中兩個(gè)大豆RNA-seq數(shù)據(jù)集,分別包含14、10個(gè)樣本,均涵蓋生殖組織(花、花芽、種子等)與營養(yǎng)組織(根、莖、幼苗等)。研究者首先基于水稻、擬南芥的sweet家族基因序列,通過blast比對(duì),在大豆的基因組中鑒定得到52個(gè)大豆sweet家族基因,并對(duì)該類基因在染色體上的分布和編碼蛋白的domain結(jié)構(gòu)與其他13個(gè)物種(涵蓋單子葉、雙子葉、藻類、苔蘚類)中sweet基因家族的進(jìn)化關(guān)系進(jìn)行了簡(jiǎn)單分析。
兩個(gè)數(shù)據(jù)集中大豆的RNA-seq數(shù)據(jù)分析結(jié)果表明,大部分大豆sweet家族基因在種子和花中轉(zhuǎn)錄上調(diào),所有sweet基因在到達(dá)種子灌漿期前轉(zhuǎn)錄水平一直上調(diào),之后到達(dá)種子成熟前一直下調(diào),這與之前的在其他物種中研究得到的該基因家族與生殖組織發(fā)育相關(guān)的結(jié)論是一致的。該成果發(fā)表與BMC Genomics雜志。
b)Matthijs M等人通過分析自測(cè)RNA-seq數(shù)據(jù)在三角褐指藻發(fā)現(xiàn)了一類可響應(yīng)氮脅迫的新型轉(zhuǎn)錄因子RGQ1,為了進(jìn)一步驗(yàn)證該轉(zhuǎn)錄因子是否在其他硅藻中存在并且也同樣具有響應(yīng)氮脅迫的功能,研究者從公共數(shù)據(jù)庫中下載到了其他兩種硅藻類似研究中的數(shù)據(jù),發(fā)現(xiàn),RGQ1在這兩種硅藻中也存在,且參與了對(duì)氮脅迫的響應(yīng)。成果表于Plant Physiology雜志?!?strong>詳細(xì)解讀結(jié)果見附件1】
其他分析思路
整合同一物種公共測(cè)序數(shù)據(jù),構(gòu)建物種完備轉(zhuǎn)錄本序列參考集,用于后續(xù)功能分析。
支撐文獻(xiàn):
- Iyer MK et al. The landscape of long noncoding RNAs in the human transcriptome. ??Nat Genet. ?2015 ?
文獻(xiàn)概要:整合來源25個(gè)項(xiàng)目,18個(gè)組織,7256個(gè)樣品RNA測(cè)序數(shù)據(jù),使用cufflinks分別重構(gòu)各組織轉(zhuǎn)錄本,之后使用用戶自己開發(fā)的meta-assembly算法找出各組織中高豐度轉(zhuǎn)錄本,最后使用cuffmerge對(duì)各樣本組裝得到的轉(zhuǎn)錄本進(jìn)行合并,最終建立高質(zhì)量的人類轉(zhuǎn)錄本序列參考集,用于后續(xù)功能分析。
- Wang M et al. ?Long noncoding RNAs and their proposed functions in fibre development of cotton (Gossypium spp.). ?New Phytol. 2015
文獻(xiàn)概要:整合170多個(gè)棉屬RNA-seq數(shù)據(jù)集,以海島考基因組為參考,使用tophat+cufflinks流程進(jìn)行轉(zhuǎn)錄本重構(gòu)(各樣本分開組裝)并預(yù)測(cè)其中的lncRNA,之后進(jìn)行棉纖維發(fā)育相關(guān)lncRNA鑒定。
mRNA-ncRNA聯(lián)合分析中,利用公共數(shù)據(jù)補(bǔ)充其中一種類型的RNA測(cè)序數(shù)據(jù)
支撐文獻(xiàn):
- Liu X et al. MicroRNA-mRNA regulatory networking fine-tunes the porcine muscle fiber type, muscular mitochondrial respiratory and metabolic enzyme activities. ?BMC Genomics. 2016
文獻(xiàn)概要:聯(lián)合之前項(xiàng)目的高肉品與低肉品豬mRNA測(cè)序數(shù)據(jù)與本次項(xiàng)目中的miRNA測(cè)序數(shù)據(jù),并通過pearson相關(guān)系數(shù)建立miRNA與豬肉品質(zhì)各項(xiàng)指標(biāo)之間的聯(lián)系,最終建立與豬肉品質(zhì)各項(xiàng)指標(biāo)相關(guān)的mRNA-miRNA調(diào)控網(wǎng)絡(luò)。
- Yin H et al. Phylogenetic tree-informed microRNAome analysis uncovers conserved and lineage-specific miRNAs in Camellia during floral organ development.J Exp Bot.2016
文獻(xiàn)概要:研究者取紅杜鵑山茶花的葉、雄蕊、雌蕊心皮、花瓣、花芽5個(gè)部位進(jìn)行了miRNA測(cè)序,之前項(xiàng)目中組裝得到的紅杜鵑山茶花的轉(zhuǎn)錄本序列為參考,進(jìn)行了novel miRNA的預(yù)測(cè)。之后通過miRNA表達(dá)模式的分析,鑒定到了兩類分別傾向在雄蕊或雌蕊中特異高表達(dá)的miRNA,進(jìn)一步利用miRNA靶基因的功能信息,揭示了這些miRNA在花器官發(fā)育過程中發(fā)揮的生物學(xué)功能。
附件2公共數(shù)據(jù)整合分析文獻(xiàn)列表
整合公共數(shù)據(jù)建立物種基因共表達(dá)網(wǎng)絡(luò)
[1] Wisecaver JH?et al. A Global Coexpression Network Approach for Connecting Genes to Specialized Metabolic Pathways in Plants. Plant Cell.?2017
[2]Wen Z et al.Expression profiling and functional annotation of noncoding genes across 11 distinct organs in rat development.Sci Rep.?2016
[3] Li?J?et al. Identification and functional analysis of long intergenic noncoding RNA genes in porcine pre-implantation embryonic development.?Sci Rep. 2016
[4] Yu?C et al. Transcriptome dynamics of developing maize leaves and genomewide prediction of cis elements and their cognate transcription factors. Proc Natl Acad Sci?. 2015
[5] Khan FA et al. Analysis of Bos taurus and Sus scrofa X and Y chromosome transcriptome highlights reproductive driver genes. ??Oncotarget.?2017
?
利用公共數(shù)據(jù),研究基因家族轉(zhuǎn)錄水平變化規(guī)律
[6] Patil G. ?et al. Soybean (Glycine max) SWEET gene family: insights through comparative genomics, transcriptome profiling and whole genome re-sequence analysis. BMC Genomics.?2015
[7]Matthijs M?et al.Profiling of the Early Nitrogen Stress Response in the Diatom Phaeodactylum tricornutum Reveals a Novel Family of RING-Domain Transcription Factors. Plant Physiol.?2016
基于公共數(shù)據(jù)建立物種完備轉(zhuǎn)錄組本參考序列
[8]Wang M et al. Long noncoding RNAs and their proposed functions in fibre development of cotton (Gossypium spp.). New Phytol. 2015
[9]Iyer MK et al. The landscape of long noncoding RNAs in the human transcriptome. ??Nat Genet.??2015
[10]Hong Y, et al.?Genome-wide identification and characterization of long intergenic noncoding RNAs and their potential association with larval development in the Pacific oyster. Sci Rep,?2016.
[11] Li J, et al.?Identification and functional analysis of long intergenic noncoding RNA genes in porcine pre-implantation embryonic development.?Sci Rep,2016.
?
基于公共數(shù)據(jù)進(jìn)行ncRNA-mRNA聯(lián)合分析
[12] Xu W et al. Genomic DNA Methylation Analyses Reveal the Distinct Profiles in Castor Bean Seeds with Persistent Endosperms. Plant Physiol.?2016
[13] Liu X et al. MicroRNA-mRNA regulatory networking fine-tunes the porcine muscle fiber type, muscular mitochondrial respiratory and metabolic enzyme activities. BMC Genomics.?2016
?
其他分析思路
[14] Sudmant PH, et al.?Meta-analysis of RNA-seq expression data?across species, tissues and studies. Genome Biol, 2015.
[15] Lu L, et al. The goose genome sequence leads to insights?into the evolution of waterfowl and susceptibility?to fatty liver. Genome Biol,?2015.
[16] Shin SC, et al.?Dynamic shifts in occupancy by TAL1?are guided by GATA factors and drive large-scale reprogramming of gene expression during hematopoiesis.?Genome?Res,?2014
[17] Xie D, et al. Rewirable gene regulatory networks in the?preimplantation embryonic development?of three species.?Genome Res,?2010