據(jù)圖-01-副本.jpg)
11月30 數(shù)據(jù)淘金——公共數(shù)據(jù)再利用
高通量測(cè)序技術(shù)的出現(xiàn),使全世界產(chǎn)出的測(cè)序數(shù)據(jù)出現(xiàn)了爆炸式增長(zhǎng),這些數(shù)據(jù)存放在或大或小的數(shù)據(jù)庫(kù)中,區(qū)域性的大數(shù)據(jù)庫(kù)包括NCBI、ENA/EBI、DDBJ等,今天我們重點(diǎn)給大家介紹下NCBI的SRA數(shù)據(jù)庫(kù)。
Part 1?|?SRA數(shù)據(jù)庫(kù)介紹
SRA(Sequence Read Archive)是NCBI中專門用于存放原始高通量測(cè)序數(shù)據(jù)的一個(gè)子庫(kù),收錄了各種二代、三代測(cè)序儀產(chǎn)生的數(shù)據(jù),與ENA/EBI、DDBJ間共享原始測(cè)序數(shù)據(jù)。
INSDC(International Nucleotide Sequence Database Collaboration)成員間共享測(cè)序數(shù)據(jù)
有過數(shù)據(jù)上傳經(jīng)歷的童鞋應(yīng)該對(duì)SRA并不陌生,上傳數(shù)據(jù)前我們一般要?jiǎng)?chuàng)建BioProject、BioSample,用于詳細(xì)說明項(xiàng)目信息、樣品信息;并通過SRA的Experiment、RUN描述建庫(kù)測(cè)序相關(guān)信息,如建庫(kù)類型、測(cè)序儀器、單雙端等;下圖概括出了幾者之間的關(guān)系。
https://www.ncbi.nlm.nih.gov/sra/docs/submitmeta/
SRA上傳和檢索數(shù)據(jù)時(shí),我們會(huì)遇到各種各樣的編號(hào),這些編號(hào)間的對(duì)應(yīng)關(guān)系通過下表我們可以理清。項(xiàng)目和樣品信息首先會(huì)存放在BioProject和BioSample數(shù)據(jù)庫(kù)中,得到類似PRJNA和SAMN的編號(hào);在SRA數(shù)據(jù)庫(kù)中也會(huì)對(duì)項(xiàng)目和樣品進(jìn)行編號(hào),分別以SRP和SRS作為前綴,并與BioProject和BioSample中對(duì)應(yīng);其余SR開頭的編號(hào)都屬于SRA數(shù)據(jù)庫(kù)。
SRA數(shù)據(jù)庫(kù)中各種編號(hào)對(duì)應(yīng)表
SRA數(shù)據(jù)庫(kù)中存儲(chǔ)的是高度壓縮后的sra格式數(shù)據(jù),截止到目前,SRA中已經(jīng)累計(jì)存儲(chǔ)了超過20P堿基數(shù)據(jù),而且每年仍在以極快的速度增長(zhǎng)。
SRA數(shù)據(jù)量增長(zhǎng)圖(縱坐標(biāo)代表sra格式文件大小,單位TB;橫坐標(biāo)代表年;藍(lán)線代表總數(shù)據(jù)量)
Part 2?|?SRA數(shù)據(jù)庫(kù)中疾病相關(guān)數(shù)據(jù)統(tǒng)計(jì)

https://www.ncbi.nlm.nih.gov/sra/docs/
既然已經(jīng)有如此多的公共數(shù)據(jù),我們應(yīng)該充分挖掘,不僅可以產(chǎn)出新發(fā)現(xiàn),也可以有效降低科研成本。俗話說的好,知己知彼,百戰(zhàn)不殆。要想充分利用這些公共數(shù)據(jù),我們首先需要對(duì)這些數(shù)據(jù)有更加深刻的認(rèn)識(shí),于是我們針對(duì)熱點(diǎn)研究疾病,統(tǒng)計(jì)了不同測(cè)序類型的數(shù)據(jù)量,以及項(xiàng)目數(shù)和樣品數(shù),想了解其他疾病數(shù)據(jù)量情況的童鞋可以文末留言,我們統(tǒng)計(jì)好之后發(fā)送給您。
熱點(diǎn)研究疾病數(shù)據(jù)統(tǒng)計(jì)(單位:Gbase)
熱點(diǎn)癌癥數(shù)據(jù)統(tǒng)計(jì)(單位:Gbase)
Part 3 |?公共數(shù)據(jù)使用策略
如此多的數(shù)據(jù),該怎樣去利用,我們整理了一些思路,供大家參考。
策略一:數(shù)據(jù)整合,增大樣本量
以研究疾病相關(guān)基因表達(dá)為例,可以整合多個(gè)項(xiàng)目中的RNA-Seq數(shù)據(jù)(也可以結(jié)合自己的數(shù)據(jù),增大樣本量),計(jì)算基因表達(dá)量,并篩選疾病組織和正常組織間差異表達(dá)的基因;
再針對(duì)差異表達(dá)基因進(jìn)行共表達(dá)分析,獲得共表達(dá)基因集;然后進(jìn)一步對(duì)這些基因的功能、所屬通路進(jìn)行分析,從而更完整的描述出疾病發(fā)生的機(jī)理。
策略二:多種疾病間橫向比較
以研究肺癌患者中S100A4基因的差異表達(dá)為例,通過下載其他類型癌癥如:胸腺癌、惡性間皮瘤的RNA-Seq數(shù)據(jù),并分析該基因在這兩種癌癥中的差異表達(dá)情況,如果與肺癌中有相同的差異表達(dá)趨勢(shì),則可以增強(qiáng)我們結(jié)論的說服力。
策略三:不同水平間橫向比較
分析不同水平的數(shù)據(jù),如:細(xì)胞水平、組織水平、動(dòng)物模型上目標(biāo)基因的差異表達(dá)情況,增強(qiáng)分析結(jié)論的說服力。
策略四:不同類型數(shù)據(jù)間聯(lián)合分析
我們只自測(cè)了mRNA數(shù)據(jù),但是想了解miRNA對(duì)于mRNA的調(diào)控,那我們可以下載對(duì)應(yīng)疾病的miRNA類型的數(shù)據(jù),通過兩者的聯(lián)合分析,更深入的了解疾病發(fā)生的機(jī)理。
Part 4 |?結(jié)語
公共數(shù)據(jù)使用看似很困難,需要下載、轉(zhuǎn)換格式、生信分析,目前百邁客云(cigarsoftampa.com)已經(jīng)集成了SRA數(shù)據(jù)檢索、下載、轉(zhuǎn)換和分析,我們錄制了一個(gè)短視頻,展示了如何通過簡(jiǎn)單的鼠標(biāo)點(diǎn)擊高效完成以上所有工作,詳情:http://live.biocloud.net/open/course/10
參考文獻(xiàn):
[1]????Chun-Ping Yu et al.?Transcriptome dynamics of developing maize leaves andgenomewide prediction of cis elements and their cognate transcription factors.Proc Natl Acad Sci . 2015
[2]????Iyer MK et al. The landscape oflong noncoding RNAs in the human transcriptome. Nat Genet. 2015
[3]????Patil G. et al. Soybean(Glycine max) SWEET gene family: insights through comparative genomics,transcriptome profiling and whole genome re-sequence analysis. BMC Genomics.2015
[4]????Matthijs M. et al. Profiling ofthe Early Nitrogen Stress Response in the Diatom Phaeodactylum tricornutumReveals a Novel Family of RING-Domain Transcription Factors. Plant Physiol.2016
?
免費(fèi)贈(zèng)送云平臺(tái)使用權(quán)限
點(diǎn)擊下方按鈕,參與調(diào)查問卷,獎(jiǎng)品可以任選其一:
獎(jiǎng)品一:免費(fèi)使用百邁客云專業(yè)版套餐中真核有參轉(zhuǎn)錄組分析平臺(tái)(單次可分析300Gbase)或小RNA分析平臺(tái)(單次可分析400Mreads)或外顯子分析平臺(tái)(單次可分析300Gbase)完成一次SRA數(shù)據(jù)分析。
獎(jiǎng)品二:開通百邁客云所有工具(100+款)1個(gè)月免費(fèi)使用權(quán)限。