如何快速入門生物信息學

-回復 -瀏覽
樓主 2020-06-18 07:39:56
舉報 只看此人 收藏本貼 樓主

在二代測序之前,生物學家處理的生物數據大多數可以通過手工完成。因為數據量不大,所以都能在文獻中附上自己用到的序列,NCBI也會每年出幾本紙質版的數據集合。

但是二代測序之后,一切都改變了。原先可能只需要將1000多條序列與基因組比對,而現在卻要將成千上億序列比對到參考序列上。處理這類生物大數據,對計算機性能和軟件算法都是一種挑戰。

在目前高通量測序領域,根據測序的文庫類型,可以分為DNA-Seq,RNA-Seq,ChIP-Seq等。DNA-Seq又可以繼續分為全基因組測序(WGS),全外顯子測序(WES),簡化基因組測序()如RAD-Seq)。
RNA-Seq也可以繼續分為mRNA-Seq, lncRNA-Seq等。目前比較火的單細胞序(single-cell Sequencing),則是各種測序在單個細胞水平上的操作。

剛進入這個領域,你一定會迷惘,不知所措,到底要學哪一個? 我的建議是學習RNA-Seq,尤其是差異基因座表達分析這一部分。因為在這個方面,體系趨于成熟,大部分問題都能通過搜索引擎得到解答。因此我根據自己的學習感悟,將RNA-Seq 差異基因表達分析流程分為8步進行介紹,從環境準備開始,到從文獻中下載數據,還有下載參考基因組和注釋信息,接著是序列比對,基因read計數,在到差異基因表達分析,最后是富集分析。中間還需要進行質量控制以及可視化。

本圖來自于 RNA-Seq Data Analysis-A pratical approach

(偽)從零開始學轉錄組全系列


(偽)從零開始學轉錄組(1):軟件安裝

(偽)從零開始學轉錄組(2):讀文章拿到測序數據

(偽)從零開始學轉錄組(3):了解fastq的測序質量

(偽)從零開始學轉錄組(4):了解參考基因組及基因注釋

(偽)從零開始學轉錄組(5) 序列比對

(偽)從零開始學轉錄組(6):read計數

(偽)從零開始學轉錄組(7):差異基因表達分析

?(偽)從零開始學轉錄組(8):富集分析

我希望這能幫到你,當然這也是我學習的一次總結。順便解釋一下為什么這個系列是(偽)的。

第一: 只不是真正的零基礎教程,我預設了你有一定的Linux基礎。

第二:因為很多人問我自己零基礎如何入門生物信息學呀?我覺得他想聽到的回答的句型應該是 只要XXX, 就能XXX, 就好像一些《21天學會XXX》書名那樣。如何快速入門生物信息學的答案就是花上足夠長的時間學習。

對于學霸而言,他們知道能力是通過不斷積累而形成的,而對于學渣而言,他們希望的是最后的押題卷

因此,實踐這一個系列,你未必真的能順利入門生物信息學。你需要補習操作系統基礎(Linux),你需要掌握基礎的統計學知識(概率分布,統計推斷等),你還得掌握幾門編程語言,R,Python,Java, C等。 在編程語言上的掌握,不只是你會調用軟件包,還得根據語法結構寫自己的腳本。當然你還得保證你的

當你看到目前那么多測序類型和種類繁多的數據分析方法,你肯定會慌亂,覺得自己無法掌握那么多的數據分析方法。請冷靜下來,安心把基礎打扎實。如果你不了解比對的原理,你就難以通過調整默認參數,用來適應當前的研究。如果你不懂得基礎的統計學原理,對照組和實驗組都只有一個樣本,還企圖算出p值,當然p值本身都是議論紛紛。還有富集分析,你要是不知道叫做基因本體論(GO),結果你都未必能看懂。

雖然高通量數據分析方法變化很快,但是先通過RNA-Seq入門生物信息,知道這是什么,能做什么,然后再把基礎打扎實,那么就能以不變應萬變。

如果你覺得再微信上看文章不舒服,我還建立了專門的GitHub用于更新我的文章和數據。https://github.com/xuzhougeng/Learn-Bioinformatics。


不要閱讀原文

不要閱讀原文

不要閱讀原文

閱讀原文之后你就會變得優秀了,就會超越我的


我要推薦
轉發到
意甲联赛什么时候开始