隨著蛋白質組學和系統生物學研究的深入,數據產出的規模也越來越大,科研人員對樣本生物功能的解讀要求也越來越高,各類組學數據之間的對接也越來越復雜,生物信息學分析已經成為蛋白質組學研究過程中不可或缺的重要部分,iTRAQ數據分析即是生物信息學在蛋白質定量定性研究中的重要體現。
生物信息學在蛋白質組學中的應用主要分為兩類,定性分析和定量分析。所謂的定性分析就是對肽段和蛋白的物化性質、生物功能等多方面的信息挖掘。最基礎的應用領域就是蛋白質的鑒定,將質譜鑒定的肽段譜圖數據和理論或基于實驗數據的蛋白質酶解肽段數據庫匹配,通過一定的匹配算法和假陽性率卡值,最終確定質譜譜圖結果對應的蛋白質。
通過肽段水平的生物信息學統計分析,發現有限肽段容易被質譜鑒定并且是所屬蛋白質獨有的肽段,即:PROTEOTYPIC PEPTIDES,人們利用這些肽段的特點,結合MRM等定量技術可以獲得蛋白質高準確性的定量信息。各種模型算法在組學領域的應用,質譜結果中的肽段譜圖計數和肽段信號強度也被用在絕對定量研究中,產生了非標記定量方法。
此外,對于磷酸化、糖基化等蛋白翻譯后修飾研究,也可以通過生信統計分析找到磷酸化位點附近氨基酸序列的特征模型(MOTIF),這些信息反過來可以協助我們尋找修改該位點的酶及其作用區域序列特征,從而預測可能發生翻譯后修飾的蛋白。
蛋白質水平上,生信分析設計蛋白質理化性質和生物功能解讀。常用的生物注釋分析包括GO分析(gene ontology),蛋白質功能區域(inter Pro,PFAM),生物通路分析(KEGG)以及蛋白間網絡分析(IPA和STRING),其中我們為客戶提供的iTRAQ數據分析結果,就涵蓋了生信分析的一部分內容,包括
表
● 差異基因列表
● 上下調基因表
● 差異基因數目比較表
● 上下調基因數目比較表
● 鑒定蛋白理化性質表
● K-均值聚類類別表
● 時間序列的相關系數表
● GO功能表(僅限于UNIPROT來源的庫)
圖
樣品間相關系數熱圖
◆ 層次聚類熱圖
◆ 主成分分析圖
◆ K-均值聚類圖
◆ GO功能富集圖
◆ 差異基因的KEGG通路圖
◆ STRING網絡圖
◆ 染色體定位圖(若有染色體定位信息)