正文 蛋白質二級結構的預測方法初探(1 / 2)

行業科技

作者:孫彥

【摘要】提出了研究蛋白質二級結構預測的意義,介紹近三十多年來蛋白質二級結構預測的方法分類,分別列舉出各類典型蛋白質二級結構預測方法的具體實現過程並最終對預測結果進行比較。

【關鍵詞】蛋白質二級結構

多序列比對法神經網絡

蛋白質的二級結構指多肽鏈本身通過氫鍵沿一定方向盤繞、折疊而形成的構象。蛋白質分子並非如一級結構那樣是展開的“線狀”,而是出於更高級的水平,多肽鏈主鏈中各原子在各局部的空間排布如何,是蛋白質二級結構主要研究的問題。蛋白質的功能主要由特定的三維結構所決定,因此,為了了解蛋白質功能,人們迫切需要確定蛋白質的三維結構。目前測定蛋白質結構的方法有x-光線衍射、核磁共振以及電子顯微鏡方法。所有這些方法都是耗時的,並且受到較多限製,如需純淨蛋白、小蛋白等。這樣結構測定技術遠不能趕上每天數以千計的測序速度。為了縮小結構與已知序列之間的差距,發展理論的蛋白質結構預測方法勢在必行。因此,在認為蛋白質的三維結構式由它的序列和環境所決定的情況下,促使人們利用蛋白質二級結構來預測其三維結構。蛋白質二級結構預測問題已成為生物信息學的經典問題之一。蛋白質二級結構預測已經有三十多年的曆史,各種不同的預測方法可以分為三類:統計學方法、多重序列比對法、神經網絡方法。本文將例舉三種典型性的預測方法進行闡述和比較。

Chou—Fasman是一種典型的統計學預測方法,基於15個已知構象的蛋白質和2473個氨基酸確定蛋白質二級結構。它的經驗規則是使用Pa>PB>進行二級結構預測:尋找折疊核:從6個殘基中找到了4個(HB或hb)便可以確定一個B折疊形成核,相反當(bB或BB)出現概率大於1/3時便不能確定;沿著多肽鏈向兩個方向延伸B折疊形成核,直到遇到連續幾個B折疊破壞者時才終止。B折疊破壞者包括b4,b3i等等;邊界調整:Glu很少出現在B區,Pro也不會出現在B折疊中,帶點荷氨基酸殘基都很少出現在兩端。Trp頻繁出現在N-末端。Chou-Fasman在實際運用中有50%-60%的準確率,似乎預測B折疊的精度較低。Gamier,Osguthorpe,Robson是較之Chou—Fasman的一種全新的方法。最初的版本為“GOR”,現在已經升級到GOR-3。用一個可容17個氨基酸的窗口對殘基進行檢測。基於每個氨基酸獨立影響中心殘基很可能采取的二級結構。每個側位需要獨立估算就像PSSM。步驟1:考慮氨基酸R出現在構象s中的聯合概率,信息方程是參考Chou—Fasman中用的方法。步驟2:用特殊的方法計算出信息方法差。概率參數的計算基於1978年的已知結構數據庫中的觀測頻率。事實上通過使用概率的總和來計算絕對概率是可行的,由此也能估計粗可能性。GOR的預測結果達67%左右的準確率,同時可以用實驗所得的信息(循環分色)來提高預測準確率。後來的版本允許側區的氨基酸與中心蛋白質成對聯合(GOR-2),或是側區的倆個氨基酸聯合起來(GOR-3)影響中心氨基酸的最終構型。