科學我知道——Why生命科學-第15章什麼是生物信息學？

生物信息學的廣義定義是什麼？

生物信息學這個名詞有許多不同的定義。從字麵上來看，生物信息學是將信息科學應用於生物學。生物信息學廣義的概念是指應用信息科學研究生物體係和生物過程中信息的存貯、信息的內涵和信息的傳遞，研究和分析生物體細胞、組織、器官的生理、病理、藥理過程的中各種生物信息，或者說是生命科學中的信息科學。狹義的概念是指應用信息科學的理論、方法和技術，管理、分析和利用生物分子數據。一般提到的“生物信息學”是指這個狹義的概念，更準確地說，應該是分子生物信息。

生物信息學是上世紀80年代末隨著基因組測序數據迅猛增加而逐漸形成的一門交叉學科。隨著生物學和醫學的迅速發展，特別是人類基因組計劃的順利推進，產生了海量的生物學數據，生物分子數據的積累速度在不斷地快速增加。這些數據具有豐富的內涵，其中隱藏著豐富的生物學知識。充分利用這些數據，通過數據分析、處理，揭示這些數據的內涵，得到對人類有用的信息，這將是生物學家和數學家所麵臨的一個嚴峻的挑戰。生物信息學是為迎接這種挑戰而發展起來的一個交叉學科。

根據美國NIH和DOE在1990年給出了生物信息學的定義，它是生物學與計算機科學以及應用數學等學科相互交叉而形成的一門新興學科。它通過對生物學實驗數據的獲取、加工、存儲、檢索與分析，進而達到揭示數據所蘊含的生物學意義的目的。當前生物信息學發展的主要推動力來自分子生物學，生物信息學的研究主要集中在核苷酸序列的存儲、分類、檢索和分析等方麵。目前，生物信息學可以狹義定義為：將計算機科學和數學應用於生物大分子信息的獲取、加工、存儲、分類、檢索與分析，以達到理解這些生物大分子信息的生物學意義的交叉學科，並服務於人類健康事業——藥物開發、基因診斷、治療等。生物信息學在生命科學與計算機、數學之間的關係，它不是在兩者之間起著橋梁作用，而是充分利用各種方法和手段從海量的生物學數據中發現生物學知識，它需要對兩者進行整合和交叉。

生物信息學研究是利用數理統計、模式識別、動態規劃、密碼解讀、語意解析、信令傳遞、神經網絡、遺傳算法以及隱馬氏模型等各種方法，對序列、結構數據進行定性和定量分析，從中獲取基因編碼、基因調控、序列-結構-功能關係等理性知識，闡明細胞、器官和個體的發生、發育、病變、衰亡的基本規律和時空聯係，探索生命起源、生物進化、生命本質等重大理論問題，最終建立“生物學周期表”。

HGP的提出和實施，實驗的數據和信息急劇大量的增加，信息的管理和分析成為一項重要的研究內容，這是生物信息學最初的主要研究內容，收集、儲存、分發基因組的數據和信息，管理和分析、處理基因組及相關的蛋白質、mRNA的信息，根據基因組數據和信息的比較分析，發現新的基因，並對基因結構和功能進行研究。其中生物信息學的研究作用側重於將原始的信息庫進行分析、分類，按照需要建立具有特殊功能的二級數據庫。二級數據庫是進一步研究開發基因組的重要手段，通常是封閉的，不對外開放，僅供內部使用。

隨著基因組研究的完成，以及向功能基因組研究的轉化，解讀生物的遺傳密碼成為生物信息學的又一項重要的任務。將基因組、轉錄組、蛋白質組以及比較基因組學的數據綜合集成，構建基因調控網絡，從係統的角度來研究生物學，為係統生物學的研究提供工具，成為生物信息學的研究重點。此外，基因芯片等高通量技術的應用，產生了海量的基因表達數據，這些數據中隱含了基因表達控製的信息，對這些的分析和挖掘，以及數據的標準化已成為生物信息學的研究熱點。

人類基因組測序計劃的完成將會改變科學家進行科學研究的方式。隨著完整人類基因組的公布，對相應的基因組序列、基因結構、蛋白序列、蛋白結構等進行分析的工具也即將不斷湧現，其中生物信息學和計算機科學將占有特別重要的地位。采集、整理、儲存分析和應用基因和蛋白質組的龐大的信息和數據，將會成為未來醫學生物學的一個不可缺少及替代的工具和方法。