華大基因:挖掘人體的大數據
特別報道
“一個人的基因總和是6×1023字節,誰還有這麼大的數據?沒有!我們每個人身體所攜帶的信息,比現在世界上已知信息的總和還要多。”華大基因董事長汪建說。根據IDC的預測,到2020年,全球數據總量為40ZB(4×1023字節),人均5247GB。
“在此之前,國內所有的大數據活動從未邀請我們參加,我們感到很不平衡。”汪建說,“人們常說低價值是大數據的特征之一,而我們研究的基因是高價值,人的生老病死都在這些數據裏麵。”的確,小到生命個體的音容笑貌、生老病死,大到社會發展乃至人類繁衍生息,還有比這更有價值的事情嗎?汪建的演講不僅講述了信息技術與生物技術結合展現出的廣闊應用前景,更重要的是言語之間傳遞出的科技應該普惠民生的人文精神。基因的價值唯有通過信息技術才能挖掘出來。華大基因成立十多年後,汪建發現華大基因的數據產出量,每兩年都要在其後麵增加一個0,增長速度遠遠超過摩爾定律的每兩年晶體管集成度增加1倍。“基因測定過去很長時間都是跑在我們自己的計算機上,到了後來扛不住了。”汪建說,“‘天河一號’曾經名列全球超級計算機500強第一名,華大基因在‘天河一號’中的使用率達到50%,半個多月前啟動的‘天河二號’有8000個CPU節點,我們預定了3000個。”
特立獨行的汪建認為,當前大數據的目標都太大,而“我們的目標很小也很簡單,就是健康長壽、不病不傻,我的健康我做主,生老病死我掌握”。汪建說:“12年前,我的血液分離出來都是白色的,高血脂、高血壓、冠心病集於一身,基本上屬於無可救藥了。經過分析,又發現我的基因包含:出生缺陷、心腦血管及猝死相關基因、腫瘤易感基因、酗酒嗜煙基因、老年癡呆基因、藥物敏感基因。”然而,汪建卻身“殘”誌堅,在56歲那一年,成功登頂珠峰,成為國內登頂珠峰最年長的登山隊員。汪建的秘密在於“從不吃任何保健藥,而是定期檢測體內激素、維生素和氨基酸的水平,缺什麼就補什麼。”
根據衛生部2012年發布的《中國出生缺陷防治報告》,目前我國出生缺陷發生率在5.6%左右,每年新增出生缺陷數約為90萬例。出生缺陷首先是給家庭帶來不幸,其次也影響到社會的發展。“廣東省貧困人口中一半是因病致貧或者返貧,”汪建說,“如果我們將癌症早期發現率提前1年,那麼病人5年的存活率至少可以提高2~3倍。控製出生缺陷、預防心腦血管疾病、腫瘤個體化治療、抵抗衰老乃至女性美容,哪一個不是價值成千上萬億元的產業?”
大部分精力放在慈善事業的蓋茨,曾經多次拜訪華大基因。第一次拜訪時,汪建對西裝革履的蓋茨說,華大基因有個不許穿西裝更不許打領帶的規定。於是,從第二次開始,蓋茨入鄉隨俗。“我們最短一次談了2個小時,最長交流了6個小時,雙方簽訂了16項重要合同。”汪建說,“我跟蓋茨說,我們不要你的錢,你提出一個項目,雙方各出一半的錢,共同為人類做點事情。”
貴州省黔西南是我國的基因寶庫,具有民族多樣性和生物多樣性,是疾病研究的寶貴資源。“黔西南山區的遺傳性疾病有其多樣性和特殊性,我們能夠控製黔西南的遺傳性疾病,我們就能控製中國其他山區的遺傳性疾病,我相信也可通過蓋茨推廣到全世界去控製這些遺傳性疾病。”汪建說,“貴州是生態寶地,好山好水好地方,養身養水養健康。我們依靠創新驅動,依靠服務民生,建立一個新的集聚區,來共同減少出生缺陷、腫瘤和心腦血管病。這三類疾病加在一起對人類健康和生死的影響率達80%,如果我們在這80%上對人類有所貢獻,我們就不會愧對一生。華大做任何事情都是從個人開始的,我想這樣的結果一定是有利於一個地方的發展,有利於一個城市的發展,也會有利於一個國家的發展。用基因科技造福人類,是我們最大的願望。”汪建表示。
當今,經曆了實驗科學、理論推演、計算機仿真後,科學研究正進入第四範式——數據密集型科學發現。華大基因在智惠民生、產業報國的同時,也在科學研究上碩果累累,多次在《自然》、《科學》等權威雜誌上發布文章,從而成為科學研究第四範式的範例之一。