李彥宏的百度世界82(1 / 2)

第九章 百度東瀛 不懂日本照樣開發日文搜索

確定進軍日本後,百度首先要做的是開發日本搜索引擎。

百度開始麵向社會招聘日語開發人才,但是,那些有意於百度的應屆畢業生看到招聘信息,卻無力把握這個突圍而出的機會。百度一個日語工程師也沒有招到。商務搜索的人才本來就已經難招,因為這是一個要求比較高的職位,從業人員不但要知識麵廣,計算機技能好,還要數學好,隻有這樣才能處理好海量數據,在上億次的搜索請求中將廣告關鍵次與網民的搜索習慣匹配,再加上一條懂日文的要求,“無人問津”也在李彥宏的預想中。

沒有如願招到日語工程師。李彥宏隻好啟用了備選方案:用原有的工程師加翻譯來做日文搜索引擎。

2006年7月,百度內部正式開始日文搜索引擎的研發,李彥宏要求盡快完成前期準備工作,“要在1-2年內走完中文搜索7-8年走過的道路”。

在百度,一向是由技術總監崔珊珊負責技術開發。她從做網頁搜索的80多位工程師撥出十幾個組成了日語搜索研發團隊。這些工程師幾乎都不懂日文,憑借中文搜索的分詞經驗和一名翻譯,大家做起了百度的簡單日化,即從中文切詞到日文切詞之間的轉化。

研究發現,日文和中文有很多相似性,從技術的角度來講都是所謂的雙字節的存儲。計算機科學裏有CJK的說法,C就是China,G就是Japan,K就是koren,這三個國家都是雙字節的語言。在計算機存儲上,很多有關自然語言的研究都是同時圍繞這三種語言進行展開的。從技術角度講,雙字節和單字節的第一個分別就是在切詞部分。因此,對中文搜索有很好理解的人,那對日文搜索的理解基本是一樣的。隻是從了解日本互聯網的目的出發,工程師需要懂一點日語,去判斷一個網頁是有效還是無效,因此百度的工程師隻需要懂比較基礎的日文,能看懂網頁就行,不要求對話能力和對日本文化有太深入的了解。

出於對日本市場的關注,在百度宣布進入日本後,很多百度工程師開始學習日語。這是後話了。

基於上述原因,李彥宏才敢於嚐試在招聘不到日文工程師的情況下,毅然決然地要繼續上這個項目:“百度在中文搜索上使用了很多非常先進的中文自然語言處理技術,如切詞,我們在這方麵積累了一定的經驗,這對我們進軍日本市場會有很好的幫助”。

曾經有記者問李彥宏:麵對不夠熟悉的日本市場,你會不會有一種恐懼感,或者抱著一種無所謂的探索的感覺?

李彥宏回答:“其實我是有一種興奮感。可能是因為我本身就是一個創業者,我總是覺得麵臨新的挑戰的時候,感到很興奮,覺得又有一個大空間可以發展了。我本身從來都不懼怕陌生的環境。”

雖然李彥宏信息十足,但具體執行日文搜索項目的百度人,卻並非都有充足的把握。

其實,公司內外一直都有質疑的聲音——百度以前的形象一直是專注中文,日文搜索技術複雜,時間緊張,而且百度人對日本語不熟悉,日本用戶對百度也不熟悉,在這種情況下,百度6個月能做出一個幾乎全新的搜索引擎麼?更多的人根本不相信。