第七十九章
“現場演示?”周青山哈哈大笑起來,撇撇嘴說道:“就算我是中文係的,也知道一款輸入法軟件的開發周期需要很久。你們公司成立多長時間了?有一個月嗎?侯世達你當自己是YY小說主角了吧?一晚上就能寫出個世界第一的瀏覽器程序來,哈哈哈哈!”
侯世達淡淡的看了他一眼,心裏其實很奇怪。按說帝郵在國內也算排的上號的好大學了,能考上的不可能智商欠費,但怎麼學生會裏紮堆的都是這麼一類人呢?事兒媽、小心眼、沒有自知之明,表麵上看好像會做人,其實反而讓人打心眼裏討厭。
這周青山按說造型不差,放電視劇裏起碼都能活十分鍾。怎麼一張嘴,就讓人有種他欠揍的衝動……
“哦,周會長還知道自己是中文係的啊?”侯世達嗬嗬輕笑,搖頭道:“那就請你閉嘴,我們軟件專業的問題,你算老幾?”
“你……”
周青山何曾被人這麼搶白過,當真是差點沒被氣的翻白眼來。不過看周圍同學們的眼神,也都是差不多一樣的輕視。
侯世達失望的搖頭道:“你什麼?以你的智商,我很難和你解釋什麼叫做測試版的。”
“哈哈哈哈——”
周圍傳來一陣笑聲,眾人心中也覺得周青山和侯世達這次交鋒真是找虐,他一個文科生和人家專業程序員起膩,真不知道腦袋怎麼想的。
周青山被氣的臉色一陣發白,恨恨的點頭道:“好,那我就看你怎麼把牛皮吹破。”
侯世達轉過身來,不再把注意力放在他的身上,而是走到了木架旁邊。他掀開木架上的第一頁紙,第二頁紙上麵畫了一個樹狀圖,就聽他說道。
“在展示我們的內部開發測試版之前,我先簡要的說一下六耳輸入法的實現原理吧。”
“這是一幅我們人類負責語言思維的決策樹狀圖,我認為人類的語言並非隻是一種信息傳遞協議,更是認知世界的重要工具。輸入法若想理解人類的‘語法’,首先得了解人類思考的兩大部分——知識和智能。可以說人類所謂的智慧,就是由這兩部分構成的。而一直以來的輸入法,對數據的處理方式,都是用計算機理解的二維表格數據庫模式。正是這種和人類思維完全不同的數據處理方式,導致了現在的數據爆炸問題。”
……
侯世達不斷的將木架上的白紙掀開,從人類思維的模式開始侃侃而談。
別看未來所謂的智能輸入法好像遍地開花,於是就覺得這東西非常簡單。恰恰相反,識別率越高的輸入法對技術要求就越高。尤其是侯世達對六耳輸入法並不滿足於實現整句輸入為止,而是必須在整句輸入的前提下能夠實現至少95%的首次輸入正確率。
如果隻是打出拚音來,然後判斷每個詞的組成,最後用幾個詞語組成一句不通的句子,那用微軟的智能ABC就能做到,用戶不過多敲打幾下空格而已。但要做到整句輸入,就是要讓用戶一次輸入整個句子,一氣嗬成。讓後麵的詞語能夠根據前麵的內容、語義進行自動關聯,這種對數據的要求,是傳統表型數據無法提供的。
人類對語言的處理過程,不是二維結構,而是一種空間坐標形式存在的。要想讓計算機實現人類的“聯想”能力,就要讓數據像人類處理知識一樣,具有進行空間排列。若想能夠對數據進行分析、歸類和查找,就要知道人類的腦海中知識是如何存在的?歸根結底,是一個個神經元中的電脈衝。而神經元肯定不是二維結構,而是所有腦細胞組成的三維結構。
一個神經元被激活之後,會向它附近所有的神經元發射一束電脈衝。一個神經元發射的電脈衝不足以激活另一個神經元,但如果一個神經元在一個單位時間內有多個電脈衝抵達,那就會被激活,這就是人類思考的過程。
智能輸入法中用戶輸入的每一個詞,都會向後麵的其他詞語添加一個閾值。當後麵某個詞的閾值突破臨界點之後,就可以進入備選的範圍之內。而這個備選數據庫,就是解決信息爆炸問題的關鍵。因為它是一個三維矩陣形式的數據庫,通過KNN近鄰算法,就能實現非常高的選擇準確率。
尤其是通過這種算法,還能對詞庫裏沒有出現過的新詞,經過幾次訓練之後就實現機器學習。這一點對無法窮盡人類詞語的詞庫來說,意義特別重大。