教育部、國家語委首次向社會發布“2005年中國語言狀況報告”顯示,我國常用漢字在減少。此次調查平麵媒體、有聲媒體、網絡媒體文本文件890多萬,總共9億字次,其中漢字是7億多,但發現媒體用漢字8225個,平麵媒體、有聲媒體和網絡媒體三者共同的漢字是5607個。581個漢字就可以覆蓋其中的80%,當覆蓋率達99%的時候隻需2315個字。一個人如果掌握10000多條詞語、900多個漢字,就可以閱讀90%左右的出版物。

一個小學生大約掌握的漢字為2800個,這篇報道無疑告訴我們,一個小學生在閱讀90%以上的出版物時不會出現生僻字。國家在1988年公布的《現代漢語常用字表》選收了2500個常用字、1000個次常用字,總共隻有3500字,數量上並沒有超過最初的文字甲骨文。那麼,漢字總數到底有多少呢?

中國漢字總量是多少,大家沒有一個統一的說法。有“總彙漢字之大成”評價的《康熙字典》在書後附有《補遺》,盡收冷僻字,再附《備考》,又有音無義或音義全無之字,收錄的漢字是4萬多個。1994年出版的《中華字海》收入87019個漢字,而已經通過專家鑒定的北京國安谘詢設備公司的漢字字庫,收入有出處的漢字91251個,據稱是目前全國最全的字庫。

按照常用漢字為3000個、漢字總數為90000個來計算,隻有1\/30的漢字為常用漢字。《毛澤東選集》5卷本使用的不同漢字也不超過2000多個。《小學語文大綱》規定學生應該認識3000個漢字,如果掌握了1800多個漢字,也就可以脫盲了。

看來,漢字和英文單詞一樣,也是符合上麵提到的單詞定律的。

19世紀意大利經濟學家帕累托研究了個人收入的統計分布,發現少數人的收入要遠多於大多數人的收入,最後受啟發提出著名的“二八法則”,即兩成的總人口占據了八成的社會總財富,剩下的八成人口一共隻占據兩成的社會總財富。用數學語言來說,就是個人收入X不小於某個特定值x的概率與x的常數次冪亦存在簡單的反比關係。這個法則被稱為帕累托定律。

單詞定律與帕累托定律一樣,都是簡單的冪函數,我們稱之為冪律分布。還有其他形式的冪律分布,像名次—規模分布,規模—概率分布,這4種形式在數學上是等價的。

實際上,冪律分布廣泛存在於物理學、地球與行星科學、計算機科學、生物學、生態學、人口統計學與社會科學,經濟與金融學等眾多領域中,且表現形式多種多樣。在自然界與日常生活中,包括地震規模大小的分布(古登堡-裏希特定律),月球表麵上月坑直徑的分布,行星間碎片大小的分布,太陽耀斑強度的分布,計算機文件大小的分布,戰爭規模的分布,人類語言中單詞頻率的分布,大多數國家姓氏的分布,科學家撰寫的論文數的分布,論文被引用的次數的分布,網頁被點擊次數的分布,書籍及唱片的銷售冊數或張數的分布,每類生物中物種數的分布,甚至電影所獲得的奧斯卡獎項數的分布等,都是典型的冪律分布。

無論是新浪微博賬戶的粉絲量還是視頻網站裏某段視頻的點擊量,這些都是遵循冪律分布的。極少數人的微博能得到數以百萬計的轉發量,極少數人擁有數以千萬計的粉絲,極少數的視頻得到了上千萬次的播放。

統計物理學家習慣於把服從冪律分布的現象稱為無標度現象,即係統中個體的尺度相差懸殊,缺乏一個優選的規模。凡有生命,有進化,有競爭的地方都會出現不同程度的無標度現象。

亞馬遜的尾巴

亞馬遜是世界上銷售量最大的零售書店,提供310萬冊不同的圖書品種,比全球任何一家書店的存書要多15倍以上。而實現這一切既不需要龐大的建築,又不需要眾多的工作人員,亞馬遜書店的1600名員工人均銷售額為37.5萬美元,比全球最大的擁有2.7萬名員工的Bames \\u0026 Noble圖書公司要高3倍以上。這一切是怎麼實現的呢?

先撇開這個不談,我們來說另一個故事。

1988 年,英國一名登山家寫了一本名叫《觸摸巔峰》的書,該書講述了在秘魯安第斯山脈發生的一次與死神擦肩而過的登山事故。這本書頗受好評,但不太暢銷,並很快就被人們淡忘了。可10年後,有趣的事發生了。登山家的另一部描寫登山悲劇的書《進入稀薄空氣》成為暢銷書,突然間讀者又開始對《觸摸巔峰》產生了興趣。

為滿足讀者要求,出版社立刻再版了這本書,銷售商把這本書放到正在暢銷的《進入稀薄空氣》旁邊來進行宣傳促銷,結果《觸摸巔峰》越賣越火。第二年一月,該書的簡裝版再版,並連續高居《紐約時報》暢銷書排行榜 14 周之久。到現在,《觸摸巔峰》的銷售量居然超過《進入稀薄空氣》一倍還多。

為什麼出版社會做出再版一本很多年前就不暢銷的書的決定?到底發生了什麼呢?其實,這背後都是亞馬遜的力量的體現。開頭的問題現在可以回答了。亞馬遜的網上商城能采集到各種不同的數據,根據數據分析出很多信息,比如亞馬遜通過分析發現,很多喜歡《進入稀薄空氣》的讀者也喜歡《觸摸巔峰》,於是向購買《進入稀薄空氣》的所有讀者推薦了《觸摸巔峰》。而不少讀者接受了推薦,也覺得受推薦的《觸摸巔峰》很不錯。一時間,網站的留言裏好評爆滿,《觸摸巔峰》銷量進一步增加,這就帶來了更多的好評,於是形成了一個良性循環。

在《進入稀薄空氣》出版時,《觸摸巔峰》幾乎已經絕版,很少有人知道這本書的存在。就算再往前幾年,讀過《觸摸巔峰》的人也沒有幾個,而亞馬遜徹底改變了這本書的命運。

2004年10月,美國《連線》雜誌總編輯克裏斯·安德森在一篇文章中提出了一個很怪的名字的理論:長尾理論。安德森是個對數字很敏感的人,他喜歡從數字中發現趨勢。在一次談話中,eCast首席執行官範·阿迪布告訴安德森,他從數字音樂點唱數字統計中發現了一個秘密:聽眾對98的非熱門音樂有著無限的需求,非熱門的音樂集合市場無比巨大,無邊無際。幾乎所有的音樂都會被收聽!他把這稱為“98法則”。安德森意識到阿迪布那個有悖常識的“98法則”隱含著一個強大的真理。於是,他係統研究了許多互聯網零售商的銷售數據,並與沃爾瑪等傳統零售商的銷售數據進行了對比,觀察到一種符合統計規律(大數定律)的現象。這種現象恰如以數量、品種二維坐標上的一條需求曲線,拖著長長的尾巴,向代表品種的橫軸盡頭延伸,長尾由此得名。

《長尾》在2004年10月號《連線》發表後,迅速成了這家雜誌曆史上被引用最多的一篇文章。特別是經過吸納無邊界智慧的博客平台,不斷豐富著新的素材和案例。安德森沉浸其中不能自拔,打造出一本影響商業世界的暢銷書《長尾理論》。

長尾理論其實就是冪律分布的一個口語化、形象化的表達,“長尾”是一個很形象的比喻。長尾理論認為,由於成本和效率的因素,過去人們隻能關注重要的人或事,如果用正態分布曲線來描繪這些人或事,人們隻能關注曲線的“頭部”,而將處於曲線“尾部”、需要更多的精力和成本才能關注到的大多數人或事忽略。當商品儲存流通展示的場地和渠道足夠寬廣,商品生產成本急劇下降以至於個人都可以進行生產,並且商品的銷售成本急劇降低時,幾乎任何以前看似需求極低的產品,隻要有賣,都會有人買。這些需求和銷量不高的產品所占據的共同市場份額,可以和主流產品的市場份額相比,甚至更大。

亞馬遜便是這個理論實踐的完美典範,它就像一隻拖著長長尾巴的蜥蜴一樣,將其他的書店遠遠拋在後麵。亞馬遜采取“按需印刷”的策略:小眾圖書在未有訂購之前采用電子書格式;而大眾圖書的集中庫存相比書店的庫存方法,使得一本書的庫存成本不到傳統書店的1\/20。

從1999年開始,亞馬遜開始向其他商家提供服務,從書店到個人,任何規模的零售商和分銷商都可以把自己的產品放到亞馬遜上銷售,就像亞馬遜自己的商品一樣陳列。到2004年年底,已經有超過10萬個市集賣家加入亞馬遜,而且這些第三方商家的銷售額占到亞馬遜總銷售額的近40%。

穀歌則是另一個典型的“長尾”公司,很多人想到的往往是它的搜索頁麵裏出現的“goooooooole”字樣。穀歌的成長曆程就是把廣告商和出版商的“長尾”商業化的過程。以占據了穀歌半壁江山的AdSense為例,它麵向的客戶是數以百萬計的中小型網站和個人——對於普通的媒體和廣告商而言,這個群體的價值微小得簡直不值一提,但是穀歌通過為其提供個性化定製的廣告服務,將這些數量眾多的群體彙集起來,獲得了非常可觀的經濟利潤。目前,穀歌的市值已超過2100億美元,被認為是“最有價值的媒體公司”,遠遠超過了那些傳統的老牌傳媒。

長尾真正令人吃驚之處在於它的數量。將長尾上足夠的非流行累加起來,就會形成一個比流行還要大的市場。亞馬遜有超過一半的銷售量都來自在它排行榜上位於 13 萬名開外的圖書。如果以亞馬遜的統計數據為依據的話,這就意味著那些不在一般書店裏出售的圖書要比那些擺在書店書架上的圖書形成的市場更大。也就是說,如果我們能夠擺脫資源稀缺的限製,潛在的圖書市場將至少是目前的兩倍大。風險投資家科文·勞斯曾用一句話總結這個現象:最大的財富孕育於最小的銷售。這句話真實反映出亞馬遜利用長尾理論的成功。

九、一切源於爆發

黑天鵝的世界

俗話說“天下烏鴉一般黑”,這句話一般用來說明各地的壞人壞事都差不多,到處都是一樣黑暗的。可是,在湖北省西部邊陲,有一個很神奇的地方叫作神龍架,那裏有一個國家級森林及野生動物類型自然保護區和一個國家濕地公園,那裏的人們會告訴你,這句話是錯的。因為那裏有全身都是白色羽毛的烏鴉。

無獨有偶,在發現澳大利亞的黑天鵝之前,歐洲人認為天鵝都是白色的,甚至從來沒有想過天鵝有黑色的可能性。“黑天鵝”曾經是歐洲人言談與寫作中的慣用語,用來指不可能存在的事物。最後,人們在澳大利亞發現全身黑色羽毛的天鵝。歐洲人非常震驚,在確認這不是玩笑之後,“黑天鵝”這個慣用語的意思也發生了變化,從“不可能存在的事物”變成“非常小概率卻依然發生了的事情”,而相對應的“黑天鵝事件”則用來隱喻那些極為罕見、出人意料、毫無征兆、發生後產生極端影響的事件。