信息過濾方法分為三類:認知過濾(COGNITIVEFILTERING),經濟過濾(ECONOMICFILTERING)和社會過濾(SOCIALFILTERING)。其中,認知過濾也叫基於內容的過濾(CONTENT-BASEDFILTERING);社會過濾也叫合作過濾(COLLABORATIVE FILTERING),而當前使用的就是基於內容的過濾和合作過濾。基於內容的過濾就是根據信息的內容和用戶偏好之間的相關性向用戶推薦信息。它的主要應用有過濾廣告、過濾垃圾郵件、過濾反動、色情網頁等。合作過濾就是按用戶興趣把用戶分組,同組用戶具有相同或相近的興趣。合作過濾根據人的判斷為用戶過濾信息。它使用多個用戶的知識預測單個用戶的偏好,把用戶互相推薦信息的過程自動化,因此信息過濾技術在本質上就是一種信息檢索技術,其目的就是通過利用某種檢索模型和用戶興趣描述數據來減少檢索結果的冗餘度。
網絡信息挖掘技術是數據挖掘技術在網絡信息處理中的應用。數據挖掘是指從大型數據庫的數據中提取出人們感興趣的信息加以提煉,這些知識是隱含的、事先未知的、潛在的有用信息;網絡信息挖掘是指在大量已知數據樣本的基礎上,得到數據對象間的內在特性,並以此為依據在網絡中進行有目的的信息提取。進行網絡信息挖掘的方法主要有:歸納學習、機器學習和統計分析等。網絡信息挖掘係統主要由特征提取、信息采集和特征匹配三部分組成。其中特征提取負責進行挖掘目標的特征提取,信息采集負責從網絡上選擇下載原始文檔,特征匹配負責進行相關信息的提取。
信息推送技術是一種按照用戶指定的時間間隔或根據發生的事件把用戶選定的可以獲得的數據自動推送給用戶的計算機數據發布技術。它的實現方式有:(1)頻道式推送;(2)郵件式推送;(3)網頁式推送;(4)專用式推送;(5)智能式推送。
與搜索引擎技術不同,在推送技術中,用戶是被動地接受信息,所以用戶不必掌握專門的技術,即可享用推送服務,這樣降低了對用戶的要求;另外,用戶也無須花費大量時間進行查詢,即可得到所需或感興趣的信息。但是推送技術針對性差,不能很好滿足用戶的個性需求,而且它還加重了信源的負擔,要求信源係統正確估計用戶興趣、愛好與需求,並主動地、快速地、不斷地為用戶推送信息。
中間件是指網絡環境中係統節點上介於應用和操作係統以及網絡服務之間的一係列分布式服務軟件的集合。一般而言,中間件能提供如下服務:
(1)表示管理:包括圖形管理、超媒體鏈接、打印管理等。
(2)計算:包括排序、數字運算、數據轉換及時間服務等。
(3)信息管理:包括目錄服務、日誌管理、文件管理、記錄管理及數據庫管理等。
(4)通信:包括點對點通信、PRC(遠程過程調用)、消息隊列、電子郵件及電子數據交換等。
(5)控製:包括線程管理、事務管理、資源代理及請求調度等。
(6)係統管理:包括配置管理、錯誤檢測、認證服務、審計服務、加密服務等,存取控製中間件的是一些係統軟件,它們能使最終用戶和開發人員覺察不到應用程序所使用的各種服務和資源上的差異。
綜上所述,網絡檢索技術的進步將會對網絡搜索引擎的發展起到巨大的推進作用,如使“蜘蛛”(SPIDERS)軟件更趨於智能化,可以對網頁上文獻的相關性及其所含鏈接的質量作出更準確的判斷,篩掉不相關的網頁等。
四、網絡搜索引擎的工作原理
搜索引擎並不真正搜索互聯網,它實際上搜索的是預先整理好的網頁索引數據庫。真正意義上的搜索引擎通常指的是搜集了因特網上幾千萬到幾十億個網頁並對網頁中的每一個詞(即關鍵詞)進行標引,建立索引數據庫的全文搜索引擎。
搜索引擎一般由搜索軟件、索引軟件和檢索軟件三部分組成。具體來說,搜索引擎的原理可以歸納為:從互聯網上抓取網頁———建立索引數據庫———在索引數據庫中搜索排序。
(一)從互聯網上抓取網頁
各個搜索引擎一般都利用高性能的“蜘蛛”程序(SPIDER)自動地定期或不定期地在互聯網上搜索 WWW 站點,負責采集網頁信息,主要包括 WWW超文本的所有文本、題名、摘要、關鍵詞和URL等。一個典型的“網絡蜘蛛”的工作方式,是查看一個頁麵並從中找到相關信息,然後再從該頁麵的所有鏈接出發,繼續尋找相關的信息,依此類推,直至窮盡。搜索引擎的SPIDER一般要定期重新訪問所有網頁(各搜索引擎的周期不同,可能是幾天、幾周或幾個月,也可能對不同重要性的網頁有不同的更新頻率),更新網頁索引數據庫以反映出網頁內容的更新情況,增加新的網頁信息,去除死鏈或無效鏈接,並根據網頁內容和鏈接關係的變化重新排序。這樣,網頁的具體內容和變化情況就會反映到用戶查詢的結果中。不同的搜索引擎在完成這些工作的迅速性和綜合性方麵是不同的。這是各搜索引擎的最初工作步驟。
(二)根據網頁信息搜集結果建立索引數據庫
這一過程關係到用戶能否最迅速地找到最準確、最廣泛的信息,能對“網絡蜘蛛”抓取來的網頁信息極快地建立索引,保證信息的及時性。不同的搜索引擎會在搜索結果的數量和質量上產生明顯的差異。有的搜索引擎把網頁搜索軟件發向每一個站點,記錄下每一頁的所有文本內容;另—些搜索引擎則首先分析數據庫中的地址,以判別哪些站點最受歡迎(一般都是通過測定該站點的鏈接數量),然後再用軟件記錄這些站點的信息。記錄的信息包括從HTML標題到整個站點的所有文本內容,包括:網頁標題、網址、鏈接、人名、地名、機構名等,以及經過算法處理後的摘要。當然,最重要的是數據庫的內容必須經常更新、重建,以保持與信息世界的同步發展。
互聯網雖然隻有一個,但由於各搜索引擎的能力和偏好不同,所以抓取的網頁各不相同,排序算法也各不相同。大型搜索引擎的數據庫存儲了互聯網上幾億至幾十億的網頁索引,數據量達到幾千GB甚至幾萬GB。但即使最大的搜索引擎建立超過20億網頁的索引數據庫,所占也不到互聯網上普通網頁的30%,不同搜索引擎之間的網頁數據重疊率一般在70%左右。使用不同搜索引擎的重要原因就是利用它們能分別搜索到不同的內容,最大限度地減少搜索空白。但互聯網上有更大量的內容是搜索引擎無法抓取索引的,也是無法用搜索引擎搜索到的,這也是所有搜索引擎共同的遺憾。
(三)用戶檢索過程
搜索引擎索引數據庫建立以後,每個搜索引擎都必須提供一個良好的信息查詢界麵,並具有幫助功能。用戶隻要把想要查找的關鍵詞(KEYWORD)輸入到查詢框中,點擊“搜索”按鈕(或類似的按鈕),檢索器就會根據用戶輸入的查詢關鍵詞,在索引庫中快速檢出文檔,因為所有相關網頁針對該關鍵詞的相關度早已算好,所以隻需按照現成的相關度數值排序,相關度越高,排名越靠前。用戶隻要通過搜索引擎提供的鏈接,就可以訪問到相關信息。這個過程是對前兩個過程的檢驗,檢驗該搜索引擎是否給出最準確、最廣泛的信息,檢驗該搜索引擎能否迅速地給出用戶最想得到的信息。
五、常見網絡搜索引擎的使用方法及特點
網絡搜索引擎的出現,目的就是幫助廣大的互聯網用戶方便地查詢網上信息,同時也是尋求解決網絡信息爆炸和用戶對單一信息需求之間矛盾的一種做法。網絡搜索引擎的功能正日漸強大,查全率和查準率也在大幅度提高,但歸根結底,搜索引擎隻是一個工具,用戶要通過它搜尋到自己需要的信息,必須掌握其使用方法,否則就會出現當你輸入關鍵詞後,出現了成百上千個與之相關的查詢結果,但是這些結果中並沒有多少你想要的東西,或是沒有完全滿足你的初衷,放在你麵前的隻是一堆信息垃圾,因此,很好地駕馭搜索引擎,掌握它的使用技巧,是獲得滿足自己需要的網絡信息資源的關鍵。
每個搜索引擎都有自己支持的查詢方法,不同搜索引擎的查詢方法不完全相同,一般來說,每一個網絡搜索引擎站點都會有相應的版塊設置來向用戶介紹該搜索引擎的功能特點和使用方法,在使用搜索引擎前,仔細閱讀這些提示和說明,能夠讓你在使用搜索引擎時事半功倍,收到良好的效果。
(一)網絡搜索引擎基本搜索方法
以下是各個搜索引擎基本上都具有的通用查詢方法。
1.簡單搜索(SIMPLESEARCH)
指輸入一個單詞(關鍵詞),提交搜索引擎檢索後反饋結果。它也叫單詞搜索。這是最基本的檢索方法。
2.詞組搜索(PHRASESEARCH)
指輸入兩個單詞以上的詞組(短語),提交搜索引擎檢索並反饋結果。它也叫短語搜索。現有搜索引擎一般都約定把詞組或短語放在引號“”內。如果查找的是一個詞組或多個漢字,最好的辦法就是將它們用雙引號括起來,這樣,得到的結果最精確。這就叫使用雙引號進行精確查找。一般說來,在網頁搜索引擎中,用詞組搜索來縮小範圍從而找到搜索結果是最好的辦法。但是,運用詞組搜索涉及如何選擇一個詞組來表達檢索的問題。有時簡單搜索就能奏效,有時則需要輸入一個詞組才能奏效,故選擇合適的詞組對提高搜索效率是很重要的。
3.高級搜索(ADVANCESEARCH)
指用布爾邏輯組配方式檢索。它也叫定製搜索,常用的邏輯運算為AND(與)、OR(或)、NOT(非)。此外,還有NEAR(鄰近)運算符。恰當應用AND(與)、OR(或)、NOT(非)及NEAR(鄰近),可以使搜索結果非常精確。而且,可以用括號將搜索詞組合起來,如表達式:“(大學NOT學校)AND四川AND(四川大學)”表示檢索結果中包含有“大學”(而非“學校”)和“四川”以及“四川大學”的內容。
有的搜索引擎還支持使用通配符,用於指代一串字,不過每個搜索引擎所用的通配符不完全相同,大多數用*或?,少數用$。
此外,不少搜索引擎還支持加(+)、減(-)詞操作,相當於邏輯與(AND)和邏輯非(NOT)。在搜索詞前冠以加號“+”可以限定搜索結果中必須包含的詞彙,用減號“-”則限定搜索結果不能包含的詞彙。當隻用一個單詞進行搜索時,經常會出現數以千計甚至百萬計的匹配網頁,這時,就可以用“+”再加上一個單詞,使搜索結果縮小範圍;同樣,如果用“-”去除一個單詞,就能立即排除不需要的搜索結果。這一方法對主要搜索引擎都適用。
4.目錄搜索(CATALOGSEARCH)
搜索引擎為用戶提供分類目錄,用戶可根據此分類目錄逐級檢索。用戶一般不需要輸入檢索詞,而是按照檢索係統所給的幾種分類項目,選擇類別進行搜索。這類搜索也被稱為分類搜索(CLASSIFIEDSEARCH)。當然,也有人提出不應將網站分類目錄也叫做搜索引擎,認為真正意義上的搜索引擎指的是全文搜索引擎。全文搜索引擎根據提問當場去網上檢索,技術含量高、處理的信息量大、準確度高、功能強、檢索速度也快。然而,全文搜索引擎其實也要有一個大的索引表,其中錄了每個網頁上出現過哪些關鍵詞。當用戶輸入某個關鍵詞搜索的時候,所有含有這個關鍵詞的網頁才能被找出來,並按一定順序排列。這就與目錄搜索依據的目錄索引類似了。
5.語句搜索(SENTENCESEARCH)
這類搜索支持輸入任意自然語言問句向搜索引擎提問,搜索引擎根據問句檢索並反饋結果,就像人與人之間交談一樣,這種方式也叫任意檢索,實際上就是自然語言檢索。並非所有的搜索引擎都支持這樣的檢索,而且不同搜索引擎對語句中詞與詞之間的關係的處理方式也不同。
(二)使用搜索引擎需注意的問題
1.根據檢索內容選擇搜索引擎
因為搜索引擎的設計目的和發展走向存在著許多不同,有的專用於檢索WEB信息,有的專用於檢索USENET信息,而有的則針對商業需要設計。所以用不同的搜索引擎進行檢索得到的結果常常有很大的差異,使用時,要根據自己的需要,選擇合適的搜索引擎。
2.根據要求選擇檢索方法並細化檢索
如果需要快速找到一些相關性比較大的信息,可以使用目錄索引式搜索引擎檢索;如果想得到某一方麵比較係統的資源信息或比較冷門的信息,則應該選用全文搜索引擎查找。許多搜索引擎都提供了對搜索結果進行細化與再檢索的功能。如有的搜索引擎在結果中有“檢索類似網頁”的按鈕,還有一些則可以對得到的結果進行新一輪的檢索,如:“在結果中搜索”。有時需要檢索的信息太精確或者一個詞組無法準確表達所需信息,那麼,可以直接定位到信息源,就是用“…。COM”、“…。ORG”等作為要搜索的信息的主要詞組,直接檢索到相關網站或主頁。
沒有一種技術和搜索引擎是萬能的,隻有將幾種技術和搜索引擎巧妙地結合起來使用才能大大提高檢索效率。
(三)幾種常用的網絡搜索引擎介紹
1.百度(WWW。BAIDU。COM)
百度,全球最大的中文搜索引擎、最大的中文網站。1999年底,百度成立於美國矽穀,2000年1月,公司創始人李彥宏回國發展,在中關村成立了“百度網絡技術(北京)有限公司”,同年5月首次為門戶網站————矽穀動力提供搜索技術服務。2001年8月,發布BAIDU。COM搜索引擎BETA版,從後台服務轉向獨立提供搜索服務;2001年10月22日正式發布BAIDU搜索引擎。同年,百度適時推出了搜索引擎競價排名這一全新的商業模式,吸引了各大中文門戶網站、中國各地信息港以及百度提供技術支持的所有網站的積極參與。2007年12月,百度日本正式上線,百度開始了它的國際化戰略。從最初的不足10人,發展到今天員工人數超過7000人,百度已成為中國掌握世界尖端科學核心技術的高科技企業,國內最大的商業化全文搜索引擎,目前全球最優秀的中文信息檢索與傳遞技術供應商,為搜狐、新浪、163、TOM等站點提供網頁搜索服務,成為中國最受歡迎、影響力最大的中文網站,目前百度有超過3萬個搜索聯盟會員,通過各種方式將百度搜索結合到自己的網站,使用戶不必訪問百度主頁也能進行百度搜索。
百度搜索引擎由蜘蛛程序、監控程序、索引數據庫和檢索程序4部分組成,擁有目前世界上最大的中文信息庫,總量達到9000萬頁以上,並且還在以每天幾十萬的速度快速增長。百度搜索引擎有新聞、網頁、貼吧、知道、MP3、圖片、視頻等頻道,提供網頁快照、相關搜索詞、拚音提示、錯別字糾正提示、天氣查詢等特色網頁搜索功能。功能完備,搜索精度高。中國所有提供搜索引擎的門戶網站中,80%以上都由百度提供搜索引擎技術支持。百度目前主要提供中文(簡/繁體)網頁搜索服務。
百度搜索有以下特色功能:
(1)百度快照。如果無法打開某個搜索結果,或者打開速度特別慢,可以使用“百度快照”解決問題。每個未被禁止搜索的網頁,在百度上都會自動生成臨時緩存頁麵,稱為“百度快照”。當您遇到網站服務器暫時故障或網絡傳輸堵塞時,可以通過“快照”快速瀏覽頁麵文本內容。百度快照隻會臨時緩存網頁的文本內容,所以那些圖片、音樂等非文本信息,仍是存儲於原網頁。當原網頁進行了修改、刪除或者屏蔽後,百度搜索引擎會根據技術安排自動修改、刪除或者屏蔽相應的網頁快照。
比如下圖是搜索“金庸”的一個結果摘要,點擊右下角的“百度快照”鏈接。
(2)相關搜索。有時候搜索結果不佳,是因為選擇的查詢詞不是很妥當,(3)拚音和錯別字提示。如果隻知道某個詞的發音,卻不知道怎麼寫,或者嫌某個詞拚寫輸入太麻煩,這時隻要輸入查詢詞的漢語拚音,百度就能把最符合要求的對應漢字提示出來。它事實上是一個無比強大的拚音輸入法。拚音提示顯示在搜索結果上方。
如,輸入“ZHURONGJI”,提示如下:您要找的是不是:朱鎔基?
由於漢字輸入法的局限性,我們在搜索時經常會輸入一些錯別字,導致搜索結果不佳。但百度會給出錯別字糾正提示。錯別字提示顯示在搜索結果上方。
如,輸入“唐醋排骨”,提示如下:您要找的是不是“糖醋排骨”?
(4)搜索框提示。百度會根據輸入內容,在搜索框下方實時展示最符合的提示詞。隻需用鼠標點擊想要的提示詞,或者用鍵盤上下鍵選擇想要的提示詞並按回車,就會返回該詞的查詢結果。不必再費力地敲打鍵盤即可輕鬆地完成查詢。
如果輸入的是錯別字,百度會提示正確的輸入詞。如,輸入“周傑論”,搜索框提示中會顯示“周傑倫”。
默認情況下,在百度主頁和搜索結果頁上方的搜索框都會顯示搜索框提示。如果不希望顯示搜索框提示,當然也可以根據自己的喜好來開啟或是關閉它。
(5)專業文檔搜索。很多有價值的資料,在互聯網上並非是普通的網頁,而是以 WORD、POWERPOINT、PDF等格式存在。百度支持對OFFICE文檔(包括WORD、EXCEL、POWERPOINT)、ADOBEPDF文檔、RTF文檔進行全文搜索。要搜索這類文檔很簡單,在普通的查詢詞後麵,加一個“FILETYPE:”對文檔類型進行限定即可。“FILETYPE:”後可以跟以下文件格式:DOC、XLS、PPT、PDF、RTF、ALL。其中,ALL表示搜索所有這些文件類型。例如,查找張五常關於交易費用方麵的經濟學論文:“交易費用 張五常FILETYPE:DOC”,點擊結另外百度還有英漢互譯詞典、計算器和度量衡轉換、股票、列車時刻表和飛機航班查詢、天氣查詢、貨幣換算等功能。
(6)支持高級搜索語法。
第一,把搜索範圍限定在網頁標題中。網頁標題通常是對網頁內容提綱挈領式的歸納。把查詢內容範圍限定在網頁標題中有時能獲得良好的效果。使用的方式是把查詢內容中特別關鍵的部分用“INTITLE:”連起來。例如,找與林青霞有關的風景照片就可以這樣查詢:“風景照片INTITLE:林青霞”。注意,“INTITLE:”和後麵的關鍵詞之間不要有空格。
第二,把搜索範圍限定在特定站點中。有時候,如果知道某個站點中有自己需要找的東西,就可以把搜索範圍限定在這個站點中,提高查詢效率。使用的方式是在查詢內容的後麵加上“SITE:域名”。例如,天空網下載軟件不錯,就可以這樣查詢:“SITE:SKYCN。COM”。注意,“SITE:”後麵跟的站點域名不要帶“HTTP:∥”,另外,“SITE:”和站點名之間不要帶空格。
第三,把搜索範圍限定在 URL鏈接中。網頁 URL(統一資源定位器UNIFORM RESOURCELOCATOR的縮寫,是發送到全球信息網文件的地址)中的某些信息常常有某種有價值的含義。如果對搜索結果做某種限定就可以獲得良好的效果。實現的方式是用“INURL:”後跟需要在URL中出現的關鍵詞,例如,找關於PHOTOSHOP的使用技巧可以這樣查詢:“PHOTOSHOPINURL:JIQIAO”,上麵這個查詢串中的“PHOTOSHOP”,可以出現在網頁的任何位置,而“JIQIAO”則必須出現在網頁URL中。注意,“INURL:”和後麵所跟的關鍵詞不要有空格。