第四,使用雙引號和書名號精確匹配。如果輸入的查詢詞很長,百度在經過分析後給出的搜索結果中的查詢詞可能是拆分的。如果對這種情況不滿意,可以嚐試讓百度不拆分查詢詞。給查詢詞加上雙引號,就可以達到這種效果。例如,搜索“上海科技大學”,如果不加雙引號,搜索結果被拆分,可能會搜索出“上海”、“科技”、“大學”、“上海科技”、“科技大學”等詞語,效果不是很好,但加上雙引號後,搜索“上海科技大學”,獲得的結果就全是符合要求的了。
書名號是百度獨有的一個特殊查詢語法。在其他搜索引擎中,書名號會被忽略,而在百度中,中文書名號是可被查詢的。加上書名號的查詢詞,有兩層特殊功能,一是書名號會出現在搜索結果中;二是被書名號擴起來的內容不會被拆分。比如,查電影“手機”,如果不加書名號,很多情況下出來的是用於通信的工具手機,而加上書名號後,結果就都是關於電影《手機》方麵的了。
第五,要求搜索結果中不含特定查詢詞。如果用戶發現搜索結果中,有某一類網頁是不希望看見的,而且這些網頁都包含特定的關鍵詞,那麼用減號語法就可以去除所有這些含有特定關鍵詞的網頁。例如,搜“神雕俠侶”,希望是關於武俠小說方麵的內容,卻發現很多關於電視劇方麵的網頁,那麼就可以這樣查詢:“神雕俠侶 -電視劇”。注意,前一個關鍵詞和減號之間必須有空格,否則,減號會被當成連字符處理,而失去減號語法功能。減號和後一個關鍵詞之間,有無空格均可。
2.GOOGLE(WWW。GOOGLE。COM)
GOOGLE搜索引擎是1998年由兩個斯坦福大學博士生LARRYPAGE和SERGEYBRIN發明的,1999年 GOOGLE公司創立,同年6月,GOOGLE通過自己的網站WWW。GOOGLE。COM推出,並很快為YAHOO、AOL、中國網易等其他目錄索引和搜索引擎提供後台網頁查詢服務。GOOGLE的優勢主要在於它掌握的龐大的信息量以及它的檢索模型和檢索速度,德國互聯網雜誌《今日在線》曾對搜索引擎的網站結構、搜索服務的準確性等進行測試,發現GOOGLE在這些方麵都名列前茅。
GOOGLE以搜索精度高、速度快成為最受歡迎的索引型搜索引擎,是目前搜索界的領軍人物。GOOGLE的使命就是要提供網上最好的檢索服務,促進全球信息的交流和共享。GOOGLE開發出了世界上最大的搜索引擎,提供了最便捷的網上信息檢索方法。通過對30多億網頁進行整理,GOOGLE可為世界各地的用戶提供所需的搜索結果,而且搜索響應時間通常不到半秒。現在,GOOGLE每天提供的檢索服務在2億次以上。而且這一數字還在不斷增長。GOOGLE數據庫存有30億個 WED文件,屬於全文(FULLTEXT)搜索引擎。
GOOGLE提供的常規及高級搜索功能:
(1)在高級搜索中,用戶可限製某一搜索必須包含或排除特定的關鍵詞或短語,GOOGLE會忽略常用字詞和字符,如“WHERE”和“HOW”以及其他會降低搜索速度的詞,如果必須要使用某一常見字詞才能獲得需要的結果,可以執行詞組搜索,就是說用引號將兩個或更多字詞括住;有時僅需要搜索包含某個完整詞組的結果,在這種情況下,隻需用引號將搜索字詞括住即可,如“姚明”、歌詞“長路漫漫”或其他名言如“人無遠慮,必有近憂”等,用詞組搜索非常有效。如果搜索的字詞具有多種含義,例如,BASS可以指鱸魚或樂器,您可以進行集中搜索,方法是在希望排除的含義相關字詞前添加一個減號“-”,且減號前添加一個空格,例如,如果用戶要查找鱸魚而不是樂器,可以采用以下方法:“BASS-MUSIC”。
(2)該引擎允許用戶定製搜索結果頁麵所含信息條目數量,可從10到100條任選;字母無大小寫之分,默認全部為小寫。
(3)GOOGLE提供網站內部查詢和橫向相關查詢,還提供特別主題搜索,如APPLEMACINTOSH、BSD UNIX、LINUX和大學院校搜索等。
(4)GOOGLE允許以多種語言進行搜索,在操作界麵中提供30餘種語言供選擇,包括英語、主要歐洲國家語言(含13種東歐語言)、日語、中文簡繁體等。同時還可以在40多個國別專屬引擎中進行選擇。搜索規則是以關鍵詞搜索時,返回結果中包含全部及部分關鍵詞;以短語搜索時,默認以精確匹配方式進行;不支持單詞多形態(WORDSTEMMING)和斷詞(WORDTRUNCATION)查詢。
(5)搜索結果顯示網頁標題、鏈接地址(URL)及網頁字節數,匹配的關鍵詞以粗體顯示;默認情況下,GOOGLE隻返回包含所有搜索字詞的網頁。在字詞之間無需添加“AND”。字詞鍵入的順序會影響搜索結果,要進一步限製搜索,隻需加入更多字詞,例如,要安排去夏威夷度假,隻需鍵入“度假 夏威夷”,兩個關鍵詞中間有空格。
(6)GOOGLE將網頁級別與完善的文本匹配技術結合在一起,可找到最重要、最有用的網頁。作為組織管理工具,網頁級別利用了互聯網獨特的民主特性及其巨大的鏈接結構。GOOGLE除了根據網頁的得票數(即鏈接)純數量評定其重要性之外,還要分析投票的網頁質量。“重要”的網頁所投出的票就會有更高的權重,並且有助於提高其他網頁的“重要性”。也就是說,重要的、高質量的網頁會獲得較高的網頁級別。GOOGLE在排列其搜索結果時,都會考慮每個網頁的級別。GOOGLE所關注的不隻是關鍵詞在網頁上出現的次數,它還對該網頁的內容以及該網頁所鏈接的內容進行全麵檢查,從而確定該網頁是否滿足檢索要求。GOOGLE目錄中收錄的網址已達10億個以上,這在同類搜索引擎中是首屈一指的。這些網站的內容涉獵廣泛,無所不有。
(7)其他特色功能如“網頁快照”(SNAPSHOT),即直接從數據庫緩存(CACHE)中調出該頁麵的存檔文件,而不實際鏈接到網頁所在的網站(圖像等多媒體元素仍需從目標網站下載),這方便了用戶在預覽網頁內容後決定是否訪問該網站,或者在網頁被刪除或暫時無法鏈接時,方便用戶查看原網頁的內容。此外,每日要點(天氣、股票報價)、參考工具(計算器、單位換算)、選擇關鍵字(同義詞搜索、字典定義、拚寫檢查)、本地搜索(本地搜索、電影放映時間、房地產和住房)、旅行策劃(貨幣換算、地圖)、查詢優化(加號(+)操作符、相關搜索、填空)、按數字搜索(郵編區號、手機號碼)等特色功能為公眾提供了多角度和全方位檢索信息的方便。
(8)手氣不錯。在輸入搜索字詞後,可以嚐試使用“手氣不錯”按鈕,它可以將用戶直接帶到GOOGLE針對用戶的查詢所找到的相關性最高的網站。用戶完全看不到搜索結果頁,不過如果用戶看到了,“手氣不錯”網站會列在最頂端。例如,如果查找斯坦福大學(STANFORDUNIVERSITY)主頁,隻需輸入STANFORD並點擊“手氣不錯”,而不必點擊GOOGLE搜索按鈕。GOOGLE會將用戶直接帶到WWW。STANFORD。EDU。
3.YAHOO(WWW。YAHOO。COM)
YAHOO是世界上最著名的目錄索引,是搜索引擎的開山鼻祖之一。1994年,美國斯坦福大學電機工程係的兩位博士生大衛·費羅(DAVIDFILO)和楊致遠(JERRYYANG)開始編製一個自己感興趣的INTERNET上的站點目錄,這就是最原始的YAHOO。1995年,兩位主要創建人成立了YAHOO公司,很快就將YAHOO變成了一個可定製的數據庫,開發了可定製的軟件,旨在幫助互聯網用戶有效地查找、識別和編輯互聯網上存儲的信息資源,尤其以其目錄式分類查詢聞名。同年NETSCAPENAVIGATOR直接引用YAHOO作為瀏覽器的搜索引擎。目前YAHOO是最流行的搜索引擎之一。YAHOO號稱“搜索引擎之王”,也是目前最重要的搜索服務網站,在全部互聯網搜索應用中所占份額高達36%左右。YAHOO擁有第一流的 WEB目錄和最佳的新聞鏈接以及許多附加服務,因而,也有人將其專門獨立為目錄索引類搜索引擎(SEARCHINDEX/DIRECTORY)。YAHOO最早以人工分類和網址搜集見長,後斥資26億美元收購了INKTO-MI、OVERTUNE(全球最大搜索廣告商務提供商)、FAST、ALTAVISTA、KELKOO(歐洲第一大競價網站)五家國際知名搜索服務商,用一年多時間打造出雅虎搜索技術(YST技術)。
除主站點(MOTHER YAHOO)外,YAHOO還設有美國都會城市分站點(YAHOOCITIES,如芝加哥分站)、國別分站點(如雅虎中國)和國際地區分站點(如YAHOOASIA)。YAHOO憑借其遍布全球的網站渠道,可以支持38種語言搜索,雅虎中國網站(WWW。YAHOO。COM。CN)是YAHOO公司為全球中文讀者開發的網站,於1999年9月正式開通,是YAHOO在全球的第20個網站,支持全文檢索和新聞檢索,可以檢索國標碼簡體字、大五碼繁體字、圖形中文等中文網頁。2005年8月被阿裏巴巴全資收購,現在的核心業務仍是搜索。
YAHOO屬於目錄索引類搜索引擎,可以通過兩種方式在上麵查找信息,一是通常的關鍵詞搜索,二是按分類目錄逐層查找。YAHOO現與GOOGLE合作,默認采用GOOGLE搜索引擎提供網頁搜索。YAHOO主頁中有檢索選擇及輸入框,頁麵左邊欄可選查HOTJOBS、MAPS、FINANCE、YELLOWPAGE等。輸入檢索詞後點擊SEARCH按鈕可進行檢索。主頁下部是詳盡的分類目錄,供目錄搜索用。
YAHOO的搜索技巧:下麵以中國雅虎為例介紹雅虎搜索引擎的使用技巧。
(1)雙引號帶來的精確結果。當輸入較長的查詢詞時,雅虎搜索引擎會依據查詢詞的字符串做拆字處理。若需要得到精確、不拆字的搜索結果,可在查詢詞前後加上雙引號(中文雙引號、英文雙引號都可以)。例如:當輸入四川大學考研時,係統會將查詢詞自動拆成“四川大學”、“考研”等字符串,如果輸入“四川大學考研”,搜索結果將精確匹配為“四川大學考研”。當然,在精確匹配搜索的情況下,搜索結果數會比較少。
(2)巧用空格。如果使用某個查詢詞進行搜索無法找到準確的結果,不妨在查詢詞適當的位置加個空格,可以找到更精確的結果。例如:想查詢四川地區所有大學的信息,如果搜索“四川大學”,就隻能得到四川大學的結果,很難找到其他學校,這是因為“四川大學”這個詞本身就是一所大學的名字。如果試著在中間加個空格,搜索“四川 大學”,就可以得到四川地區所有大學的信息了。雖然搜索引擎可以自動將不同的詞語拆分後搜索,但是我們最好在不同詞語之間輸入空格,尤其是在查詢詞比較複雜時,這樣得到的結果會更準確。
(3)減號的妙用。空格加減號,可以去掉無用信息。例如:搜索“聯想-手機”,搜索結果就排除聯想關於手機的信息。
(4)大小寫處理。搜索引擎會把所有的字母當做小寫處理。例如:搜索YAHOO和YAHOO得到的結果是一樣的。
(5)高級搜索語法。高級搜索語法包含站內搜索(SITE)、頁麵標題搜索(TITLE)、網頁搜索(LINK)、限定搜索結果的來源(SITE)和精確搜索URL。站內搜索(SITE)就是定位搜索,是查詢某個網站上的相關信息,也就是對搜索結果的來源進行限定,如果隻想查詢某一個網站上的相關信息,可以使用SITE或者DOMAIN或者HOSTNAME命令來把搜索範圍限定在這個網站中,提高查詢效率。例如:搜索新浪的NBA頻道,可以輸入“NBASITE:SINA。COM。CN”。注意,查詢詞和SITE命令之間要用空格隔開;“SITE:”和網址名之間,不要加空格。
頁麵標題搜索(TITLE)就是用於針對頁麵標題進行搜索。例如:搜索“TITLE:張三”,搜索引擎會搜索到所有網頁標題中包含“張三”的網頁。由於網頁的標題通常會準確地描述網頁的內容,所以使用“TITLE:”進行搜索的效果可能更精確。注意:超文本窗口標題的開始和結束,被顯示在瀏覽器頂端的標題欄中。
網頁搜索(LINK)就是用於查找所有鏈接到某個網址的網頁。例如:搜索“LINK:HTTP:∥WWW。YAHOO。COM。CN”,會搜索到所有鏈接到“WWW。YAHOO。COM。CN”的網頁;搜索“姚明LINK:HTTP:∥WWW。YAHOO。COM。CN/”或者“LINK:HTTP:∥WWW。YAHOO。COM。CN/姚明”,會搜索到所有鏈接到“WWW。YAHOO。COM。CN”的網頁中包含“姚明”一詞的網頁。注意:搜索時不能缺少“HTTP:∥”。
精確搜索URL就是用於精確搜索URL。例如搜索“URL:HTTP:∥CN。YAHOO。COM”,搜索引擎隻會搜索到一個結果———雅虎中國。
4.搜狗(WWW。SOGOU。COM)
搜狗是搜狐公司於2004年推出的完全自主技術開發的全球首個第三代互動式中文搜索引擎,是一個具有獨立域名的專業搜索網站。它用一種人工智能的新算法分析和理解用戶可能的查詢意圖,給予多個主題的搜索提示,在人機交互的過程中引導用戶快速準確定位自己所關注的內容,幫助用戶快速找到相關搜索結果。
搜狗的檢索規則:
(1)關鍵詞檢索。搜狗的頁麵由功能模塊、檢索輸入框、檢索按鈕和實用工具四部分組成。進行簡單的關鍵詞檢索隻需在檢索框中鍵入表達檢索要求的關鍵詞或檢索式,執行檢索即可。在檢索框上方依次排列了九大功能模塊,分別是新聞、網頁、音樂、圖片、視頻、問答、地圖、說吧、更多。用戶可以根據需要選擇相應的模塊進行檢索,如不進行選擇,係統默認為網頁檢索。
(2)實用檢索。搜狗首頁上還列出了包括股票查詢、天氣預報、IP查詢、手機號碼等共15項實用功能檢索類目,隻需點擊相應類目並輸入檢索內容,即可鏈接到與該內容有關的站點或網頁,對檢索日常實用信息非常方便。
(3)高級檢索。搜狗的高級檢索主要針對檢索詞和檢索結果進行相應設定,如設定了是否拆分檢索詞、檢索詞位於何處、在指定站內搜索、檢索結構的排序方式、指定檢索文件格式和每頁顯示檢索結構等。
5.新浪(WWW。SINA。COM)
新浪(SINA)是最大的中文門戶網站,同樣也推出了搜索引擎收費索引項目。
新浪自建獨立的目錄索引,共設15大類目錄,10000多個子目,收錄網站達20餘萬個,是規模最大的中文搜索引擎。它采用百度搜索引擎技術,提供網站、中文網頁、英文網頁、新聞、軟件、遊戲等查詢項目,支持中文域名。新浪搜索頁麵搜索規則是:默認綜合搜索,涉及網站、網頁、新聞等內容。網站搜索僅限於自身目錄中的注冊網站。網頁搜索時,調用百度搜索引擎進行查詢。它具備相關搜索功能,如檢索有“清華大學”的信息,會自動列出“北京大學”等其他院校的鏈接供查詢。網站排名根據目錄及網站信息與搜索條件的關聯程度確定。
6.其他特色搜索引擎
(1)ASK(WWW。ASK。COM)。ASK原名ASKJEEVES,起初隻是一個元搜索引擎,後以目錄搜索為主,在2002年初收購TEOMA全文搜索引擎後,很快便成為以實現自然語言檢索為特色的全文搜索引擎,並躋身著名搜索引擎之林,在國際互聯網上贏得一席之地。
ASK首頁中有檢索選擇及輸入框,輸入檢索詞後點擊SEARCH按鈕可查。ASK的搜索功能包括:支持簡單搜索、支持詞組搜索、支持高級搜索。其特色是支持自然語言搜索。ASK支持自然語言搜索的實現方式是支持自然語言提問,它的數據庫裏已經儲存了1000多萬個問題的答案,隻要用英文輸入一個問題,它就會給出問題的答案。如果問題答案不在它的數據庫中,那麼,它會列出一串與問題類似的問題和含有答案的鏈接供選擇。
用自然語言具體檢索ASK時,可以用特殊疑問句或一般疑問句提問。通常,用特殊疑問句提問效果較好。可以提的問題諸如:WHATISTHETIME?WHY SNOWISWHITE?WHEREISROME?WHEREISCHINA?WHOINVENTEDTHECOMPUTER?WHICHYEARWASTHEAIRPLANEINVENTED?WHATISTHEDATETODAY?等等。也就是說,當遇到一些屬於事實型、原理型的問題時,使用是很方便的。
基於自然語言理解的檢索技術一直是計算機信息檢索中的一個引人入勝的、富有挑戰性的課題,其目標是使廣大用戶能用自己熟悉的母語同計算機對話。自然語言理解係統可以用作專家係統、知識工程、情報檢索、辦公室自動化的自然語言人機接口,有很大的實用價值。ASK是真正實現自然語言檢索的一個搜索引擎實例。
實際上,關於自然語言處理研究在電子計算機問世之初就開始了,並於20世紀50年代初開展了機器翻譯試驗。計算機對自然語言的理解一般是從實用的角度進行評判的:如果計算機實現了人機會話、或機器翻譯、或自動文摘等語言信息處理功能,則認為計算機具備了自然語言理解的能力。目前在搜索引擎方麵主要應用的自然語言理解技術是機器翻譯與語義理解技術。應用了這些技術的搜索引擎被稱為智能搜索引擎。由於智能搜索引擎將信息檢索從目前基於關鍵詞層麵提高到基於知識(或概念)層麵,對知識有一定的理解與處理能力,因而具有信息服務的智能化、人性化特征,這是未來搜索引擎技術或信息檢索技術的重要發展方向。
(2)SCIRUS(WWW。SCIRUS。COM)。SCIRUS是目前互聯網上最全麵、綜合性最強的科技文獻門戶網站之一,由ELSEVIER科學出版社開發。與其他搜索引擎最大的區別在於,SCIRUS既可以搜索網站(WEB),也可以搜索期刊資源,而且專注於科技方麵的內容。
SCIRUS可檢索免費資源和期刊資源。SCIRUS涵蓋多個與科技相關的網站,包括9000萬個網頁,以及1700萬個來自其他信息源的記錄。SCIRUS覆蓋的學科範圍包括:農業與生物學、天文學、生物科學、化學與化工、計算機科學、地球與行星科學、經濟、金融與管理科學、工程、能源與技術、環境科學、語言學、法學、生命科學、材料科學、數學、醫學、神經係統科學、藥理學、物理學、心理學、社會與行為科學、社會學等。SCIRUS的檢索界麵友好,簡潔方便,分為基本檢索和高級檢索兩種方式。
SCIRUS的基本檢索非常簡單,用戶僅需輸入檢索詞,按回車(ENTER)鍵或單擊SEARCH按鈕即可檢索到相關資料。此外,用戶還可以對檢索結果加以限製,可來自於期刊、來自於網絡或與輸入檢索詞精確匹配。高級檢索支持邏輯檢索符“AND”、“OR”、“NOT”的應用,可以對檢索結果進行諸多限製,如檢索入口、匹配方式、出版時間、文獻類型、文件格式、文獻來源、學科範圍等。