正文 第十七章 語料庫及其種類(1 / 2)

語料庫指大量語言材料的集合體。在計算機出現之前,研究者也建有語料庫,不過規模較小、範圍較窄。Kennedy(1998,pp.1319)概述了這些早期手工語料庫在五個方麵的應用情況:(1)《聖經》及文學研究;(2)詞典編纂;(3)方言研究;(4)語言教學研究;(5)語法研究。隨著計算機的出現,語料庫通常指以電子形式保存的語言材料,其基本特征包括:機讀性(machine·readability),真實性(authenticity)和代表性(representativeness)。這些特征使得新型語料庫具有早期手工語料庫所無法比擬的優越性。難怪有語言學家將機讀語料庫比作語言學研究的望遠鏡和顯微鏡,使用它們可使語言學家看得更遠,看得更細,從而使他們能夠發現更多的語言現象,挖掘出更多的語言事實(Stubbs,1996)。近年來,計算機技術的突飛猛進,使得語料庫無論在規模的大小、樣本的多樣性還是在使用的便捷度方麵都發生了巨大的變化。本文所講的語料庫指的便是機讀語料庫。

在語料庫的建設中,由於建庫者的目的不同,所收集的語言材料自然也就不同。大致說來,語料庫主要包括以下幾種:(1)通用語料庫(generalcorpus),亦稱參考語料庫(referencecorpus)、均衡語料庫(balancedcorpus)或核心語料庫(corecorpus)。通用語料庫由許多不同體裁的語篇構成,建庫者的目的在於借助這類語料庫來全麵描述某一語言或語言變體。世界上第一個根據係統性原則采集樣本的機讀語料庫布朗語料庫(BrownCorpus)便屬於通用語料庫。其他著名的通用語料庫還有蘭開斯特—奧斯陸/卑爾根語料庫(LOB)、英國國家語料庫(BNC)等。(2)專用語料庫(specialized/specialcorpus)。指的是由某一特定類型的語篇構成的語料庫,可以是由某一學科的語言材料構成的語料庫,如法律話語語料庫、新聞話語語料庫等;也可以是由某一體裁的語言材料構成的語料庫,如學術話語語料庫、性別話語語料庫等;甚至還可以是由一些特殊類型的語言材料構成的語料庫,如計算機手冊語料庫、藥品說明書語料庫等。密西根學術英語口語語料庫(MICASE)、香港科技大學計算機科學語料庫(HKUSTComputerScienceCorpus)等就屬於專用語料庫。(3)對應語料庫(comparablecorpora)。指的是按照相同的取樣原則或標準建立的不同語言(如漢語和英語)或者同一語言不同變體(如印度英語和南非英語)的語料庫。對應語料庫用於進行語言對比或翻譯研究,為了保證所對比的語言或語言變體之間具有可比性,對應語料庫的取樣原則或標準必須統一,因為語言並非整齊劃一、靜止不變,相反,語言會隨著地域、社會、時間、語域等因素的變化而有所不同。國際英語語料庫(ICE)是由不同英語變體構成的典型對應語料庫。(4)平行語料庫(parallelcorpora)。通常指由源語語篇以及這些源語語篇的外語譯文所構成的語料庫,可以是一源一譯,也可以是一源多譯。此外,平行語料庫也可指同時用兩種或多種語言生成的語篇(如同時用歐盟的所有官方語言出版的歐盟規章製度)所構成的語料庫。業已建成的平行語料庫有英語—挪威語平行語料庫(English·NorwegianParallelCorpus)、北外的漢英平行語料庫(PCCE)等。(5)學習者語料庫(learnercorpus)。指的是由第二語言或外語學習者產出的語篇所構成的語料庫,目的在於找出學習者與學習者之間或學習者與母語者之間存在的差異。國際英語學習者語料庫(ICLE)就是最著名的學習者語料庫之一,該語料庫包含多個子語料庫,由來自不同語言背景的英語學習者所寫的短文構成;其他同類語料庫還有劍橋學習者語料庫(CLC)、朗文學習者語料庫(TheLongmanLearners·Corpus)、中國英語學習者語料庫(CLEC)等。(6)曆時語料庫(diachroniccorpus/historicalcorpus)。由同一語言在不同曆史時期所生成的語篇構成,用於考察語言的發展演變過程。最著名的英語曆時語料庫是赫爾辛基語料庫(Helsinkicorpus),語料為公元8世紀到18世紀之間生成的英語語篇。(7)監控語料庫(monitorcorpus)。用於追蹤某一語言當前變化的語料庫。這類語料庫屬於動態語料庫,每年、每月甚至每天都會同比例增加新的內容,因而規模不斷增長。建立監控語料庫的設想最早由Sinclair(1991)提出,英語語料庫(theBankofEnglish/BoE)是舉世公認的監控語料庫,其他還有全球英語監控語料庫(theGlobalEnglishMonitorCorpus)、語言互動及自動化語篇提取分析語料庫(AVIATOR)等。