關於建立小型維吾爾族學生漢語口語語料庫的設想
語言研究
作者:鄧雪琴 於麗
基金項目:教育部人文社會科學研究青年基金項目(項目編號12XJJC740002);教育部人文社會科學研究項目(項目編號10XJJA740002)
摘 要:論文首先對建立小型維吾爾族學生漢語口語語料庫的背景做了簡單的介紹,在此基礎上,分析了小型維吾爾族學生漢語口語語料庫建設的意義並提出了建設方法。
關鍵詞:小型;維吾爾族;漢語口語;語料庫
作者簡介:鄧雪琴(1977-),女,新疆醫科大學語言文化學院講師,碩士,研究方向:第二語言教學。
[中圖分類號]:H1 [文獻標識碼]:A
[文章編號]:1002-2139(2012)-23--01
一、背景
口語語料庫屬於學習者語料庫,學習者語料庫作為一種專用語料庫,在語料庫的多元發展中可謂異軍突起,是近十幾年才發展起來的一股新生力量。它是通過收集語言學習者各種書麵語和口語的自然材料建立的一種專用語料庫。學習者語料庫的優勢在於它能夠提供有關學習者語言發展的全麵信息。利用學習者語料庫我們可以研究學習者語料的詞彙、語法和篇章方麵的問題。世界上最早的學習者語料庫是20世紀80年代末建立起來的朗曼學習者語料庫。國內對外漢語教學界最早建立的漢語學習者語料庫是北京語言大學1995年發布的中國大陸留學生中介語語料庫——漢語中介語語庫係統。此後10年間,國內加工建設了一批中介語語料庫,例如南京師範大學的外國學生漢語中介語偏誤信息語料庫,來源於作文和練習,80萬字;暨南大學的華文學生中介語語料庫,來源於作文,300萬字;北京語言大學的HSK動態作文語料庫,來源於HSK高等作文試卷,400萬字;國立台灣師範大學的華語病句語料庫,來自於課堂對話,字數不詳;新疆大學的維漢中介語語料庫,來源於作文和練習,字數不詳(崔新丹,2008)。
當然,也有其他語料庫屬於內部自建語料庫而無法查實。根據調查可以發現主要的學習者語料庫建設有如下特征:1、如今的中介語語料庫數量少,僅限於幾所高校和研究所。2、類型單一,大部分屬於書麵語語料庫,口語語料庫則幾乎無人問津,因為學習者口語語料庫建設難度大、耗時、費力。3、數據庫資源的利用限製大,除了HSK作文語料庫以外,大部分數據庫不實行對外開放,對從事第二語言教學和科研造成了極大的製約。
就一般語言理論的研究而言,學習者口語語料是研究人類認知、習得和使用語言的重要資源;即使是中介語錯誤,也不再被視為偏離常規的變異形式,而被看做是學習者對第二語言係統積極假設並檢驗假設的嚐試性結果;特征性錯誤往往揭示語言係統發展的階段與規律。就第二語言習得與外語教學研究而言,學習者口語語料庫的建設不僅必要,而且迫切。(乃衛興,2007)
二、小型維吾爾族學生漢語口語語料庫的建設
(一)建立大型語料庫的局限性
大型語料庫公認的優點在於語料數量龐大、語料樣品多、產出數據複雜而且代表性強,
然而在可及性和數據產出以及資源享用上仍然存在問題 。
1、大型漢語語料庫過於龐大,數據輸出冗餘,往往可及性較低。由於大型語料庫包含的語料來源廣,類型多,因此在進行語料搜索的時候容易產生大量沒有進行整理的紛繁複雜的數據,需要研究者自行分類。如上文所述的國內漢語中介語語料庫,語料大都在百萬條左右,對於現實的課堂教學來說過於龐大。