伦敦青少年语料库
COLT(卑尔根伦敦青少年语料库)最早由Anna-Brita Stenström和Leiv Egil Breivik开始于1993年春天。该项目得到挪威研究委员会(the Norwegian Research Council)的立项。主要资助来自挪威科学院(the Norwegian Academy of Science),Meltzer 基金会,以及卑尔根大学文学院。其他参加该项目的人员包括一些卑尔根大学的研究生,其中Gisle Andersen成果最丰,最后留校担任教员。
COLT中包括的口语语料主要采集自伦敦的五个区的中学生话语。他们采用的语料收集方法是朗文集团提供的与BNC一样的采集方法,最终的书面形式的转写也都是1994到1995年在朗文完成的,语法/词性标注是在Lancaster大学,特别是Elizabeth Eyes的帮助下完成的。
COLT由50小时的声音材料和转写的50万单词的文本形式组成。
研究者一共雇用了31名13到17岁的男女中学生,并且他们来自不同的社会经济背景的家庭(被分为五个级别)。
COLT取样上的问题之一:缺乏家庭会话
COLT is the first large English Corpus focusing on the speech of teenagers. It was collected in 1993 and consists of the spoken language of 13 to 17-year-old teenagers from different boroughs of London. The complete corpus, half a million words, has been orthographically transcribed and word-class tagged, and is a constituent of the British National Corpus.
http://torvald.aksis.uib.no/colt/
另见trends in teenage talk
COLT(卑尔根伦敦青少年语料库)最早由Anna-Brita Stenström和Leiv Egil Breivik开始于1993年春天。该项目得到挪威研究委员会(the Norwegian Research Council)的立项。主要资助来自挪威科学院(the Norwegian Academy of Science),Meltzer 基金会,以及卑尔根大学文学院。其他参加该项目的人员包括一些卑尔根大学的研究生,其中Gisle Andersen成果最丰,最后留校担任教员。
COLT中包括的口语语料主要采集自伦敦的五个区的中学生话语。他们采用的语料收集方法是朗文集团提供的与BNC一样的采集方法,最终的书面形式的转写也都是1994到1995年在朗文完成的,语法/词性标注是在Lancaster大学,特别是Elizabeth Eyes的帮助下完成的。
COLT由50小时的声音材料和转写的50万单词的文本形式组成。
研究者一共雇用了31名13到17岁的男女中学生,并且他们来自不同的社会经济背景的家庭(被分为五个级别)。
COLT取样上的问题之一:缺乏家庭会话
COLT is the first large English Corpus focusing on the speech of teenagers. It was collected in 1993 and consists of the spoken language of 13 to 17-year-old teenagers from different boroughs of London. The complete corpus, half a million words, has been orthographically transcribed and word-class tagged, and is a constituent of the British National Corpus.
http://torvald.aksis.uib.no/colt/
另见trends in teenage talk