Spoken Chinese Corpus - LLSCC

xiaoz

永远的超级管理员
Staff member
The Lancaster Los Angeles Spoken Chinese Corpus (LLSCC)

The Lancaster Los Angeles Spoken Chinese Corpus (LLSCC) is a corpus of spoken Mandarin Chinese. The corpus is composed of 924,242 words of dialogues and monologues, both spontaneous and unscripted, in 70,569 sentences and 48,938 utterance units (paragraphs). LLSCC has six subcorpora, which are described below.

Conversations: 6 transcripts of face-to-face conversation, totalling 60,806 words;

Telephone Calls: 120 transcripts of telephone conversation between overseas Chinese and their families in China, totalling 295,026;

Play & Movie Transcripts: 12 transcripts of actual performances of TV plays, operas and movies, totalling 80,446 words;

TV Talk Show Transcripts: 20 transcripts of the CCTV talk show Shi Hua Shi Shuo (Tell It Like It Is), totalling 118,588 words;

Oral Narratives: 49 narratives of native Beijing residents, totalling 102,262 words;

Edited Oral Narratives: 100 Chinese profiles (Beijing Ren edited by Zhang Xinxin & Sang Ye), totalling 267,114 words.

The corpus is XML-compliant. Each corpus file is composed of a corpus header and a text body. The header gives general information of a corpus file. In the body part, utterance units (or paragraphs), sentences and tokens are marked up, with each token also annotated for part of speech.

The corpus is a joint project undertaken by Dr. Richard Xiao (UCREL of Lancaster University) and Professor Hongyin Tao (University of California Los Angeles). Regrettably, this corpus cannot be released to the public for the time being because of copyright restrictions.
 
If you have any spoken Chinese data, especially of face-to-face conversation or some genres not yet included in the above corpus, which you are willing to contribute, we will be happy to include them in the corpus and acknowledge your contributions.
 
我国自己的大规模口语库即将建成
[ 作者:姚从权 转贴自:中国社会科学院院报 2004/11/30 点击数:373 文章推荐:田诤 ]






我院A类重大课题“现代汉语口语语料库”即将结项。据语言所所长兼该课题主持人沈家煊介绍,“现代汉语口语语料库”课题从立项批准至今历时近4年,经过院属有关部门和课题组成员的共同努力,已取得了丰硕的成果,现已进入课题结项阶段。



沈家煊说,我院把现代汉语口语语料库列入院A类重大课题,是有深刻的国际背景和国内原因的。现代汉语口语语料库的建设开始阶段都是书面语的文本语料库,然而学者们早就认识到,和书面文献一样,口语作为一种文献,也是一个民族极其宝贵的文化资源。国际上有远见的研究者早在录音技术普及之初,就已经看到了保存这项资源的广阔前景和重要意义。现代成熟的录音技术以及计算机和多媒体技术,更使得大规模地开发和利用这项资源成为现实。大规模口语语料库的出现,尤其是国家级的大型口语语料库的不断建设和开发,使得发达国家在语言信息技术的应用方面占尽先机,甚至取得垄断地位。目前欧洲地区成规模的英语口语语料库就有:伦敦-伦德语料库,英国国家语料库口语子库,国际英语语料库口语子库,英语口语语料库,科林-伯明翰语料库口语子库,伦敦少年语言伯亘语料库等。在口语资源中,方言的口语资源有其特殊的地位。一个民族的历史和文化,与它的方言血脉相联。中国方言系统复杂,这方面的资源尤为丰富,然而却长期得不到重视,没有上升到语言信息资源的高度来看待。美国和日本等国家却非常重视汉语方言资源的搜集和保存。目前,国外一些高科技公司纷纷用高薪和优厚待遇“挖走”我国的人才来开发自己的语料库,而面向语音信息技术的口语语料库,正成为开发的前沿。从学术研究的角度看,作为研究对象的语言,活生生的口语才是第一性的,语言结构的规律和语言演变的规律离开了口语材料是无法真正掌握的。面对这样的挑战,如果我们不积极应战,早日建设我国自己的大规模口语语料库,很可能在可预见的将来丧失母语的研究中心地位,失去在汉语语言工程开发和应用上本应属于我们的优势。



据沈家煊介绍,“现代汉语口语语料库”下设三个子库:北京地区现场即席话语语料库,汉语方言自然口语语料库,汉语自然口语语音标注库。北京地区现场即席话语语料库用科学的取样方法现场录音取样北京地区即席话语650小时,用先进的MD数字录音,用wav格式数字化,供长期保存使用。这些语料累计刻成光盘975张,转写成文本累计约890万字,并已完成校对工作。即席话语和做事是交织在一起的,目前国外一些先进的口语语料库还配有记录话语和做事的录象视频材料。该课题在原来计划之外增加了一部分视频材料,用先进的数码摄像机拍摄,累计现场取样150小时,用mpeg格式数字化,供长期保存用。视频语料转写成文本约340万字。



汉语方言自然口语库包括上海、西安、广州、北京、重庆、厦门六个方言点的自然口语语料,另加一个方言字音库。自然口语语料用光盘和移动存储器存储,既有语音形式又有从语音转写的汉字文本,文本语料用国际音标标注方言语音。与北京地区现场即席话语语料库的不同之处是,方言的自然口语语料主要围绕一定的话题采集,以便于今后从事方言之间的比较研究。目前已收集上述六个方言点的口语语料共600小时,文本转写和国际音标标注工作到今年年底将完成80%。目前已完成与建库有关的论文2篇:《现代汉语方言自然口语语料库构件的若干问题》、《汉语方言自然语料库对汉语语法研究的重要性》,根据自然口语语料编写的《广州方言语法手册》和《上海方言语法手册》已完成初稿。



汉语自然口语语音标注库要对自然口语的语料作精细的语音韵律标注,这对提高语音合成和语音识别的质量,实现高水准的语音人机对话都具有十分重要的意义。目前已经按照计划完成了预定任务:建立了20对发音人,约20小时的口语对话语音库;完成了所有语料从声音到文字的转写,包括各种副语言学和非语言学现象的转写;挑选了4个小时的“语音平衡”口语语料进行了精细的语音标注,包括音段切分、韵律结构标注、重音结构标注、话轮信息、副语言学和非语言学等现象的标注;进行了语音特性的分析,包括对韵律标注和音段标注的结果统计分析,韵律边界和重音的声学表现分析,初步归纳了声学表现规律,找出了韵律边界和重音的主要声学征兆,为正确预测和识别自然口语中的韵律边界和重音提供了重要依据;初步探索了自然口语与朗读话语的差异;进行了口语自动韵律标注研究,采用“决策树”(C4.5)方法,研制了一个汉语自然口语的韵律自动标注系统,可以大大降低语料库的韵律标注过程中的人工参与,不但提高了语料库的标注效率,而且有助于提高韵律标注的一致性;汉语口语音段标注系统研究进展顺利,推出了SAMPA-C音段标注规范,很快将被国际SAMPA网站采用;积极进行汉语口语韵律标注系统的研究,推出了C-ToBI韵律标注规范,这个标注规范正在成为国家语音技术接口规范;基于口语标注的语音学和语言学信息统计,按照转写的汉字,进行了自动拼音转写和分词处理,得到了有调音节出现频度表、无调音节出现频度表、声韵母出现频度表、词汇出现频度表。



沈家煊指出,虽然课题已取得不少重要学术成果,但还有许多工作要做。口语语料的转写工作特别费事费力,一个小时的录音语料转写一般需要40小时,再加上文本的校对,工作十分繁重。特别是汉语方言自然口语的转写和校对,困难的程度比原来预计的要大得多。目前存在的主要困难是厦门、广州、上海三地的转写文本需要懂当地方言的专家来进行,成本很高,完成既定任务经费比较紧张。建库和检索软件有现成的可以购买,但有的要自行开发,仅靠使用课题的额定经费是远远不够的。现在采取的是与其他单位合作的办法,得到其他单位的资金支持。



在谈到下一步工作计划时,沈家煊说,现代汉语口语语料库的发展前景是十分广阔的。在得到后续经费支持的前提下,北京地区现场即席话语语料库计划用Oracle大型数据库这个工具开发多摸态语料库的管理与检索工具。另外,拟编写第一部基于口语语料库的汉语口语词典和口语语法。汉语方言自然口语库由于经费限制目前只包括六个方言点的自然口语语料,如有后续经费可以继续扩大方言点的范围,并改进和优化方言口语语料库的管理和检索软件。汉语自然口语语音标注库计划做以下工作:一是建立语音发音生理参数数据库,收集和建立国内第一个发音生理参数库,开展发音机制研究,为参数语音合成建模提供数据;二是收集儿童语料,建立儿童语音库,进行语音认知研究和儿童语音习得研究;三是继续收集带真实情感的语音数据,进行情感语音的分析和研究。(本报记者姚从权)
 
“现代汉语口语语料库”下设三个子库:北京地区现场即席话语语料库,汉语方言自然口语语料库,汉语自然口语语音标注库。

“北京地区现场即席话语语料库”是顾曰国教授主持创建的。“汉语自然口语语音标注库”是李爱军(女)研究员主持创建的。方言具体是谁主持的我就不清楚了,总之是语言所方言研究室他们建的。
 
回复:Spoken Chinese Corpus - LLSCC

以下是引用 xujiajin2005-8-26 14:50:24 的发言:
“现代汉语口语语料库”下设三个子库:北京地区现场即席话语语料库,汉语方言自然口语语料库,汉语自然口语语音标注库。

“北京地区现场即席话语语料库”是顾曰国教授主持创建的。“汉语自然口语语音标注库”是李爱军(女)研究员主持创建的。方言具体是谁主持的我就不清楚了,总之是语言所方言研究室他们建的。

李爱军:“汉语自然口语语音标注库”
source:
http://sp.cs.tsinghua.edu.cn/~fzheng/PAPERS/2000/0010E_ICSLP_CASS_LAJ(ZF).pdf
http://www.corpus4u.org/upload/forum/2005082702565275.pdf
 
Back
顶部