请教:英语单词的发音能建库研究吗?

回复: 请教:英语单词的发音能建库研究吗?

不知道有没有人研究过,英语单词的发音能建库研究吗?
请教各位前辈

建库研究的目的是什么?研究单词的发音有什么价值?口语库不是可以满足研究发音的需求吗?
 
回复: 请教:英语单词的发音能建库研究吗?

语音语料库的建设和作用
殷治纲


语音语料库的建设和作用
殷治纲

语音语料库是指为某一目的而录制的语音信号及其标注的集合。它现在已经成为语音研究和语音工程中不可或缺的重要技术手段和工具。
虽然大多数人对这一概念还不熟悉,但实际上它已经被应用在日常生活中的很多领域。例如公交车上的自动报站系统、车站和机场的自动车次与航班播报等,都使用了语音语料库技术。在这些系统中,人们听到的那些甜美的声音,并不是真人播报的,而是利用事先录好的语音库数据,使用语音合成(简称TTS,即TexttoSpeech)技术实时合成播放出来的。
不仅语音合成领域,在语音识别中,语音语料库也是必不可少的。现在手机的语音拨号功能,IBM公司的VIAVOICE软件以及微软公司在新版WORD中集成的通过语音输入文字的功能,都属于语音识别(简称ASR,即AutomaticSpeechRecognition)的范畴。目前常用的语音识别技术,一般要事先录制海量识别训练语料库来“训练”识别系统(实际就是让识别软件根据相关技术和算法计算并存储语音信号与其文字内容间的映射数据),以使语音识别软件在实际应用中将发音人的语音信息根据最大概率识别成相应的文字信息。
除了上述语音合成和语音识别等工程领域,现代语音学各个领域的理论研究也无不依赖语音语料库的支持。在以往技术条件不具备的时代,语音学家只能根据“口耳之学”进行内省式的探索研究,这往往是不够客观准确的。现在有了语料库技术的支持,语音学家通过对大量语料库数据的统计、分析,可以更方便地从中发现具有普遍意义的客观规律。
基于语音语料库的这种重要地位,我院语言所语音室(以下简称语音室)一直很重视对它的研究与建设。通过几代学者的努力,语言所语音室已经在国内成为这一领域的领先者。他们先后承担了“863计划”、“973计划”、国家自然科学基金、国家社会科学基金、美国自然科学基金等一系列国家、国际级科研项目,并建立了众多里程碑式的语音语料库。
上世纪90年代,语音室承担了国家“863计划”语音识别语料库和“863计划”语音合成语料库项目,成为国内最早的国家级大型语料库项目的研究者之一。之后,语音室又制作了单音节和两音节语音语料库,覆盖了汉语所有单音节和两音节音联及声调搭配关系,并配有语图和查询软件,是语音合成和教学的语料库典范。
1999年,完成ASCCD朗读语篇语料库,它包含各类体裁的18篇短文,由五男五女共十位发音人朗读,具有韵律、句法和音段标注。这一课题使语音语料库的研究从以往的音节和孤立句扩展到了语篇。
2000年,在美国自然科学基金资助下,语音室与清华大学、美国约翰-霍普金斯大学合作的CASS口语语料库及标注项目,使语音语料库从朗读语料扩展到了口语语料;2001年,面向通讯领域的语音学研究,制作闻易电话语料库,采用了电话通道录制完成。
2002年,语音室承担“973计划”电话会话语料库音段与韵律标注项目。2002年~2005年,完成国家社科基金“十五”重点项目资助CADCC自然口语语料库项目,录制20多对发音人即兴口语对话。这些项目使语音研究的对象从单人陈述式语料转向了两人交互式即兴语料,从而使语音研究的范围大大扩展:话题、话轮、语用功能、副语言学现象……
2002年,与NOKIA中国研究中心合作SPEECON语料库(四个方言点,600人,60GB),将语料范围从标准普通话扩展到了带方言特色的地方普通话,而且录音采用了多通道(近、中、远麦克)和多场景(办公、娱乐、公共场所、车内等)技术,使实用价值大大提高。
2003年~2004年,语音室完成情景语音语料库,以及情感语音语料库项目,使语音研究向实际语境语音及情感语音等最新学术领域迈进。
2003年~2006年,社科院重大项目“面向生理的语音产生理论与方法研究”使语音研究开始探索深层次发音生理机理。
2004年~2006年,与NOKIA中国研究中心合作多语种语音语料库,以及与MO鄄TOROLA中国研究中心合作的多语种语音语料库,使语料库从以往单一语言向多语言领域扩展。
2003年~2006年,语音室承担的“863计划”RASC863地方普通话语音语料库(目前已完成10个方言点共2000人的数据,约200GB容量)项目,创建了语料库系统制作操作规范,使语料库建设进一步科学化、系统化……
除了上述语音语料库成果外,语音室还致力于语料库技术、方法、理论的研究与推广,取得了很多成果。如在国内推广Xwaves,wavesurfer,praat,transcriber等知名软件;制订可在国际上通行的可机读语音键盘符号系统———汉语音段扩展标注规范SAMPA-C;制订汉语口语韵律标注系统C-ToBI;参加信息产业部科技司支持的中文语音交互技术标准工作组工作,负责制定“汉语语音库与标注通用规范”国家标准等。
总之,如星闪烁的众多语料库典范反映了语言所语音学者们不懈进取的脚步,也从一个方面见证了中国语音学前进的历程。


文章出处:中国社会科学院院报
本网发布时间:2006-7-28 9:46:38
 
回复: 请教:英语单词的发音能建库研究吗?

建库研究的目的是什么?研究单词的发音有什么价值?口语库不是可以满足研究发音的需求吗?

只是好奇字母和发音的对应情况:p

多谢清风:)
 
回复: 请教:英语单词的发音能建库研究吗?

只是好奇字母和发音的对应情况:p

多谢清风:)

如此看来,一般的语音语料库并非你要建的库。找字母发音发音规律似乎不需要通过语料库来进行来研究。
 
回复: 请教:英语单词的发音能建库研究吗?

如此看来,一般的语音语料库并非你要建的库。找字母发音发音规律似乎不需要通过语料库来进行来研究。
不然我就自己建一个小小的先试试,看看能不能按音标而不是字母排序,希望能成功:)
 
回复: 请教:英语单词的发音能建库研究吗?

连一句话也没有听的懂,就向情感语音学迈进了,现在IBM和微软的语音识别软件虽然80%可以识别语音,但实用性一塌糊涂。 先把语音听懂再说,别迈什么大步伐。:eek:
 
回复: 请教:英语单词的发音能建库研究吗?

连一句话也没有听的懂,就向情感语音学迈进了,现在IBM和微软的语音识别软件虽然80%可以识别语音,但实用性一塌糊涂。 先把语音听懂再说,别迈什么大步伐。:eek:

看不懂啊!
 
回复: 请教:英语单词的发音能建库研究吗?

不然我就自己建一个小小的先试试,看看能不能按音标而不是字母排序,希望能成功:)

我还是觉得你这个目的不需要通过建库来解决。你似乎是找一种普遍性的特征,也就字母或字母组合的发音规律。关于这个你去找一本谈发音的书,看看别人总结的,应该是八九不离十了,如果有什么遗漏的话,就补上。通过建设语料库来解决似乎有点南辕北辙,一种语言的音位数目不大,而且比较稳定。一种研究比较充分的语言,如汉语或者英语,音位的描写也是比较充分了的。你再建一个多大的库对于描写音位的作用都非常小。也许你可以先看看音位学方面的书。
 
回复: 请教:英语单词的发音能建库研究吗?

我还是觉得你这个目的不需要通过建库来解决。你似乎是找一种普遍性的特征,也就字母或字母组合的发音规律。关于这个你去找一本谈发音的书,看看别人总结的,应该是八九不离十了,如果有什么遗漏的话,就补上。通过建设语料库来解决似乎有点南辕北辙,一种语言的音位数目不大,而且比较稳定。一种研究比较充分的语言,如汉语或者英语,音位的描写也是比较充分了的。你再建一个多大的库对于描写音位的作用都非常小。也许你可以先看看音位学方面的书。

谢谢,书看得少,提了幼稚的问题,见笑了:D
 
Back
顶部