我跟他们很熟悉。据我了解他们的口语库应该是朗读体的。
他们有口语库我想应该不会有什么疑问。他们的口语库主要是做语音合成之用,主要是tts(text to speech)。
他们请广播电台的播音员进行录音。所选择的文献材料是在概率统计的基础上抽取的类似人民日报这样的材料的语句片断。选取这些片断的目的是尽可能包含所有的汉语phoneme。大致算起来汉语的可成音节应该是400多个,乘以4声就应该是1200多个。加上轻声是1600多个。另外他们会选取这1600个音节出现在韵律词(prosodic phrase)的initial, medial, final position各若干。然后进行录音。
PS:我之前贴过的一个帖子
Experiencing Text to Speech
http://www.iflytek.com/speech%20shows.asp
大家可以切身体验一下语音合成(speech synthesis)技术。
你可以在input box中输入任何汉字,当然也可以中英文混杂,然后合成,系统就可以将所写的文字读出来。这种技术叫TTS(Text to Speech)