北外双语平行语料库最新消息

回复:北外双语平行语料库最新消息

以下是引用 laohong2006-3-14 12:14:38 的发言:
以下是引用 yuliaoku2006-3-14 11:53:38 的发言:
请问这个语料库是在什么层次上对齐的?正确率大约是多少?

也问一句:“在什么层次上对齐的?正确率大约是多少?” 如何对齐的?目前有成熟的对齐工具吗?如果没有,请问人工对齐是如何做到的?
语料库是在句子层次上对齐。技术上由北大计算语言学所常宝宝等人负责。对其的正确率好像听说是70%左右。具体程序是这样,先做好header,人工做好段落队齐,并用<p>...</p>标记,下面就进入软件自动对齐阶段。自动对齐之后再返回到人工校对阶段,人工校对阶段英汉文本在同一个文件中,有句子之间的属性说明,如2:1等。关于使用的软件对齐则无缘目睹。要是有商业软件就好了。
 
回复:北外双语平行语料库最新消息

关于句子层次的对齐,自动处理还处在研究阶段,处理实际语料基本上没戏的。基于人工标记好Header和段落符号后的自动处理,技术含量估计应该不大。不过,要提高对齐的精度,人工干预是必须的,因此,更值得关心的是:在处理大量语料时应该如何辅助人工标记段落工作,使其迅速、准确? 请问王教授在他的那本书里有这方面的介绍吗?
 
有介绍的。他们有个对语料进行辅助加工的工具,软件由北大计算所开发编写,内部使用。在书上有所提及。
 
谢谢Patricx!希望下次回国有机会能读读他们书中的东西,这边很难找到国内的书。
 
回复:北外双语平行语料库最新消息

以下是引用刘语料在2006-6-23 11:17:01的发言:


近期内可能不会公开的, 应该是规模最大的汉英平行语料库.
 
那么哪里有比较小的公开的平行语料库?我最近想做一个关于汉英疑问代词的比较,想找个平行语料库
 
那么怎么接受认购呢?另外,五六百块钱认购的这个平行语料库大概是什么样的规模呢?
 
回复:北外双语平行语料库最新消息

以下是引用清风出袖在2006-7-7 14:58:31 的发言:
那么怎么接受认购呢?另外,五六百块钱认购的这个平行语料库大概是什么样的规模呢?


麻烦一江春水老师解答!
 
Back
顶部