oscar3
高级会员
回复:北外双语平行语料库最新消息
语料库是在句子层次上对齐。技术上由北大计算语言学所常宝宝等人负责。对其的正确率好像听说是70%左右。具体程序是这样,先做好header,人工做好段落队齐,并用<p>...</p>标记,下面就进入软件自动对齐阶段。自动对齐之后再返回到人工校对阶段,人工校对阶段英汉文本在同一个文件中,有句子之间的属性说明,如2:1等。关于使用的软件对齐则无缘目睹。要是有商业软件就好了。以下是引用 laohong 在 2006-3-14 12:14:38 的发言:
以下是引用 yuliaoku 在 2006-3-14 11:53:38 的发言:
请问这个语料库是在什么层次上对齐的?正确率大约是多少?
也问一句:“在什么层次上对齐的?正确率大约是多少?” 如何对齐的?目前有成熟的对齐工具吗?如果没有,请问人工对齐是如何做到的?