大家都知道,现成的双语语料库没法做到完全的逐句对齐,除非人工改译。既然做不到逐句对齐,干嘛非要浪费人力物力让它逐句对齐。能对齐的就让它对齐,不能对齐的就采用一对多或者多对一的原则进行对齐不就解决了。这在翻译中也就是分译和合译。
目前有大量的双语网站,上面有逐段对齐的文章和新闻。为何不有效的利用这现成的资源快速建立双语平行语料库呢?
其实这个帖子主要是给语料库软件开发人员看的。
上面说了双语对照的网站,这些网站中很多有逐段对齐的文章,编程人员完全可以开发这样一个软件,而这个软件带有这种功能:1。批量下载 2. 提取双语逐段对齐语料 3.纠正网页转txt乱码 4. 精细对齐
逐段对齐的文章主要有两种:1. 能够进行逐句对齐的段落 2. 不能够进行逐句对齐的段落 对于能够逐句对齐的段落就逐句对齐;对于不能逐句对齐的就采用一对多或者多对一的原则,如果不能逐句对齐的段落这样还不能处理,那就让它逐段对齐就行了。
对于精细对齐功能可以根据句子数量,核心动词核心名词为判断标准去处理。还可以根据句子中的完整语义片段让软件作出判断。当然这就需要这个软件带有海量词库。
这样制作出的语料库就更具有整体性,而且对于翻译应用更实用。
目前有大量的双语网站,上面有逐段对齐的文章和新闻。为何不有效的利用这现成的资源快速建立双语平行语料库呢?
其实这个帖子主要是给语料库软件开发人员看的。
上面说了双语对照的网站,这些网站中很多有逐段对齐的文章,编程人员完全可以开发这样一个软件,而这个软件带有这种功能:1。批量下载 2. 提取双语逐段对齐语料 3.纠正网页转txt乱码 4. 精细对齐
逐段对齐的文章主要有两种:1. 能够进行逐句对齐的段落 2. 不能够进行逐句对齐的段落 对于能够逐句对齐的段落就逐句对齐;对于不能逐句对齐的就采用一对多或者多对一的原则,如果不能逐句对齐的段落这样还不能处理,那就让它逐段对齐就行了。
对于精细对齐功能可以根据句子数量,核心动词核心名词为判断标准去处理。还可以根据句子中的完整语义片段让软件作出判断。当然这就需要这个软件带有海量词库。
这样制作出的语料库就更具有整体性,而且对于翻译应用更实用。