关于双向口译语料库

想咨询一下各位老师,现在的技术和工具能够完成建设双向的口译语料库吗,交传方向的。近期整理出来了一个商务类型的交传口译音频,想做成纯文字版的语料库,但是试了许多软件都无法到达检索那一步。因为是交传所以文档中势必有许多对话但非翻译的内容,如果删除又会影响整体情况。想了解一下除了使用ELAN创建多模态语料库是否还有其他方法可行?目前进展是采用Tmxmall完成了对齐,但如上所述,对齐后的文本中是有许多非翻译的对话内容的。求助各位老师!!
 
这是个现实存在的真问题。
以下思路供参考。

语料库可存为两个版本。其中一个版本是完整版;另一个为删除非翻译内容的版本。检索分析可在第二个版本中进行,如有需要,再反查第一个版本,获取完整上下文。通常基于句对齐平行语料库的词句分析,不大用得上那么多上下文信息。

再有,若不删除非翻译内容,也可在文中逐个手工标出非翻译字段,以便检索分析时区别对待。

用ELAN做多模态平行库,工作量大,效价比不高,不建议尝试。其他网友若有这方面经验,好的做法,欢迎分享。
 
这是个现实存在的真问题。
以下思路供参考。

语料库可存为两个版本。其中一个版本是完整版;另一个为删除非翻译内容的版本。检索分析可在第二个版本中进行,如有需要,再反查第一个版本,获取完整上下文。通常基于句对齐平行语料库的词句分析,不大用得上那么多上下文信息。

再有,若不删除非翻译内容,也可在文中逐个手工标出非翻译字段,以便检索分析时区别对待。

用ELAN做多模态平行库,工作量大,效价比不高,不建议尝试。其他网友若有这方面经验,好的做法,欢迎分享。
感觉许教授回复!后续实验一下试试。
 
Back
顶部