关于双向口译语料库

Sumemr · 2024-07-22

想咨询一下各位老师，现在的技术和工具能够完成建设双向的口译语料库吗，交传方向的。近期整理出来了一个商务类型的交传口译音频，想做成纯文字版的语料库，但是试了许多软件都无法到达检索那一步。因为是交传所以文档中势必有许多对话但非翻译的内容，如果删除又会影响整体情况。想了解一下除了使用ELAN创建多模态语料库是否还有其他方法可行？目前进展是采用Tmxmall完成了对齐，但如上所述，对齐后的文本中是有许多非翻译的对话内容的。求助各位老师！！

xujiajin · 2024-07-26

这是个现实存在的真问题。
以下思路供参考。

语料库可存为两个版本。其中一个版本是完整版；另一个为删除非翻译内容的版本。检索分析可在第二个版本中进行，如有需要，再反查第一个版本，获取完整上下文。通常基于句对齐平行语料库的词句分析，不大用得上那么多上下文信息。

再有，若不删除非翻译内容，也可在文中逐个手工标出非翻译字段，以便检索分析时区别对待。

用ELAN做多模态平行库，工作量大，效价比不高，不建议尝试。其他网友若有这方面经验，好的做法，欢迎分享。

Sumemr · 2024-07-26

作者 xujiajin:
这是个现实存在的真问题。
以下思路供参考。

语料库可存为两个版本。其中一个版本是完整版；另一个为删除非翻译内容的版本。检索分析可在第二个版本中进行，如有需要，再反查第一个版本，获取完整上下文。通常基于句对齐平行语料库的词句分析，不大用得上那么多上下文信息。

再有，若不删除非翻译内容，也可在文中逐个手工标出非翻译字段，以便检索分析时区别对待。

用ELAN做多模态平行库，工作量大，效价比不高，不建议尝试。其他网友若有这方面经验，好的做法，欢迎分享。

感觉许教授回复！后续实验一下试试。

关于双向口译语料库

Sumemr

xujiajin

管理员

Sumemr