双/多语语料库对齐软件 InterText

http://wanthalf.saga.cz/intertext

InterText 一款有意思的句级手工对齐软件。有以下功能:

a. 可内嵌自动句对齐软件 hunalign 和 TAC 2

b. 对齐时可修改原文本内容和结构

c. 有客户端和服务器两个版本,支持同步(sync)。因此适用于多人的协同标注。
 

附件

  • intertext.jpg
    intertext.jpg
    76.5 KB · 浏览: 55
回复: 双/多语语料库对齐软件 InterText

有人用过这个软件吗InterText ,对齐效果如何?

自动对齐靠 Hunalign,我试了一小段,好像还行,但肯定需要人工调。

人工调整工作量还是大,所以可能需要多人协同工作。这个软件有意思的是支持客户端 -- 服务器同步。这样大家就可以共同校对语料了,加快建库速度。
 
回复: 双/多语语料库对齐软件 InterText

InterText 单机版使用指南

1. 下载 Windows 版 InterText:

http://wanthalf.saga.cz/InterText.exe


2. InterText 要求源语文本和目标语文本分别存放,文件命名格式为 filename_version,如 jane_en.xml 和 jane_cn.xml。XML文件中可添加分句后的信息(见附件 align.zip )。

3. 打开 InterText, 选择菜单 Alignment --> New,在对话框中输入两个待对齐文件的信息:

4. 下载 Windows 版 Hunalign:
ftp://ftp.mokk.bme.hu/Hunglish/src/hunalign/latest/hunalign-1.2-windows.zip


5. 在 InterText 菜单 Option --> Setting --> Aligner 中指定 Hunalign 的位置:

6. 在菜单 Edit --> Auto Aligner 中掉用 Hunalign 自动对齐,然后手工校对,界面见一楼图示。
 

附件

  • align.zip
    2.1 KB · 浏览: 48
  • intertext_New.png
    intertext_New.png
    9.2 KB · 浏览: 10
  • intertext_Hunalign.png
    intertext_Hunalign.png
    20.5 KB · 浏览: 14
Last edited:
回复: 双/多语语料库对齐软件 InterText

谢谢分享!的确对齐后需要大量人工校对。
 
回复: 双/多语语料库对齐软件 InterText

软件是好软件,应该有字典,为什么你们不提供一下字典格式,或者说明一下字典如何引用的。如果没有字典,对齐是按句子对齐的,手工核心是太痛苦的了。
 
回复: 双/多语语料库对齐软件 InterText

I wrote an article about the usage of InterText server, if you're interested, you can read it here
 
Last edited:
回复: 双/多语语料库对齐软件 InterText

这软件就是垃圾,为啥不用abbyy

应该是ABBYY Aligner吧。谢谢提醒。

我用《鹿鼎记》的中英文版试了一下,效果好像比 Hunalign 好些,不过人工校对是必不可少的。

我用的 ABBYY Aligner 不支持导出 .txt 文本,因此写了perl 脚本将 ABBYY Aligner 的 TMX 格式平行语料库转换为TXT格式,希望对大家有用。
 

附件

  • tmx2txt.rar
    6.6 KB · 浏览: 32
回复: 双/多语语料库对齐软件 InterText

不错!
如果是用的ActivePerl,假如双击没有效果,可能需要安装 XML-LibXML 这个包,默认好像没安装。
 
回复: 双/多语语料库对齐软件 InterText

不错!
如果是用的ActivePerl,假如双击没有效果,可能需要安装 XML-LibXML 这个包,默认好像没安装。

多谢提醒!
我用的是Strawberry Perl,里面自带XML::LibXML模块。如果是Active Perl的话,可能需要安装一下。
 
回复: 双/多语语料库对齐软件 InterText

应该是ABBYY Aligner吧。谢谢提醒。

我用《鹿鼎记》的中英文版试了一下,效果好像比 Hunalign 好些,不过人工校对是必不可少的。

我用的 ABBYY Aligner 不支持导出 .txt 文本,因此写了perl 脚本将 ABBYY Aligner 的 TMX 格式平行语料库转换为TXT格式,希望对大家有用。

您好,我下载了ABBYY Aligner,但发现试用版只能对齐无法导出tmx文件 请问您有正版软件注册码的话 可不可以给我发一下邮箱limeijuan1101@163.com 最近写论文 急需 先谢谢了
 
回复: 双/多语语料库对齐软件 InterText

您好,我下载了ABBYY Aligner,但发现试用版只能对齐无法导出tmx文件 请问您有正版软件注册码的话 可不可以给我发一下邮箱limeijuan1101@163.com 最近写论文 急需 先谢谢了

Use search engine!:)
 
回复: 双/多语语料库对齐软件 InterText

请问InterText是应用于汉英对齐的软件吗?对于其它语种是否对其效果很差,我试过ABBYY Aligner对齐汉韩的文本,结果很不理想。
 
回复: 双/多语语料库对齐软件 InterText

请问InterText是应用于汉英对齐的软件吗?对于其它语种是否对其效果很差,我试过ABBYY Aligner对齐汉韩的文本,结果很不理想。

InterText 的优点是提供了手工校对的图形界面,支持多人共同标注。自动对齐的效果并不好。

如果你试过 ABBYY,效果不理想的话就没有必有使用 InterText 了。这些开源软件对CJK语言,即 Chinese,Japanese 和 Korean 的支持都不好,有很多问题。
 
Back
顶部