是一个演示的视频和一篇测试文档。
看到论坛里面有人发了一个自己编写的小工具来对齐双语句对(http://corpus4u.org/showthread.php?t=4818),下载试用后发现功能比较简
单。我也曾经做过一个双语句子自动对齐的软件,由于一些原因,没有继续完善,可以把现在完成的给大家演示下:
已经完成的功能:
1. 本软件可实现英汉双语句子的自动对齐,可以自动纠错,且有防止错误蔓延的机制。
2. 支持多种文本输入格式(.txt, .doc, .docx等等),支持多种文件编码(utf-8,gbk等),并且很容易扩充。
3. 支持保留段落位置、句子位置信息等,通过对齐后输出来的句对甚至可以还原原文,也就是说保留了每个句子所属的段落位置,句子位置等
信息。
4. 支持对齐结果的多种文件输出,可以输出对齐bi中间文件、中英文交替的txt文本以及tmx文本。
5. 对原始文档的要求低,只要是普通的文档即可。
6. 整个处理过程中涉及到的中英文分句,中英文分词,stemming,对齐算法,一直到结果的输出都是自然语言处理的大量知识、算法,程序做
支撑的。
7. 支持一次处理大量文件。
还有一些功能想实现,可惜,唉~~
zhangywibb@gmail.com
2009-7-24
欢迎大家批评指正,互相交流~~
看到论坛里面有人发了一个自己编写的小工具来对齐双语句对(http://corpus4u.org/showthread.php?t=4818),下载试用后发现功能比较简
单。我也曾经做过一个双语句子自动对齐的软件,由于一些原因,没有继续完善,可以把现在完成的给大家演示下:
已经完成的功能:
1. 本软件可实现英汉双语句子的自动对齐,可以自动纠错,且有防止错误蔓延的机制。
2. 支持多种文本输入格式(.txt, .doc, .docx等等),支持多种文件编码(utf-8,gbk等),并且很容易扩充。
3. 支持保留段落位置、句子位置信息等,通过对齐后输出来的句对甚至可以还原原文,也就是说保留了每个句子所属的段落位置,句子位置等
信息。
4. 支持对齐结果的多种文件输出,可以输出对齐bi中间文件、中英文交替的txt文本以及tmx文本。
5. 对原始文档的要求低,只要是普通的文档即可。
6. 整个处理过程中涉及到的中英文分句,中英文分词,stemming,对齐算法,一直到结果的输出都是自然语言处理的大量知识、算法,程序做
支撑的。
7. 支持一次处理大量文件。
还有一些功能想实现,可惜,唉~~
zhangywibb@gmail.com
2009-7-24
欢迎大家批评指正,互相交流~~
附件
Last edited by a moderator: