S StrayKtystal 2024-05-28 #1 自建古诗英汉平行语料库,句对齐完成后(英汉在不同文档)进行词性标注,发现英文语料段落会被打乱,请问有什么不会打乱段落的标注软件,或者恢复段落的解决思路吗?比如用Excel或者Python? 【注:大约500多首诗歌,一半多英文没有标点符号,重对齐较麻烦】 【未标注的语料用paraconc可以正常检索,我正尝试进一步加工语料】
自建古诗英汉平行语料库,句对齐完成后(英汉在不同文档)进行词性标注,发现英文语料段落会被打乱,请问有什么不会打乱段落的标注软件,或者恢复段落的解决思路吗?比如用Excel或者Python? 【注:大约500多首诗歌,一半多英文没有标点符号,重对齐较麻烦】 【未标注的语料用paraconc可以正常检索,我正尝试进一步加工语料】
xujiajin 管理员 Staff member 2024-06-13 #3 贺老师的建议完全正确。 为让操作更加友好,我编写了个小程序BFSU Bilingual Alignment Keeper。这样,便不会因分词或词性标注破坏已完成的文本对齐。请帮忙测试。有问题我再完善。 https://corpus.bfsu.edu.cn/BFSU_Alignment_Keeper_beta.zip 因为是新开发的工具,杀毒软件会报木马,请添加信任即可。 Last edited: 2024-06-13
贺老师的建议完全正确。 为让操作更加友好,我编写了个小程序BFSU Bilingual Alignment Keeper。这样,便不会因分词或词性标注破坏已完成的文本对齐。请帮忙测试。有问题我再完善。 https://corpus.bfsu.edu.cn/BFSU_Alignment_Keeper_beta.zip 因为是新开发的工具,杀毒软件会报木马,请添加信任即可。