新手求助:平行语料句对齐后标注词性,对齐被打乱怎么解决?

自建古诗英汉平行语料库,句对齐完成后(英汉在不同文档)进行词性标注,发现英文语料段落会被打乱,请问有什么不会打乱段落的标注软件,或者恢复段落的解决思路吗?比如用Excel或者Python?
【注:大约500多首诗歌,一半多英文没有标点符号,重对齐较麻烦】
【未标注的语料用paraconc可以正常检索,我正尝试进一步加工语料】
 
标注前在每段前面打一个文本中不会出现的符号,比如@,标注完了,用查找替换的方法将段落恢复就可以了。
 
贺老师的建议完全正确。
为让操作更加友好,我编写了个小程序BFSU Bilingual Alignment Keeper。这样,便不会因分词或词性标注破坏已完成的文本对齐。请帮忙测试。有问题我再完善。

因为是新开发的工具,杀毒软件会报木马,请添加信任即可。
 
Last edited:
Back
顶部