求助:“数字+.+空格+数字”中空格的去除方式

在用winalign制作平行语料的过程中,发现如果出现“数字+.+空格+数字”开头的句子(如:1. 2 million dollars will be invested. 小数点后多了个空格),winalign会将1. +空格去除,变成:"2 million dollars will be invested",想请教C友,如何先在word中预处理,将该小数点后的空格去掉,我只会用 ". [1-9]" 查找,能找出来,但只能手工修改,不知道有没有批处理的方法,将小数点后的空格去掉?
 
回复: 求助:“数字+.+空格+数字”中空格的去除方式

在用winalign制作平行语料的过程中,发现如果出现“数字+.+空格+数字”开头的句子(如:1. 2 million dollars will be invested. 小数点后多了个空格),winalign会将1. +空格去除,变成:"2 million dollars will be invested",想请教C友,如何先在word中预处理,将该小数点后的空格去掉,我只会用 ". [1-9]" 查找,能找出来,但只能手工修改,不知道有没有批处理的方法,将小数点后的空格去掉?

提这样或其它类似的问题,建议附上需要处理的文本样本,这样才更有利于问题的解决.当然,简单的方法(使用word查找替换.不用通配符): 把". "(带空格)替换成"."(不带空格)即可.
 
回复: 求助:“数字+.+空格+数字”中空格的去除方式

那样替换之后代表英文句号的“.+空格”也没有了,winalign就没法断句了。
 
回复: 求助:“数字+.+空格+数字”中空格的去除方式

好,我也学习了一下,谢谢!
 
回复: 求助:“数字+.+空格+数字”中空格的去除方式

实际上这样不能解决全部问题,只凭.前后都有数字仍然无法判断其后的空格是否应当去掉,这本来就是个歧义结构
 
回复: 求助:“数字+.+空格+数字”中空格的去除方式

大体解决问题了,一个句子以数字结尾,其后的句子以数字开头,这种情况不多。最重要的是原来那种“1. 2 million..."的情况,winalign会把1. 去除,变成“2 million..."。
 
Back
顶部