求把断错的英文句子接起来的程序

xudekuan

Moderator
如题,利用查找替换对英文文本进行断句,但是,像i.e., Mr. , Dr.等一些缩略语也被看成是句末标志,错分成了另外依据,因此,哪位高手能否写一个程序,把错断的句子重新接起来。
最好是能够调用存放缩略语的文件,比如short.data,利用其中的数据来接句子,因为,缩略语可能一下子收不全,如果做死在程序里,以后修改就不方便了。
另外,该程序最好能对同一子目录下的所有 *.txt文件进行操作。


先谢谢了!
 
回复: 求把断错的英文句子接起来的程序

Mr. Xu, can you provide such a dictionary as you mentioned above(short.dat)?
 
回复: 求把断错的英文句子接起来的程序

Mr.Xu,我算不上编程高手,但是我想,您想要的程序是可以开发出来的。
但是该程序是在已经断句的情况下查错并更正,似乎显得有些迂回曲折。我的意思是为什么不开发一个直接断句的软件呢?
一个简单的理由是,如果是未断句的short.dat词表,要列出的就是i.e.,Mr.,e.g.,等等;而已断句的short.dat词表,该怎么设计呢?是i./e./ (这里假设句末标记为“/”)呢?还是i.e.,再通过程序设置判断语句去识别呢?
 
回复: 求把断错的英文句子接起来的程序

非常感谢各位的回应,本来想编一个程序,后来通过摸索wsmith,发现里面提供的批量替换功能可以实现该要求,具体在utility里面。
另外,关于词表,不同的文本出现的词不同,具体想法是,根据词频统计,不同的文件使用不同的词表(这样也是为了程序提高效率)。
 
回复: 求把断错的英文句子接起来的程序

如题,利用查找替换对英文文本进行断句,但是,像i.e., Mr. , Dr.等一些缩略语也被看成是句末标志,错分成了另外依据,因此,哪位高手能否写一个程序,把错断的句子重新接起来。
最好是能够调用存放缩略语的文件,比如short.data,利用其中的数据来接句子,因为,缩略语可能一下子收不全,如果做死在程序里,以后修改就不方便了。
另外,该程序最好能对同一子目录下的所有 *.txt文件进行操作。


先谢谢了!

可以先用word 的替换功能把e.g, Mr.替换成其他符号比如: e.g替换成@, 然后断句结束后可以再替换回来.
 
Back
顶部