请教:文本整理

我在整理文本的过程中,碰到以下问题,请问该如何设置。
1. 怎么样去掉单词间的空格,如下:
among English speaking people are not uncommon
如果不去掉空格,对最后的检索结果是否会有影响?
2. 如何可以通过软件批量去掉英语文本中出现的汉字?如:
sumptuous means "lavish" (丰盛的) or "magnificent" (极好的)
我使用的是许老师《语料库应用教程》里推荐的风林文本整理器。
 
回复: 请教:文本整理

第一个问题你没说清楚。
第二个问题,可用正则表达式解决,在任何一个支持正则表达式的文本编辑器或检索工具里,使用正则表达式[\u4e00-\u9fa5]匹配所有汉字。
 
回复: 请教:文本整理

第一个问题你没说清楚。
谢谢许老师!
第一个问题就是: 单词间空格比较大,如何去掉。单词间有空格,句子与句子之间有空格。段与段间也有空格。是否可以忽略这些空格。
among English speaking people are not uncommon

另外,我对正则表达式知之甚少,还有必要买本专门的Perl语言书或者正则表达式的书看看?
 
回复: 请教:文本整理

这个我在《语料库应用教程》的文本清理里都讲到了,你说的大空格大概是全角空格。
你说的句间和段间空格是指多余空行。

这些文本整理器上都有专门的清理按钮。操作步骤在书上都有截图说明。

Perl可以不学,正则表达式可以学一下,《语料库应用教程》也有专门的章节介绍,算是入门,然后你可以到网上搜正则表达式的电子式,非常多,这类的书不用买。网上的就足够。
 
回复: 请教:文本整理

这个我在《语料库应用教程》的文本清理里都讲到了,你说的大空格大概是全角空格。
你说的句间和段间空格是指多余空行。

这些文本整理器上都有专门的清理按钮。操作步骤在书上都有截图说明。

Perl可以不学,正则表达式可以学一下,《语料库应用教程》也有专门的章节介绍,算是入门,然后你可以到网上搜正则表达式的电子式,非常多,这类的书不用买。网上的就足够。

许老师,
我英语文本保存为utf8后用记事本阅览正常,进入文本整理器后出现乱码,请问是为什么?这些乱码还需要处理掉吗?
 
回复: 请教:文本整理

我不太记得了,可能文本整理器只支持ANSI编码。
 
Back
顶部