最近我在思考这样一个问题:如何把句子给提取出来呢?比如一本小说;或者是把段落给提取出来呢?
要处理这个问题,就必须先考虑:什么是句子,什么是段落?句子标志和段落标志。
我查了一下:有的学者认为句标有这几个特征:句号(full stop)/大写字母和间隔(space)。
段标除了具有句标的这几个特征之外,还有首行缩进的问题。
我个人这个定义不是很准确,比如:Mr. Li is a good teacher. 就会被识别为两个句子。(Mr.;Li is ...) 这样的例子也太多了,英语里的缩写也很多,比如:Mrs. , Dr. , U. S. , Ph. D, ...
而且上面的句标标准没有把感叹句和疑问句包括在内。
不知道国内外有没有这类的文献可以参考的,尤其是方便计算机识别的句标和段标标准。
要处理这个问题,就必须先考虑:什么是句子,什么是段落?句子标志和段落标志。
我查了一下:有的学者认为句标有这几个特征:句号(full stop)/大写字母和间隔(space)。
段标除了具有句标的这几个特征之外,还有首行缩进的问题。
我个人这个定义不是很准确,比如:Mr. Li is a good teacher. 就会被识别为两个句子。(Mr.;Li is ...) 这样的例子也太多了,英语里的缩写也很多,比如:Mrs. , Dr. , U. S. , Ph. D, ...
而且上面的句标标准没有把感叹句和疑问句包括在内。
不知道国内外有没有这类的文献可以参考的,尤其是方便计算机识别的句标和段标标准。