汉语语料库的平均句长

各位长辈,请问我用powergrep统计出来的word tokens 除以统计出来sentence数量,这样的结果就是平均句长了吗?
 
取决于单词识别规则和文本杂乱程度

无论用语料软件或文本编辑软件进行单词计数,都涉及到哪些是单词有效字符的问题。例如,是否“AK47”被当作1个单词,是否“AK47”被拆解而计算为2个单词,是否“2000s”被识别为一个整体或拆解为两个部分或识别为仅仅是一个s,是否纯数字串(例如1975)被识别为一个单词。像“a too-good-to-be-true story”中的临时合成词部分的连词符号到底应该被统一视为临时组合而忽视,还是被视为固定组合被当作整体而计数呢?

文本中的标题都是没有句末标点的而往往独占一行,这样的标题是否应该计算为一个句子;直接引用的多个句子到底该计算为一个句子还是多个句子;口语中的大量残句是否应该被视为一个句子。

这些问题都是自己拿着文本,对照自己的软件,最好是手工制造几个典型的例外范例来测试,才能清楚到底自己需要什么,才能清楚自己采用的软件手段采用了哪种默认识别方式,才能调整自己的软件的默认识别方式。

单词识别规则与方式有多种,其实是各有利弊的,关键看自己的需求是什么。

在AntConc这款语料软件中,在主菜单上有“global settings”,点进去,就有“token definition”是专门针对“单词有效字符”的设置规则的。
 
Back
顶部