各位大虾好!
我在《国家语委语料库科研成果简介》中看到了主要词类的统计图表,但可惜没有具体数字和所在语料库中所占比例,于是就用笨办法做:根据说明,用/*可以检索特定词性,例如,我可以通过检索/n、/nr、/ns等所有名词形式出现的频率,然后将其相加得出名词的频次,再除以2000万就能得到它们所占的比例。但是结果似乎并不符合实际:
词性 频次 比例%
名 词 2022692 10.11
动 词 1649610 8.25
形容词 545331 2.73
数 词 339184 1.70
量 词 150934 0.75
副 词 558142 2.79
代 词 487429 2.44
小 计 5753322 28.77
介 词 381194 1.91
连 词 315580 1.58
助 词 946883 4.73
小 计 1643657 8.22
就是说,主要词类加起来才刚刚超过全部语料的1/3,这太不可思议了!一定是我的检索方法哪里出了问题。恳请大家教我!
另外,请问如果要查询除了“非”、“副”、“准”之外的其他前缀,应该怎样书写表达式?
Millions of thanks!!!
我在《国家语委语料库科研成果简介》中看到了主要词类的统计图表,但可惜没有具体数字和所在语料库中所占比例,于是就用笨办法做:根据说明,用/*可以检索特定词性,例如,我可以通过检索/n、/nr、/ns等所有名词形式出现的频率,然后将其相加得出名词的频次,再除以2000万就能得到它们所占的比例。但是结果似乎并不符合实际:
词性 频次 比例%
名 词 2022692 10.11
动 词 1649610 8.25
形容词 545331 2.73
数 词 339184 1.70
量 词 150934 0.75
副 词 558142 2.79
代 词 487429 2.44
小 计 5753322 28.77
介 词 381194 1.91
连 词 315580 1.58
助 词 946883 4.73
小 计 1643657 8.22
就是说,主要词类加起来才刚刚超过全部语料的1/3,这太不可思议了!一定是我的检索方法哪里出了问题。恳请大家教我!
另外,请问如果要查询除了“非”、“副”、“准”之外的其他前缀,应该怎样书写表达式?
Millions of thanks!!!
Last edited: