请问关于检索的问题

我现在手里有一个自建的学生作文语料库,一共有50篇作文,写在一个TXT文件里
手里有桂诗春的WECCL语料库,也是作文的,共有上几千篇作文,每个作文一个TXT文件
还有美国大学生作文语料库,很多作文,写一个TXT文件里,但每个作文之间用一个单独的#相隔

检索的软件有antconc,还有SWECCL里附带的colligator和patcount(不过不会用)

我现在的任务是分析其中某些词的使用情况,比如because,我只会用antconc查到某个库里的总频数,还需要其它一些信息。这些信息是:
1,总字数
2,每一个作文里该单词的使用频数(标准化后的结果,比如每千字使用多少个),不知道这条能不能实现?

这请问要达到上述目的,我应该怎么做呢?
 
Back
顶部