请问关于检索的问题

ruziniu_yang · 2012-05-25

我现在手里有一个自建的学生作文语料库，一共有50篇作文，写在一个TXT文件里
手里有桂诗春的WECCL语料库，也是作文的，共有上几千篇作文，每个作文一个TXT文件
还有美国大学生作文语料库，很多作文，写一个TXT文件里，但每个作文之间用一个单独的#相隔

检索的软件有antconc，还有SWECCL里附带的colligator和patcount（不过不会用）

我现在的任务是分析其中某些词的使用情况，比如because，我只会用antconc查到某个库里的总频数，还需要其它一些信息。这些信息是：
1，总字数
2，每一个作文里该单词的使用频数（标准化后的结果，比如每千字使用多少个），不知道这条能不能实现？

这请问要达到上述目的，我应该怎么做呢？

请问关于检索的问题

ruziniu_yang