搜寻结果

  1. Q

    Some of the best books about probability and statistics

    In empirical linguistics (such as corpus and computational linguistics), probability/statistics is a recurrent topic which cannot be circumvented. To understand this topic, many books tries to combine statistics and language studies in only one textbook. However, in my mind, it is better to read...
  2. Q

    教教我这个是不是用SPSS的卡方检验啊?愁死了

    回复: 教教我这个是不是用SPSS的卡方检验啊?愁死了 在论坛搜索一下“卡方检验”,已经有过很多讨论了,静下心看一看应该能得到答案
  3. Q

    诚恳请求帮助

    回复: 诚恳请求帮助 如果你已经得到两个词表,按《教程》94页那样把两个词表合并(当然不能手动了,想想办法),然后把卡方值按降序排列,就得到MCCD中使用过于频繁的词了。 如果不介意得话把你的词表传上来看看。:)
  4. Q

    诚恳请求帮助

    回复: 诚恳请求帮助 你的问题是无法提取数据是吧? 1. 提取动词lemma的步骤 用正则表达式找到所有动词 ---> 用《语料库应用教程》光盘中的Lemmatizer词形还原---> 用antconc统计还原后的词频 2. coca中新闻语体中的动词词频 很多方法可以提取,google一下excel的分类、排序的使用方法。 3. 我用perl写了两个脚本,一个是用正则表达式找到所有动词,一个是提取coca中的动词,你可以看一下。 当然有很多方法可以实现你的要求,你可以再找找看适合你的。
  5. Q

    诚恳请求帮助

    回复: 诚恳请求帮助 谢谢你分享自己的研究。 步骤1. 没看懂这一步。你要得到MCCD的所有动词的lemma词表对吧?那应该把所有动词提取出来,lemmatize, 然后再计算频率。当然你人工做了也行,用表A就可以吧。 步骤2. 新闻语体也分好几类的,如报道、社论、评论什么的,直觉上也不是所有类型都是用很多say/report吧。所以要搞清楚对比的语料库是否语体一致。 步骤3. 你下的COCA词表里不都是频率吗? 个人愚见,仅供参考。 如果不介意的话把你赋码后的MCCD样本传上来大家研究一下。
  6. Q

    求Levy的一篇文章,为解释一个图

    回复: 求Levy的一篇文章,为解释一个图 这个文献比较老了,不好找。不行直接向作者写封邮件试试,幸运的话很快就能得到回复 http://www.slccs.uq.edu.au/index.html?page=139531&pid=19621
  7. Q

    Pitfalls in Corpus research

    http://lands.let.kun.nl/staff/staffPERperson.php3?name=rietveld
  8. Q

    信息检索书籍Introduction to Information Retrieval

    刚在网上闲逛发现了这个网站,作者是大名鼎鼎的manning噢: http://nlp.stanford.edu/IR-book/
  9. Q

    请教:使用SPSS得到的卡方值怎么这么大?

    回复: 请教:使用SPSS得到的卡方值怎么这么大? “开源统计软件R”是什么软件? Google一下就知道了。用它是因为来源免费。 怎么解释其卡方检验结果? 应该是研究者怎么解释,所有计算公式都一样的。比如你的问题可理解为所有pronoun和I之间的比率(分布)差异是否显著。 它得出的结果跟spss是一样的吗? 一样,都是根据Yeats Correction得出的。 还有log-likelihood & chi-square calculator 1.0,它们得出的卡方值都是一样的吗? 一样。但你要注意输入的方式。比如本例要这样输入:
  10. Q

    请教:使用SPSS得到的卡方值怎么这么大?

    回复: 请教:使用SPSS得到的卡方值怎么这么大? 开源统计软件R: x <- matrix(c(5346, 9570, 1374, 3551), byrow=T, nrow=2) chisq.test(x) 得到: X-squared = 103.9185, df = 1, p-value < 2.2e-16
  11. Q

    lemmatizer

    回复: lemmatizer lemmatizer带了一个配置文件filelist,用记事本打开把你要还原的文本写进去,如 E:/text/sample.txt,再运行就可以了。还原后的文件在E:/text/sample.lem。
  12. Q

    请问北外师生图书馆购买的BNC语料库能用吗?

    回复: 请问北外师生图书馆购买的BNC语料库能用吗? 装到c盘根目录下试试。
  13. Q

    [求助]再问关于计算因子得分问题

    回复: [求助]再问关于计算因子得分问题 得好好研究一下了,这个问题有挑战:mad:
  14. Q

    biber的多维模式如何可以达到?

    回复: biber的多维模式如何可以达到? Thank you very much!
  15. Q

    如何计算百分数的差异显著性?

    回复: 如何计算百分数的差异显著性? F-test on Wikipedia: http://en.wikipedia.org/wiki/F-test Table of F-test critical values: http://www.itl.nist.gov/div898/handbook/eda/section3/eda3673.htm
  16. Q

    如何计算百分数的差异显著性?

    回复: 如何计算百分数的差异显著性? F might mean one kind of statistical test: ANOVA test. The two parameters in F( , ) are degrees of freedom required to calculate F statistic. I don't think the author uses the number of percentage to get the result, i.e. F(1, 343) = 106.
  17. Q

    如何计算百分数的差异显著性?

    回复: 如何计算百分数的差异显著性? 这要看具体情况了,请问您看得是哪篇文献,大家讨论一下。:)
  18. Q

    TreeTagger: An Automatic POS tagger Windows interface

    回复: TreeTagger: An Automatic POS tagger Windows interface 我用了《语料库应用教程》上的版本,没有问题啊。不知您用的什么版本,要不贴个文本片断上来,大家一块测试下。
  19. Q

    网站搬迁说明

    回复: 网站搬迁说明 网通的,现在叫联通。完全可以接受,浏览发帖都没什么影响。管理员辛苦了!
  20. Q

    请教:怎样在外地使用上海交大jdest语料库?

    回复: 请教:怎样在外地使用上海交大jdest语料库? http://corpus.sjtu.edu.cn/WebCast/ 进入这个网址,点击guest。 好像可以使用。
Back
顶部