搜寻结果

  1. 李亮1975重庆

    2015图文教程《Excel的语料神技:批量查询》

    2015图文教程《Excel的语料神技:批量查询》 http://pan.baidu.com/s/1puQJ0
  2. 李亮1975重庆

    Treetagger3.0赋码时如何保持原语料的分段(或分行)形式?

    Treetagger和OpenNLP、Stanford NLP、GATE、SharpNLP,这些软件其实都是程序员给程序员使用的,可以叫做中间件(middleware),也就是说“这些软件的开发者没有考虑到让普通人用鼠标用键盘进行菜单操作之后且阅读体验愉快,这些软件的开发者是希望让会编程的其他程序员把这些软件进行友好封装,然后根据不会编程的朋友们的需求而进一步开发的时候来调用的,我们可以把这些软件视为半成品”,上述软件的网址如下: http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/...
  3. 李亮1975重庆

    您打开 corpus4u.org 的速度是多少?

    本站首页HTM文件(12.29KB)的解析、连接与下载的全球测速结果 —— 不含js、css、png与jpg的加载耗时 —— 75个点(英美日韩、荷兰、香港和中国各省) 在 http://ping.chinaz.com 的输入框,输入本站首页地址,同时在下一行的“请选择检测类型”这里,选择“网站测速”,就得到下面的全国、全球且电信、联通、移动的“全面测试结果(按速度升序排序,最快在最前面,最慢在最后面)”……(本帖附件是PDF版详细报告,包括了下载速度,下载速度就是带宽) 测速点 => 总耗时 1) 安徽滁州 => 174毫秒 2) 江西 => 175毫秒 3)...
  4. 李亮1975重庆

    您打开 corpus4u.org 的速度是多少?

    从吉林师范大学(吉林省四平市)访问“www.corpus4u.org”这网址,打开Firefox的网络监控进行“测速”,同时清空当前浏览器的所有缓存,2015年7月10日20点49分的情况是: 首次访问速度为4.27秒,借助缓存的第二次访问速度为3.39秒,详细情况如下……...
  5. 李亮1975重庆

    北外出版了四级作文语料库的。http://www.bfsu-corpus.org/

    北外出版了四级作文语料库的。http://www.bfsu-corpus.org/
  6. 李亮1975重庆

    我没下载过youtube视频

    我没下载过youtube视频
  7. 李亮1975重庆

    基于NLTK的屈折批量还原器.zip

    回复: 基于NLTK的屈折批量还原器.zip http://text-processing.com/demo/stem/ 在线的还原器,支持德语、法语、意大利语、葡萄牙语、罗马尼亚语……
  8. 李亮1975重庆

    我没有,也没听说谁有

    我没有,也没听说谁有
  9. 李亮1975重庆

    我QQ是492130980,你把语料先还原了,再进行keyness计算或keyword list生成,不就等于你要的效果了嘛

    我QQ是492130980,你把语料先还原了,再进行keyness计算或keyword list生成,不就等于你要的效果了嘛
  10. 李亮1975重庆

    我想请教两个WordSmith的问题,谢谢!

    羊年大吉! 可以把excel文件另存为csv格式,这种格式是wordsmith支持的、可导入wordsmith的; Excel从2007版开始是xlsx这种格式,估计旧版甚至新版的wordsmith也不能处理; 你的问题二的需求,似乎是希望把语料进行句子切分,把每个句子切分为一个段落? wordlist功能是把单词作为最小单位的,哪有把一个句子当作单词来处理的;
  11. 李亮1975重庆

    微软把R语言的母公司都收购了,狠啊

    http://tech.163.com/15/0126/10/AGSKEK1B00094ODU.html 微软把R语言的母公司都收购了,狠啊
  12. 李亮1975重庆

    汉语语料库的平均句长

    取决于单词识别规则和文本杂乱程度 无论用语料软件或文本编辑软件进行单词计数,都涉及到哪些是单词有效字符的问题。例如,是否“AK47”被当作1个单词,是否“AK47”被拆解而计算为2个单词,是否“2000s”被识别为一个整体或拆解为两个部分或识别为仅仅是一个s,是否纯数字串(例如1975)被识别为一个单词。像“a too-good-to-be-true story”中的临时合成词部分的连词符号到底应该被统一视为临时组合而忽视,还是被视为固定组合被当作整体而计数呢?...
  13. 李亮1975重庆

    求助 急 COCA 怎么能跳转到指定页面

    换个网页浏览器 或者把你所述问题牵涉的网页浏览器的cookies清空下,在“设置”中就有。或者查另一个词,看是否现象依然,其实可以直接给作者去邮件的,作者是个大好人、很热心,只是没上本论坛。
  14. 李亮1975重庆

    BYU-COCA Wikipedia Corpus now live

    甚至“不孕不育语料库”都是瞬间就被你创建了 Davies的维基百科有所谓的virtual corpora功能,看页面上就看到了,可以用任意关键词或行业词进行组合而瞬间创建起“基于哈利波特话题的语料库”或“鱼雷(话题)语料库”或“不孕不育语料库”或“渔夫语料库”或“鸟类语料库”或“航空航天语料库”或“农业英语语料库”或“军事英语语料库”,怎么都行的
  15. 李亮1975重庆

    BYU-COCA Wikipedia Corpus now live

    维基百科英文版语料库的作者对库的亲口简介,已经被我上传到优酷,不必翻墙了 http://v.youku.com/v_show/id_XODc5ODg0Mjky.html 维基百科英文版语料库的作者对库的亲口简介,已经被我上传到优酷,不必翻墙了
  16. 李亮1975重庆

    BYU-COCA Wikipedia Corpus now live

    谢谢发布此信息呀! 实乃重磅语料!
  17. 李亮1975重庆

    请教:如何在CLEC中ST3和ST4中提取六万词

    两个疑问 你说的“提取”是指随机抽取吗?你说的“词”和“字”都是指英语单词?
  18. 李亮1975重庆

    【工具包下载】NLTK免安装完整版.rar

    回复: 提供15个描述性统计值的在线统计计算器! 朝着你要的方向去编程,情况就复杂了,要付出好些劳动才能实现并且很难做到某个样子就满足多方面的需求。首先,指向一个文件夹的时候,就涉及到自动扫描所有子文件夹的文本文件,这需要专门编程;其次,指向一个文件夹的时候,里面的多份txt文件可能是ansi或utf8或unicode或unicode big...
  19. 李亮1975重庆

    把文本原文用我开发的两款“屈折还原器”进行还原,就让原文单词都变成lemma了,那么,此刻就能用ant和smith的key wordlist来进行分析且分析的对象是lemma了。...

    把文本原文用我开发的两款“屈折还原器”进行还原,就让原文单词都变成lemma了,那么,此刻就能用ant和smith的key wordlist来进行分析且分析的对象是lemma了。 http://pan.baidu.com/share/home?uk=724520607&view=share#category/type=0
  20. 李亮1975重庆

    请问用WS怎么删除源语料中的某些词?

    Excel是个办法,但是有前提 【如果wordlist含有每个词的词性标签,那么……】wordsmith可以生成xls格式的wordlist的,wordsmith也可以把它自己默认的lst格式的词表文件另存为xls的。所以,让wordlist是xls格式,然后在excel中用自动筛选和高级筛选,把介词所对应的POS(词性标签)进行筛选,就剔除了所有的介词从整个词表中了。但是,如果wordlist没有含有对单词的词性标签的“数据列”,就没法用“基于词性标签的excel筛选方法”了。下面的两个链接是在Excel 2003/2007中进行高级筛选的图文教程,涉足语料的师生最好掌握下……...
Back
顶部