搜寻结果

  1. D

    【新工具】Treetagger在线版之无限制本地增强版 1.0

    回复: 【新工具】Treetagger在线版之无限制本地增强版 1.0 顺便问个问题,JavaScript做文本处理代码(程序)运行速度怎么样? 不太熟悉JavaScript,就文本处理而言,貌似JavaScript虽然简单,但功能不弱,好像这一点和VB/VBA相似。VBA也能做不少文本处理方面的事情,就是速度慢,不知道JavaScript性能如何?
  2. D

    请教:Antconc的最大处理能力是多大呢?

    回复: Antconc的最大处理能力是小于200MB的TXT文件(我实测的) 的确如此。。。
  3. D

    AntConc让人郁闷的地方

    回复: AntConc让人郁闷的地方 文本处理任务本质如此,拿词频表来说,要在内存里建立哈希表结构,这个表的数据部分包含语料库的不重复词表和每个词项的频率。输出结果之前,这个表一直在内存里,不断增大。若加上词元化处理,则会动用多个内存中的表结构。
  4. D

    tagger、SentenceTokenizer方面的几段Python代码

    回复: tagger、SentenceTokenizer方面的几段Python代码 示例代码,功能是从语料库里挖掘含某个关键词的句子,最终结果是一个分词后句子的列表,也就是一个列表的列表。 List Comprehension部分实现了一个效率很高的处理过程,仅将切句用于包含关键词的物理行。 # -*- coding: utf8 -*- import re import string import punkt #若仅使用SentenceTokenizer,无须导入punkt import cPickle import time t=time.time()...
  5. D

    【新工具】Treetagger在线版之无限制本地增强版 1.0

    回复: 【新工具】Treetagger在线版之无限制本地增强版 1.0 2MB?2KB就返回"too many words",不明白。。。
  6. D

    tagger、SentenceTokenizer方面的几段Python代码

    SentenceTokenizer、TreeBankWordTokenizer等Python脚本 自己写的(或修改的)几段Python代码,力求简单实用。。。 一、Tokenizers文件夹内容: 提取自NLTK的SentenceTokenizer、TreeBankWordTokenizer合并到一个punkt.py模块中。几点说明: 1. 内核含两个文件:englishPunkt.pickle和punkt.py 2. 仅保留NLTK原punkt.py的SentenceTokenizer与WordTokenizer,不含Training部分。 3...
  7. D

    怎样才能做到TXT文本中一句一行啊?

    回复: 怎样才能做到TXT文本中一句一行啊? 建议还是要掌握一点相关软件的应用技能。。。 UltraEdit、EmEditor、NotePad++这样的编辑器里,用正则表达式或转义字符做替换。。 1. 把制表符(\t)换成你需要的分隔符,比如"_" 2. 把回车换行换成空格 3. 把 SENT+空格 替换成 SENT+回车换行 很简单的工作,如果懂编程语言的话,一两行代码就可以实现。。。
  8. D

    自制语料库:如何给文本附码?

    回复: 自制语料库:如何给文本附码? 啥工具做的?既有界面,又可解压,神奇。。。
  9. D

    Windows下NLTK的安装和入门

    一切都可以从这里开始(NLTK安装说明):http://nltk.org/install.html 一. 安装Python: 1. ActivePython,Windows下Python的流行版本,似乎在运行NLTK时容易出故障。建议安装NLTK安装说明中链接的Python(python.org版本)(http://www.python.org/download/releases/2.7.3/) 2. 安装Win32扩展(win32 extensions): http://sourceforge.net/projects/pywin32/ 3...
  10. D

    学习正则表达式的好软件Expresso

    回复: 学习正则表达式的好软件 正则表达式有若干版本,可简可繁,一般的语言学上检索词语只类的,学个简单版本的就够了,可以考虑编程脚本语言VBCRIPT的正则表达式,这里有解释,很不错的: http://msdn.microsoft.com/en-us/library/6wzad2b2(v=vs.84).aspx
  11. D

    受教李亮博士:随机抽取语料库文件夹中N个文件构建子库方法

    回复: 受教李亮博士:随机抽取语料库文件夹中N个文件构建子库方法 是呀,学点编程,很有用,VBA就可以。。。
  12. D

    本人菜鸟,对照两篇外文文本,使用Antconc进行研究,请问有那些问题可以研究

    回复: 本人菜鸟,对照两篇外文文本,使用Antconc进行研究,请问有那些问题可以研究 这个就要看你的语言学造化了。。。
  13. D

    更新搭配词统计分析函数Excel宏

    几年前发过一次VBA宏,有些错误,这次的有把握。。精简到了LLR, CHI, Z, T, MI3, MI,以后会时不时升级,增加新内容。 这次发的有测试的性质,用独立运行DLL封装了。如果移植、兼容无问题,以后会加入更多统计方法、量化分析工具之类的。目的不是替代SPSS之类的工具,毕竟有的时候需要对数据做批量分析,在EXCEL中更灵活。 看到有朋友问如何在在线BNC中计算t值,这个真没有,不过,把整个数据表拷贝下来,在记事本里中转过滤一下,粘贴至EXCEL,设置一些语料库总词频之类的常数数据之后,想算什么算什么。。。
  14. D

    关于BFSU PowerConc中的Log-likelihood

    回复: 关于BFSU PowerConc中的Log-likelihood Having tried PowerConc out for several times, I think it is safe to say PowerConc is one of the best designed conc tools and might be THE best.
  15. D

    关于BFSU PowerConc中的Log-likelihood

    回复: 关于BFSU PowerConc中的Log-likelihood "Collocational strengths less than and eqaul to zero are displayed as 0 in BFSU PowerConc",这个做法,我认为没必要,搭配力强的自然被排序到前面,把0和负数都报告为0,问题倒是不大,但是等于机械的限制了置信度,采用什么样的置信度最好留给User,此外,User不是都盯着那些所谓“显著搭配”。把数据的Full picture原原本本给出来,User自己决定怎么定性或者怎么处理。举个例子吧,major...
  16. D

    关于BFSU PowerConc中的Log-likelihood

    I have notice that Log-likelihood statistics calculated with BFSU PowerConc are zero when coll-freq and conc-freq are equal. This is not the usual way and probably not the right way to do it. I have referred to some discussions and documentation concerning this issue. Check out this page...
  17. D

    统计结果中除了要说明p=多少,还要说明t值是多少吗?

    回复: 统计结果中除了要说明p=多少,还要说明t值是多少吗? 原则上不需要,P值就能说明两组数据来自均值不同的总体,不过,借用我一个擅长把聪明才智用于形式主义的领导讲过的话,叫做:不正规。。 你用什么工具做的T检验?难道是Excel的TTEST函数(结果仅P值)?如果是的话,可以用TINV把T值算出了。一般软件把T值和P值都列出来了。。 推荐一个开源软件,Gnumeric,很好用。。。 在EXCEL里用TINV,P=0.000,不管自由度是多少,结果都是10000000 P值得出0.000这个结果,不太好吧。。。 怀疑你的数据有问题,修改一下了。。
  18. D

    VBA代码: One-way ANOVA with Repeated Measures

    Excel里没有 One-way ANOVA with Repeated Measures SPSS里能做,不过输出一大段,但是好像没给算出P值,有F值(在某表中Greenhouse Geisser那行)。。 索性自己做了一个VBA 用户定义函数,本想着能输出一张表,但至今不知道怎么搞,目前只能用数组的方式输入F值和P值。 Function ANV1WAYRPT(ByVal RNG As Range) As Variant Dim RCNT, CCNT, GM, SST, COL, SSC, SSR, SSE, RW, DFT, DFC, DFR, DFE, MST...
  19. D

    是用独立样本T检验还是配对样本T检验呢?

    回复: 是用独立样本T检验还是配对样本T检验呢? 楼上解释的好! 楼主应该用配对。。
  20. D

    corpus里单个text大小问题

    回复: corpus里单个text大小问题 "如果就按篇幅最少的,比如700设置,这样是否合理呢?",这个要看你研究的具体情况而定了,如果你需要的是一批长度差异小的文本,当然要统一一下,但是如果没有这种必要,就可以按最小文本长度设置。所以首先要搞清楚的问题是文本长度差异大是不是会影响语料库的效用。当然了,即便这个问题不是决定性的,文本长度也还是不要太分散为好。700到1000这样的差距,不会是什么大问题。
Back
顶部