搜寻结果

  1. ArthurW

    推荐使用网络语料自动下载工具BootCat

    BootCat是Bootstrap Corpora and Terms的缩写,是WaCky (Web-As-Corpus Kool Yinitiative)兴趣小组开发的软件,用于从互联网自动采集语料。可按用户指定的搜索词(称为seeds)借助Bing.com搜索引擎从网络上搜索网页,然后下载到本地硬盘构成语料库。这个软件被SketchEngine用作采集网络语料的后台工具(称为WebBootCaT)。由于SketchEngine是收费的,而且对试用用户有不少限制,而BootCat则是自由软件,因此强烈推荐有兴趣者下载安装BootCat。 说明: 1. 需要先在电脑系统中安装JRE。...
  2. ArthurW

    2015年新出炉中国英语学习者语料库The TECCL corpus

    Hi, you could try the "Restricted Query" menu item.
  3. ArthurW

    关于LOCNEC,SWECCL请教

    I assume that you mean LOCNESS. You could search this forum for related posts. BTW, LOCNESS is a corpus of written English.
  4. ArthurW

    LancsBox: graphical collocation analysis

    http://corpora.lancs.ac.uk/lancsbox/ LancsBox是2015年由Lancaster University的Vaclav Brezina等开发的基于Java的工具,用于从语料中提取特定词的搭配,按搭配强度以动态图形方式显示出来,并可继续显示其中的某些搭配词的搭配词,这样方便观察二者的共同搭配,非常直观生动。该工具同时也包含了一个比较简单的KWIC检索。
  5. ArthurW

    如何用用BNC语料库的部分原文制作成参照语料库

    You can go to https://cqpweb.lancs.ac.uk/ and export a specified part of BNC.
  6. ArthurW

    求助:搜索动词转化为名词这类词汇的正则表达式

    词性标注工具只标表面的词性,不可能标转换过程,过程是隐性的
  7. ArthurW

    语料库检索

    语料库工具只是计算机程序,对语言一窍不通,只能通过语言表面形式来检索。隐喻则是语义层面的,与形式没有明确对应关系,所以要用语料库工具来检索隐喻原则上办不到。建议做文献检索,看人们对用自动方法识别隐喻表达的诸多看法。
  8. ArthurW

    SegmentAnt 1.10 (三种中文分词+用户字典)

    今年十月份我跟Laurence确认了这个bug,他迅速发布了1.1.1版,此问题已解决。
  9. ArthurW

    古汉语典籍的语料处理问题

    asking说得对,古汉语没有可用的分词工具,目前的主要方法是以字为单位字间加空格。不过古文中的字多义和歧义现象太多,不好计算TTR,勉强计算意义非常有限。 至于译文的排比结构与句式有关,要看定义为句子层面还是短语层面。如果是句层面可先做sentence split,然后再选择性地找某些排比结构。 另外估计你想将原文与译文相对照检索,这就需要对齐了。建议看下AntPConc软件
  10. ArthurW

    手头的BNC语料库全是XML格式,请问应该怎样正常使用呢?

    sourceforge上可以下载xaira-1.26版的msi安装文件。检索肯定离不开index,索引文档非常复杂,也很占空间。不过为了检索BNC还是值得的。 另外也可以上cqpweb.lancs.ac.uk 来检索
  11. ArthurW

    [语料发布] Tibetan Folk Tales Corpus

    TIBETAN FOLK TALES CORPUS Source: http://www.sacred-texts.com/asia/tft Compiler: Jiayue Wang Time: 9 December 2016 The texts were extracted from web pages downloaded from the website. Each line that begins with a hashtag (#) indicates the webpage and its relative path in the...
  12. ArthurW

    分析大量的日语文本请问用什么软件好

    如armstrong所说,AntConc经过一点设置可以直接检索未分词的汉语和日语文本。MLCT (Multilingual Corpus Tool)也可以。 仅检索其实不难,其他就要看想怎么分析了
  13. ArthurW

    求语料库相关练习

    这本教材里每章后面有很好的练习 McEnery, T. and Hardie, A. 2011. Corpus linguistics : method, theory and practice. Cambridge: CUP.
  14. ArthurW

    [语料发布] Buddhist Sacred-Texts Corpus

    Copyright note about the open-domain texts at sacred-texts.com: http://www.sacred-texts.com/cnote.htm
  15. ArthurW

    [语料发布] Buddhist Sacred-Texts Corpus

    BUDDHIST SACRED TEXTS CORPUS Source: http://www.sacred-texts.com/bud Compiler: Jiayue Wang Time: 8 December 2016 The texts were extracted from web pages downloaded from the website. Each line that begins with a hashtag (#) indicates the webpage and its relative path in the...
  16. ArthurW

    术语,特殊符号的标注问题

    你要标的是词还是短语?如果是短语层面,CLAWS或TreeTagger做不到,需要用到语义分析了。其实多数分析器是基于词表和术语表的,计算机要先知道哪些是术语才能正确标出来。NLP界现在很多人在研究multiword expressions (MWEs)
  17. ArthurW

    有佛学英文语料库吗?

    Hi, Go to this url http://www.sacred-texts.com/bud/ and you can build one for yourself
  18. ArthurW

    Call for a social media corpora

    Hi Kayee, Lawrence Anthony and Claire Hardaker's tool FireAnt can be used to extract and analyse Twitter stuff. Check this out: http://www.laurenceanthony.net/software/fireant/
  19. ArthurW

    怎样用antconc软件对我研究的语料生成词表

    据我所知还不存在古代汉语的分词系统
  20. ArthurW

    jusTest - 去除网页中的boilerplate

    从网页中提取文本制作语料库时会发现网页中包含大量重复性内容,如copyright, ads, headers, footers等等。这些显然不是这类语料库使用者所关心的内容。我近期就遇到这个问题。由于建设这类语料库要处理的网页数量往往特别多,手工删除这些并不现实。 推荐使用jusText工具,是用python实现的,有效去除语料中的多余杂质,保持肌肤活力。 http://corpus.tools/wiki/Justext Quick start wget -O page.html http://planet.python.org/ justext -s English...
Back
顶部