iCasino的最近内容

  1. I

    mwetoolkit - The Multiword Expressions toolkit

    回复: mwetoolkit - The Multiword Expressions toolkit An interesting project. Thanks.
  2. I

    YACSI 1.0 for NLPIR/ICTCLAS2015

    回复: Re: 回复: YACSI 1.0 for NLPIR/ICTCLAS2015 YACSI 1.0标注UTF-8文件后换行不准确,是因为ICTCLAS 2015将输出文件的换行符默认为Macintosh格式了,所以用Window的记事本打开会断行错误。在不修改程序也不添加特殊符号的情况下,目前有一个批处理方法,你可以试试。 1. 下载http://waterlan.home.xs4all.nl/dos2unix/dos2unix-7.2.1-win32.zip 2...
  3. I

    双/多语语料库对齐软件 InterText

    回复: 双/多语语料库对齐软件 InterText 不错! 如果是用的ActivePerl,假如双击没有效果,可能需要安装 XML-LibXML 这个包,默认好像没安装。
  4. I

    YACSI 1.0 for NLPIR/ICTCLAS2015

    回复: YACSI 1.0 for NLPIR/ICTCLAS2015 第1个问题:在行前行后都加一个特殊符号试试,如下面形式是可以分词且不并行的(yes, not beautiful but workable:o)。 【68】 【00 : 05 : 06,700 - - > 00 : 05 : 11,700】 本公司全体同仁都为许大同骄傲 第2个问题: 只要有一个系统能分词,则问题很可能在于操作系统配置差异,请您问问系统使用方面的专家。
  5. I

    YACSI 1.0 for NLPIR/ICTCLAS2015

    回复: YACSI 1.0 for NLPIR/ICTCLAS2015 NLPIR/ICTCLAS2015的用户文档提到“采用交叉信息熵的算法自动计算关键词,包括新词与已知词”和“权重分别为信息熵权重与词频权重”。 但其计算方法和一般的交叉信息熵的算法又有所不同,具体计算方法可参考张华平博士在“第16届全国科学计算与信息化会议暨科研大数据论坛”上作的报告《微博用户特征与行为的大数据挖掘》。 从该报告来看,NLPIR/ICTCLAS(2013版)关键词的计算方法不同于语料库语言学中的一般方法,不依赖参照语料库,仅参照文本本身的特征,且看上去同时对unigram...
  6. I

    YACSI 1.0 for NLPIR/ICTCLAS2015

    回复: YACSI 1.0 for NLPIR/ICTCLAS2015 再次感谢armstrong。 我们用语料库Torch2009进行了测试,发现当一个文本的一行文字全部为英语和数字的时候,程序就会停止分词。 目前的解决方案是在这些行前(或行尾)加一个特殊符号,如“【”,这样程序就可以继续运行了,运行完毕再批量清除这些特殊符号。 这应该是ICTCLAS2015的一个bug,我们已向张华平博士提交了一份报告。
  7. I

    YACSI 1.0 for NLPIR/ICTCLAS2015

    回复: YACSI 1.0 for NLPIR/ICTCLAS2015 是吗?那是好消息。 谢谢armstrong提出的问题,同时也欢迎大家测试,发现有什么其他问题,能解决的尽量解决。 新版主要是增加了微博分词,如果语料里没有微博文本,不使用YACSI 1.0也没有问题。
  8. I

    YACSI 1.0 for NLPIR/ICTCLAS2015

    回复: YACSI 1.0 for NLPIR/ICTCLAS2015 1)速度方面麻烦你将Data文件夹下Configure.xml的<Sentiment>On</Sentiment>改成<Sentiment>Off</Sentiment>,<adaptive>true</adaptive>改成<adaptive>false</adaptive>。试试看有效果没有。 2)文件大小限制可能是ICTCLAS2015的限制。你能说说你遇到的具体情况吗?
  9. I

    YACSI 1.0 for NLPIR/ICTCLAS2015

    Dear all, A new version of YACSI is now available for your evaluation. Download link: http://www.bfsu-corpus.org/static/BFSUTools/YACSI_v1.zip. Best, iCasino
  10. I

    微软把R语言的母公司都收购了,狠啊

    回复: 微软把R语言的母公司都收购了,狠啊 Revolution Analytics只是一个提供R服务的公司,Revolution Analytics与R的关系就像Red Hat与Linux的关系一样,应该不会影响R的开源项目。 wiki上是这样说的: "Revolution Analytics was founded in 2007 as REvolution Computing providing support and services for R in a model similar to Red Hat's approach with Linux in the...
  11. I

    PSPP:完美替代SPSS的免费软件

    回复: PSPP:完美替代SPSS的免费软件 What a surprise. Thanks.
  12. I

    Academic Phrasebank at Manchester

    http://www.phrasebank.manchester.ac.uk/index.htm The Academic Phrasebank is a general resource for academic writers. It aims to provide you with examples of some of the phraseological 'nuts and bolts' of writing organised according to the main sections of a research paper or dissertation...
  13. I

    制造术语 = 制造 ¥¥

    回复: 制造术语 = 制造 ¥¥ 现代学科交叉现象相当普遍,不过统计和机器学习从渊源上来讲还是有差别的。 统计之都上恰巧也有人讨论过这个问题。 http://cos.name/cn/topic/108805 http://cos.name/cn/topic/17838
  14. I

    请教CQPWeb的metadata file?

    回复: 请教CQPWeb的metadata file? 请参阅Andrew Hardie发表在IJCL 2013上的论文
  15. I

    求助CQPweb的检索问题

    回复: 求助CQPweb的检索问题 句尾though可用如下CQP syntax检索。更多语法可用CQP syntax为关键词在google查找。 [word="though"%c] </s> CQP syntax的历史早于XPath,似乎不宜将其视为后者的衍生物。另外,两者还有一个很重要的区别,CQP syntax目前对XML的支持还只是线性的,还不能处理树形结构,不能视作严格的XML家族的一员。 但CQP syntax有很多优秀的地方,目前已被很多机构和项目采纳,包括SketchEngine。 References: [1]W3C...
顶部