Dancefire的最近内容

  1. D

    请问哪里有可以下载用以训练的语料库?

    回复: 请问哪里有可以下载用以训练的语料库? 是这样,我写一个中文分词的库,计划命名为OpenCLAS,以ICTCLAS为原型,完全重写,重新设计、重新实现,先实现C++的分支版本,并且以之为蓝本,clone出Java和C#的两个分支版本,以BSD许可协议发布。...
  2. D

    请问哪里有可以下载用以训练的语料库?

    我看了那些free online corpus,可是似乎没有一个是可以下载的,全都是在线搜索。除了北大人民日报1998年1月份的语料库外,似乎所有的语料库都是在线查询的方式。 我的目的是用语料库统计词频和二元转移矩阵还有一些NE的上下文统计,如果不能下载到本机仅仅是查询,那对于训练词典来说毫无意义的。:confused: 请问大家,哪里可以得到切分、标注好的汉语语料库?我在做一个开源项目,没有任何经费支持,将来也不打算盈利,可以算是公益的事情了,因此最好是免费的语料库,不然我承担不起。
  3. D

    请教语料库、词典、版权的问题

    回复: 请教语料库、词典、版权的问题 still pending...
  4. D

    请教语料库、词典、版权的问题

    回复: 请教语料库、词典、版权的问题 谢谢xiaoz和oscar3,我的问题越来越清楚了。 我现在对Question B已经比较清楚了。我是这么理解的(如果有错误还请指正),如果语料库以下列形式出现: 那么语料库的作者对该语料库不拥有版权,版权归原作者所有。 而如果语料库将标注和原文分开,标注以下列形式出现: <struct type="tok" from="157" to="158"> <feat name="class" value="punc"/> <feat name="base" value=")"/> <feat name="msd"...
  5. D

    请教语料库、词典、版权的问题

    回复: 请教语料库、词典、版权的问题 你提到了第一个问题,既必须征求原版权所有人的许可。那似乎现在相当多的大规模语料库都做不到这一点,他们都一一的征求了原版权人的许可了么?这里有什么默认的许可么?比如只要注明原作者就可以使用?或者不超过原文的多少百分比就可以? 第二个问题你没有明确,标注后的文本句子的版权属于原版权人,那么标注本身呢?换句话说,制作语料库的机构对语料库有什么权利么?似乎这么说完后,制作语料库的机构对语料库没有任何权利了。...
  6. D

    请教语料库、词典、版权的问题

    回复: 请教语料库、词典、版权的问题 谢谢您提供的三个文献让我对A有了一定的了解。但是我对Question B和C还是很不清晰,到底谁拥有版权?哪部分的版权?真能确定其衍生物的关系么?
  7. D

    请教语料库、词典、版权的问题

    最近在做一个开源项目,其中需要用到对语料库进行统计生成统计词典,但是对于语料库的版权问题还有很多不明白的地方。可能也是也是关于著作的定义和衍生物的定义或判定的问题。 这个问题可能比较复杂,我不是很明白版权在这个过程中是怎么理解的。 一般来说生成词库的流程是这样: 1、人民日报、报刊文摘等文章收集 2、有人对文章进行处理,其中包括,分句子、人工分词、标注词性,这样生成的结果称为语料库 3、对语料库的所有词进行频率统计就生成了词库。 举例来说明这3步。 假设某个报刊文摘中有一句话: 我理解这句话的著作权应该杂志或者作者所有。 接下来这句话被A机构收录用以制作语料库。...
顶部