最近在做一个开源项目,其中需要用到对语料库进行统计生成统计词典,但是对于语料库的版权问题还有很多不明白的地方。可能也是[FONT=Courier, Monospaced]也是关于著作的定义和衍生物的定义或判定的问题。
[/FONT]
这个问题可能比较复杂,我不是很明白版权在这个过程中是怎么理解的。
一般来说生成词库的流程是这样:
1、人民日报、报刊文摘等文章收集
2、有人对文章进行处理,其中包括,分句子、人工分词、标注词性,这样生成的结果称为语料库
3、对语料库的所有词进行频率统计就生成了词库。
举例来说明这3步。
假设某个报刊文摘中有一句话:
接下来这句话被A机构收录用以制作语料库。
Qustion A:
那么这个收录是个什么概念?像论文集、文摘都有类似的收录行为。这种收录对著作权有什么变化么?这句话的著作权是不是还是原作者?那么这种收录岂不是必须要征求原作者同意了?那对于报刊文摘或者语料库的制作来说岂不是太麻烦了?
然后A机构开始加工这些收录的句子,这个句子被加工成了这种形式:
Question B:
到这里这句话的版权还是原作者么?如果还是原作者,那么这种在原句子上的分词、标注的结果的版权属于谁呢?
可以肯定的是,A机构为了这个切分和词性标注付出了大量的人力物力,但是他们有权利在不证求原句作者的情况下,再发布和销售这个结果么?这个切分、标注后的句子属于原作品的衍生物么?它继承原来的版权么?
现在到了生成词典了。我们拿到了上述语料库,开始统计,加工后变成如下结果:
Question C:
经过我们加工的词典已经完全不具备原有的形式了,而且也完全的失去了语义。那么这个词典的版权属于谁?还是原来那句话的作者么?还是属于我们自己?我们有权力以上面的BSD协议再发布这个词典么?我们加工而成的这个词典算原始作品或者语料库的衍生作品么?是否继承同样的版权?
其中存在的问题是某些语料库在版权声明上说,该语料库不允许商业使用。我们作为开源组织自然也没有商用。问题在于,我们会是以BSD协议再发布这个词典,因此我们不限制任何人使用我们的代码,也不限制商用。如果词典继承原语料库的版权,属于衍生物的话,可能我们就不能发布词典了。是这样么?
请对法律比较熟悉的朋友来详细解答一下我们的这些疑惑好么?谢谢啦。
[/FONT]
这个问题可能比较复杂,我不是很明白版权在这个过程中是怎么理解的。
一般来说生成词库的流程是这样:
1、人民日报、报刊文摘等文章收集
2、有人对文章进行处理,其中包括,分句子、人工分词、标注词性,这样生成的结果称为语料库
3、对语料库的所有词进行频率统计就生成了词库。
举例来说明这3步。
假设某个报刊文摘中有一句话:
我理解这句话的著作权应该杂志或者作者所有。"概率论作为一个数学范畴,确实有其广泛的适用性,"
接下来这句话被A机构收录用以制作语料库。
Qustion A:
那么这个收录是个什么概念?像论文集、文摘都有类似的收录行为。这种收录对著作权有什么变化么?这句话的著作权是不是还是原作者?那么这种收录岂不是必须要征求原作者同意了?那对于报刊文摘或者语料库的制作来说岂不是太麻烦了?
然后A机构开始加工这些收录的句子,这个句子被加工成了这种形式:
这个句子被分词了,而且标注了词性。"概率论/n 作为/v 一个/mq 数学/n 范畴/n ,/w 确实/a 有/v 其/r 广泛/a 的/u 适用/a 性/k ,/w"
Question B:
到这里这句话的版权还是原作者么?如果还是原作者,那么这种在原句子上的分词、标注的结果的版权属于谁呢?
可以肯定的是,A机构为了这个切分和词性标注付出了大量的人力物力,但是他们有权利在不证求原句作者的情况下,再发布和销售这个结果么?这个切分、标注后的句子属于原作品的衍生物么?它继承原来的版权么?
现在到了生成词典了。我们拿到了上述语料库,开始统计,加工后变成如下结果:
这样就生成了一个词库,对于任何一个词,我们都知道其对应的词性,和作为该词性出现的次数。"概率论"作为名词共出现9次
"数学"作为名词共出现5次
"作为"作为动词共出现20次
……
Question C:
经过我们加工的词典已经完全不具备原有的形式了,而且也完全的失去了语义。那么这个词典的版权属于谁?还是原来那句话的作者么?还是属于我们自己?我们有权力以上面的BSD协议再发布这个词典么?我们加工而成的这个词典算原始作品或者语料库的衍生作品么?是否继承同样的版权?
其中存在的问题是某些语料库在版权声明上说,该语料库不允许商业使用。我们作为开源组织自然也没有商用。问题在于,我们会是以BSD协议再发布这个词典,因此我们不限制任何人使用我们的代码,也不限制商用。如果词典继承原语料库的版权,属于衍生物的话,可能我们就不能发布词典了。是这样么?
请对法律比较熟悉的朋友来详细解答一下我们的这些疑惑好么?谢谢啦。