请教语料库、词典、版权的问题

Dancefire · 2007-05-10

最近在做一个开源项目，其中需要用到对语料库进行统计生成统计词典，但是对于语料库的版权问题还有很多不明白的地方。可能也是[FONT=Courier, Monospaced]也是关于著作的定义和衍生物的定义或判定的问题。
[/FONT]
这个问题可能比较复杂，我不是很明白版权在这个过程中是怎么理解的。

一般来说生成词库的流程是这样：

1、人民日报、报刊文摘等文章收集
2、有人对文章进行处理，其中包括，分句子、人工分词、标注词性，这样生成的结果称为语料库
3、对语料库的所有词进行频率统计就生成了词库。

举例来说明这3步。

假设某个报刊文摘中有一句话：

"概率论作为一个数学范畴，确实有其广泛的适用性，"

我理解这句话的著作权应该杂志或者作者所有。

接下来这句话被A机构收录用以制作语料库。

Qustion A:

那么这个收录是个什么概念？像论文集、文摘都有类似的收录行为。这种收录对著作权有什么变化么？这句话的著作权是不是还是原作者？那么这种收录岂不是必须要征求原作者同意了？那对于报刊文摘或者语料库的制作来说岂不是太麻烦了？

然后A机构开始加工这些收录的句子，这个句子被加工成了这种形式：

"概率论/n 作为/v 一个/mq 数学/n 范畴/n ，/w 确实/a 有/v 其/r 广泛/a 的/u 适用/a 性/k ，/w"

这个句子被分词了，而且标注了词性。

Question B:

到这里这句话的版权还是原作者么？如果还是原作者，那么这种在原句子上的分词、标注的结果的版权属于谁呢？

可以肯定的是，A机构为了这个切分和词性标注付出了大量的人力物力，但是他们有权利在不证求原句作者的情况下，再发布和销售这个结果么？这个切分、标注后的句子属于原作品的衍生物么？它继承原来的版权么？

现在到了生成词典了。我们拿到了上述语料库，开始统计，加工后变成如下结果：

"概率论"作为名词共出现9次
"数学"作为名词共出现5次
"作为"作为动词共出现20次
……

这样就生成了一个词库，对于任何一个词，我们都知道其对应的词性，和作为该词性出现的次数。

Question C:

经过我们加工的词典已经完全不具备原有的形式了，而且也完全的失去了语义。那么这个词典的版权属于谁？还是原来那句话的作者么？还是属于我们自己？我们有权力以上面的BSD协议再发布这个词典么？我们加工而成的这个词典算原始作品或者语料库的衍生作品么？是否继承同样的版权？

其中存在的问题是某些语料库在版权声明上说，该语料库不允许商业使用。我们作为开源组织自然也没有商用。问题在于，我们会是以BSD协议再发布这个词典，因此我们不限制任何人使用我们的代码，也不限制商用。如果词典继承原语料库的版权，属于衍生物的话，可能我们就不能发布词典了。是这样么？

请对法律比较熟悉的朋友来详细解答一下我们的这些疑惑好么？谢谢啦。

mayerniu · 2007-05-10

回复: 请教语料库、词典、版权的问题

挺棘手的一个问题.对法律知识所知不多,不好作答.

laohong · 2007-05-11

回复: 请教语料库、词典、版权的问题

Definitely you are in the copyright clear regarding Question B & C; for Question A, you may want to read the following papers/aricles/discussions:

1. Copyright and the Web as Corpus
http://hemming.se/gslt/copyrightHemmingLassi.pdf

2. Legal aspects of corpora compiling
http://torvald.aksis.uib.no/corpora/2002-3/0220.html

3. Unit 9 Copyright in "Corpus Based Language Studies"
http://www.routledge.com/textbooks/0415286239/about/toc.html

oscar3 · 2007-05-11

回复: 请教语料库、词典、版权的问题

现代著作权和版权的基本精神是，未经权利人许可不能以任何形式部分或者全部复制一部作品。倘若没有得到权利人的许可，将某一作品收入语料库，从严格的法律上来说也是不合法的。如果语料库中的语料没有得到合法的使用，其衍生物，即词典当然也是不合法的。这就好像一个小偷将偷来的东西买给你，你虽然付了钱，你仍然没有取得该物件的合法所有权。根据未经授权语料编纂的词典也和小偷偷来的东西一样是不受法律保护的。不过对于也有特例，研究者为研究目的可以合理使用作品。

清风出袖 · 2007-05-11

回复: 请教语料库、词典、版权的问题

长知识，谢谢楼主和两位回复的C友。

Dancefire · 2007-05-11

回复: 请教语料库、词典、版权的问题

作者 laohong:
Definitely you are in the copyright clear regarding Question B & C; for Question A, you may want to read the following papers/aricles/discussions:

1. Copyright and the Web as Corpus
http://hemming.se/gslt/copyrightHemmingLassi.pdf

2. Legal aspects of corpora compiling
http://torvald.aksis.uib.no/corpora/2002-3/0220.html

3. Unit 9 Copyright in "Corpus Based Language Studies"
http://www.routledge.com/textbooks/0415286239/about/toc.html

谢谢您提供的三个文献让我对A有了一定的了解。但是我对Question B和C还是很不清晰，到底谁拥有版权？哪部分的版权？真能确定其衍生物的关系么？

Dancefire · 2007-05-11

回复: 请教语料库、词典、版权的问题

作者 oscar3:
现代著作权和版权的基本精神是，未经权利人许可不能以任何形式部分或者全部复制一部作品。倘若没有得到权利人的许可，将某一作品收入语料库，从严格的法律上来说也是不合法的。如果语料库中的语料没有得到合法的使用，其衍生物，即词典当然也是不合法的。这就好像一个小偷将偷来的东西买给你，你虽然付了钱，你仍然没有取得该物件的合法所有权。根据未经授权语料编纂的词典也和小偷偷来的东西一样是不受法律保护的。不过对于也有特例，研究者为研究目的可以合理使用作品。

你提到了第一个问题，既必须征求原版权所有人的许可。那似乎现在相当多的大规模语料库都做不到这一点，他们都一一的征求了原版权人的许可了么？这里有什么默认的许可么？比如只要注明原作者就可以使用？或者不超过原文的多少百分比就可以？

第二个问题你没有明确，标注后的文本句子的版权属于原版权人，那么标注本身呢？换句话说，制作语料库的机构对语料库有什么权利么？似乎这么说完后，制作语料库的机构对语料库没有任何权利了。

第三个问题也没有明确，根据语料库统计得来的词典是衍生物么？是谁的衍生物？原文？还是语料库？怎么判定的？而且，我们知道，词典已经完全失去了原文的语义，也就是说在词典中根本就不存在原文任何句子，那么怎么就判定这个词典是原文的衍生物了呢？举个现实中的例子，某语言学家通过对某长篇小说进行分析，总结出了一套语法规则和汉语常用词语表，难道这个语法规则和汉语常用词语表是原小说的衍生物？难道这个语法规则和汉语常用词语表的版权属于原小说作者？语言学家的分析和利用统计方法进行词频、语法分析实际上是一种情况。我总有一种感觉，统计得来的、不具有语义的词典，不属于原作品的衍生物，版权应该属于该词典的作者。不知道大家怎么看。

oscar3 · 2007-05-11

回复: 请教语料库、词典、版权的问题

你的问题有点专业，恐怕要个专业的律师才能给你一个圆满的答案，我试图来回答你的问题：
1. 这里这句话的版权还是原作者么？如果还是原作者，那么这种在原句子上的分词、标注的结果的版权属于谁呢？
答：如果你引用的句子具有独特性，而且又在著作权保护的期限内，其著作权当然仍然属于原作者，并不因为你的加工而改变。至于在此基础上的分词，标注等成果，如果能够脱离原句子存在，你当然享有你的权利，但是，从语料和标注等方面的关系来看，没有语料的标注和分词成果是不存在的，那么这项权利又必须有一定的依附基础，不能独立存在。
2. 可以肯定的是，A机构为了这个切分和词性标注付出了大量的人力物力，但是他们有权利在不证求原句作者的情况下，再发布和销售这个结果么？这个切分、标注后的句子属于原作品的衍生物么？它继承原来的版权么？
答：上面实际上已经回答了你这个问题。

3. 经过我们加工的词典已经完全不具备原有的形式了，而且也完全的失去了语义。那么这个词典的版权属于谁？还是原来那句话的作者么？还是属于我们自己？我们有权力以上面的BSD协议再发布这个词典么？我们加工而成的这个词典算原始作品或者语料库的衍生作品么？是否继承同样的版权？
答：著作权法保护的是作品的内容和形式两个方面，如果你的词典和原语料有直接的衍生关系（需要证明），比如整句引用，很容易辨别二者之间的关系，该词典就需要得到原作品作者的许可。否则就不需要。

4. 其中存在的问题是某些语料库在版权声明上说，该语料库不允许商业使用。我们作为开源组织自然也没有商用。问题在于，我们会是以BSD协议再发布这个词典，因此我们不限制任何人使用我们的代码，也不限制商用。如果词典继承原语料库的版权，属于衍生物的话，可能我们就不能发布词典了。是这样么？
答；其实这里关键是你是否合法地取得了一项权利，如果合法，你可以转让，否则你不能，就象你不能将邻居家的房子卖掉一样。因为对你说的词典内容和形式不太清楚，无法判断词典的发行是否会侵犯原作者的权利。还是那一条原则，如果能够证明词典引用的是原作者的作品，词典的发行就需要得到原作者的许可。

不知道我的回答能否让你满意。

oscar3 · 2007-05-11

回复: 请教语料库、词典、版权的问题

作者 Dancefire:
你提到了第一个问题，既必须征求原版权所有人的许可。那似乎现在相当多的大规模语料库都做不到这一点，他们都一一的征求了原版权人的许可了么？这里有什么默认的许可么？比如只要注明原作者就可以使用？或者不超过原文的多少百分比就可以？

第二个问题你没有明确，标注后的文本句子的版权属于原版权人，那么标注本身呢？换句话说，制作语料库的机构对语料库有什么权利么？似乎这么说完后，制作语料库的机构对语料库没有任何权利了。

第三个问题也没有明确，根据语料库统计得来的词典是衍生物么？是谁的衍生物？原文？还是语料库？怎么判定的？而且，我们知道，词典已经完全失去了原文的语义，也就是说在词典中根本就不存在原文任何句子，那么怎么就判定这个词典是原文的衍生物了呢？举个现实中的例子，某语言学家通过对某长篇小说进行分析，总结出了一套语法规则和汉语常用词语表，难道这个语法规则和汉语常用词语表是原小说的衍生物？难道这个语法规则和汉语常用词语表的版权属于原小说作者？语言学家的分析和利用统计方法进行词频、语法分析实际上是一种情况。我总有一种感觉，统计得来的、不具有语义的词典，不属于原作品的衍生物，版权应该属于该词典的作者。不知道大家怎么看。

看来你考虑问题很仔细。
1. 原则上，语料库收集是需要征得原作者同意的，当然，著作权和版权保护有个期限问题，超出期限的可以自由使用。你说的注明原作者的做法是研究论文中的做法。当然，国内在著作权和版权的保护方面有法律上的漏洞，也有人们法律意识的淡薄，导致你所说的情况
2. 上面的回答已经涉及到，恕不重复。
3. “衍生物”和原语料之间的关系判定可以从内容和形式两个方面来界定。在这里想用一个具体一点的例子来说明一下。要说明的是，著作权方面的问题需要具体的细节才才能确定，这里只能体统原则性的思路。假如某人写了本小说和《红楼梦》的故事情节，人物等几乎雷同，但是，却是用现代汉语写的，可以判断是抄写。这是内容方面的保护。假如你在研究《红楼梦》的基础上，编出一部那个时代汉语用法的词典来，你对词的定义和描写是基于《红楼梦》的研究结果，而你并没有直接引用《红楼梦》的原文，构不成侵权。所以，你说的“统计得来的”是不构成侵权。

xiaoz · 2007-05-12

回复: 请教语料库、词典、版权的问题

Very interesting discussions!

Here are some of my points:
1) Regarding the copyright issue in corpus building, see http://forum.corpus4u.org/showthread.php?t=79

2) With the so-called standalone annotation, the copyrights of the primary data (textual data) and annotation data (e.g. POS tagging and parsing) can be kept separate, e.g. in the American National Corpus (ANC).

3) Frequency wordlists derived from corpora rarely have copyright problems with copyright holders of the corpus data as long as no examplar citations are included that exceed the fair usage doctrine - but acknowledgements are appropriate.

Dancefire · 2007-05-12

回复: 请教语料库、词典、版权的问题

谢谢xiaoz和oscar3，我的问题越来越清楚了。

我现在对Question B已经比较清楚了。我是这么理解的（如果有错误还请指正），如果语料库以下列形式出现：

"概率论/n 作为/v 一个/mq 数学/n 范畴/n ，/w 确实/a 有/v 其/r 广泛/a 的/u 适用/a 性/k ，/w"

那么语料库的作者对该语料库不拥有版权，版权归原作者所有。

而如果语料库将标注和原文分开，标注以下列形式出现：

代码:

<struct type="tok" from="157" to="158">
    <feat name="class" value="punc"/>
    <feat name="base" value=")"/>
    <feat name="msd" value=")++++"/>
</struct>
<struct type="tok" from="165" to="169">
    <feat name="msd" value="jj+atrb+++"/>
    <feat name="base" value="dear"/>
</struct>
<struct type="tok" from="170" to="183">
    <feat name="msd" value="np+++??+"/>
    <feat name="base" value="field(contact"/>
</struct>
<struct type="tok" from="184" to="190">
    <feat name="msd" value="nn++++"/>
    <feat name="base" value="person"/>
</struct>

那么原文的版权归原文作者，标注的版权归语料库作者。

另外，根据xiaoz提供的信息，我们在两种情况下可以使用版权不属于我们的作品来做语料库。第一、超过版权有效期，一般为最后一个作者去世后70年。比如我们可以随意的使用《红楼梦》来做语料，而不必担心版权问题。第二、不超过"fair dealing"的数量（有些地区限定为科研、非盈利性）的引用，也是合法的。

关于第二点，还有点不太清楚，因为我主要是涉及汉语的语料库，所以相对更关心华语地区的相关法律。那么在大陆、台湾、香港等华语区，对于fair dealing有相关的著作权法律么？都是什么数量级别？

关于Question C，我大体上明白了。

我说一下我们词典的情况，这个词典是用于中文分词的词频词典，不包含例句，只包含词、词频、词性和二元转移词频。举例来说，第一部分是一元词频：

概率论,n,2353
范畴,n,231
广泛,a,2342
...

这里面只有词、词性、词频。第二部分是二元转移词频。设计前后两个词的词频。比如：

概率论,作为,12
数学,范畴,53
其,广泛,5
...

其中只包含，前词、后词、组合在一起的次数。

那么按照oscar3:

作者 oscar3:
假如你在研究《红楼梦》的基础上，编出一部那个时代汉语用法的词典来，你对词的定义和描写是基于《红楼梦》的研究结果，而你并没有直接引用《红楼梦》的原文，构不成侵权。所以，你说的“统计得来的”是不构成侵权。

和xiaoz:

作者 xiaoz:
3) Frequency wordlists derived from corpora rarely have copyright problems with copyright holders of the corpus data as long as no examplar citations are included that exceed the fair usage doctrine - but acknowledgements are appropriate.

因此，词典不包含任何原文整句，那么这个词典的版权归词典制作者所有，我做为词典的作者可以以任何我愿意的方式发布这个词典，而不受用于训练出这个词典的语料库的版权限制。是这样么？

如果我们授权我们的用户可以商用我们的词典（由禁止商用的语料库训练而来），是不是因为我们对词典拥有版权，而我们的授权是完全合法的？

如果是这样，我们再进一步考虑。

如果用于训练的某语料库含有非法内容，我这个词典会受其影响么？

比如，某语料库在提供给别人使用的时候，只声明自己的版权，并且声明不要商用其语料库，只做科研、学术使用，但是它并没有声明自己是否取得了收录作品的版权许可。好像目前大部分的汉语语料库的声明都是如此，因此我无法确定其语料库是否合法。

当然，确定方式有很多种，我们抛开确定方式不谈，单说版权。

如果，原语料库存在没有征得原作者许可的收录文章，那么他们发布出来，哪怕仅仅是非盈利的供学术使用，语料库的提供者也是违法的，这点是可以肯定地。

问题在于，做为他们语料库的使用者，我们在不知情的情况下，用其语料库生成了我们的词典，这个词典也会因为其原语料库含有非法内容而非法么？还是说，因为我们对词典拥有独立的版权，词典不属于原语料库的衍生物，因此无论原语料库如何侵犯了他人的版权，我们的词典都与之无关？

谢谢。：）

Dancefire · 2007-05-17

回复: 请教语料库、词典、版权的问题

still pending...

xiaoz · 2007-05-17

回复: 请教语料库、词典、版权的问题

1) To my understanding, both the language producer and the annotator hold copyright over corpora with embedded annotation.

2) The sizes of samples allowed under fair dealing for publisshed works are usually not large enough to produce a representative corpus.

3) Many websites simply mount the copyrighted texts in Chinese with a disclaimer that if the authors object, the texts will be removed within xx hours. I am told - but I am not sure - that this practice is legal according to the law in China.

请教语料库、词典、版权的问题

Dancefire

mayerniu

初级会员

laohong

管理员

oscar3

高级会员

清风出袖

高级会员

Dancefire

Dancefire

oscar3

高级会员

oscar3

高级会员

xiaoz

永远的超级管理员

Dancefire

Dancefire

xiaoz

永远的超级管理员