ineedgerf
普通会员
前两天看了出版社寄来的 SWECCL 语料库,看了以后不禁失望。
三张光盘,其中两张多的内容是声音,而文本的内容约 78mb。当然,这已经很不容易了。我本人的体会也很深。
就说这 78mb 的文本,除了raw data之外,标注文本的内容随便引用几行 [WECCL\Tagged Data\Narration\A1147ND.CLS:1-6] :
<s>
<WCOMP> <NAR> <GRADE1> <YR03> <TIMED> <SCORE?> <LENGTH362W> Join <VV0> Us <PPIO2> ! <!>
</s>
<s>
It <PPH1> is <VBZ> know <VV0> by <II> all <DB> that <DD1> Senior <JJ> 3 <MC> is <VBZ> rather <RG> tiring <JJ> and <CC> boring <JJ> . <.>
</s>
仔细看看,叫人哭笑不得。
这是什么技术?让人们如何查询?查询软件在哪里?
如何建立语料库?如何使用语料库?这些问题不应该早就提出来吗?
本人在做课件的时候,首先想到的是怎么方便老师的使用,怎么让老师有效的使用课件资源、本地资源和网络资源。不应该吗?
目前,“文本的堆积”已经很容易了,一夜间可以堆出两个 BNC 来,三夜间可以标注两个 BNC 来……但是然后使用这些有用的资源?
我建议对这些问题来个讨论,应该说是“越论越明”,“明”了,再做,不迟。
讨论:语料库的技术和语料库的应用开发
====
我不是想批评一个伟大的作品,我是想让大家来关心两个问题:
一、语料库的技术问题;
二、语料库的应用问题;
这两个问题其实是一个:应用,因为技术涉及到应用软件的开发。
光盘上的tools目录有两个工具,一个播放光盘上这种独特音频格式的插件,一个是ConCapp。而实际应用中的查询要复杂得多。对于多数人来讲,转换并不是件容易的事情。
再说这些1.5G的声音和文本有什么关系呢?还是一种堆积。
我早就想过建立多媒体语料库,但是力量单薄,不敢前进。
三张光盘,其中两张多的内容是声音,而文本的内容约 78mb。当然,这已经很不容易了。我本人的体会也很深。
就说这 78mb 的文本,除了raw data之外,标注文本的内容随便引用几行 [WECCL\Tagged Data\Narration\A1147ND.CLS:1-6] :
<s>
<WCOMP> <NAR> <GRADE1> <YR03> <TIMED> <SCORE?> <LENGTH362W> Join <VV0> Us <PPIO2> ! <!>
</s>
<s>
It <PPH1> is <VBZ> know <VV0> by <II> all <DB> that <DD1> Senior <JJ> 3 <MC> is <VBZ> rather <RG> tiring <JJ> and <CC> boring <JJ> . <.>
</s>
仔细看看,叫人哭笑不得。
这是什么技术?让人们如何查询?查询软件在哪里?
如何建立语料库?如何使用语料库?这些问题不应该早就提出来吗?
本人在做课件的时候,首先想到的是怎么方便老师的使用,怎么让老师有效的使用课件资源、本地资源和网络资源。不应该吗?
目前,“文本的堆积”已经很容易了,一夜间可以堆出两个 BNC 来,三夜间可以标注两个 BNC 来……但是然后使用这些有用的资源?
我建议对这些问题来个讨论,应该说是“越论越明”,“明”了,再做,不迟。
讨论:语料库的技术和语料库的应用开发
====
我不是想批评一个伟大的作品,我是想让大家来关心两个问题:
一、语料库的技术问题;
二、语料库的应用问题;
这两个问题其实是一个:应用,因为技术涉及到应用软件的开发。
光盘上的tools目录有两个工具,一个播放光盘上这种独特音频格式的插件,一个是ConCapp。而实际应用中的查询要复杂得多。对于多数人来讲,转换并不是件容易的事情。
再说这些1.5G的声音和文本有什么关系呢?还是一种堆积。
我早就想过建立多媒体语料库,但是力量单薄,不敢前进。
[本贴已被 作者 于 2005年11月07日 19时03分57秒 编辑过]