征集语料库软件需求

williamJia

开放语料库项目
目前,语料库分析和检索软件有很多,功能也各不相同,我想开发一个包含大多数常用功能的语料库检索和分析软件(自由软件),请各位老师和同学提供您所需要的需求。
 
除了常用的功能外,能否考虑:
1、计算N gram
2、计算关键词:按照通行的几种方法
3、提取标注信息,例如,对于标注了词性信息的语料,可以选择只提取其中标注的词性检索
4、按句检索:现行的软件大多是指定宽度
5、各种排序,按词,按标注信息,左边,右边,倒序
6、词表:形符和类符,比如总共有多少个词,多少类词
7、处理各种标注格式:xml格式,北大格式,以及其他的标注格式
8、对标注的tag进行检索,对head信息进行检索。
9、要支持中文,易用

谢谢!
 
并且对您的要求提出更明确的解释,最好有例子。
我们做软件需求分析和代码实现的比例是8:2
没有清晰明确的需求,开发难以进行
 
格式一:
中国/ns 人民/n 万岁/n !/w

格式二:
中国\[ns]人民\[n]万岁\[n]!\[w]

格式三

<any type="ns"><src>中国</src></any><any type="n"><src>人民</src></any><any type="n"><src>万岁</src></any><any type="w"><src>!</src></any>

希望以上三种格式都能处理。
 
逐利是软件开发商的天然目标,故对自由共享软件开发人,大家也不可有太高期望啦.
能在处理中文方面超过现存软件就值得大家鼓与呼罗.在功能上应该与antconc(这可不让SWT哦) 或至少 concapp相当吧.
比照西文的tools, 处理中文 首先是分词,能比现有提高一点正确率吗?此外在中外(英)文本的自动对齐程度能高一些(句对齐啦),以降低一点点体力付出.

先看小一分:凭你一己之力,能担负起这一大任?
再刺激一下:是东北那疙旮旯不?
 
声明:
我的软件目前还没有处理中文的打算,因为中文的分词一直都没有突破性的进展。
我希望能够开发的是处理专门处理英语的语料库软件,因为目前的软件鱼龙混杂,各有短长,进行语料库分析往往要同时使用几个软件,我个人觉得很不方便,希望能开发一套囊括大部分常用功能的语料库软件。

我现在希望对需求进行整理,以便确定算法。

一个人的力量是有限的,但是大家的力量是无穷的。
 
回复:征集语料库软件需求

以下是引用 williamJia2006-7-31 18:45:39 的发言:
声明:
我的软件目前还没有处理中文的打算,因为中文的分词一直都没有突破性的进展。
我希望能够开发的是处理专门处理英语的语料库软件,因为目前的软件鱼龙混杂,各有短长,进行语料库分析往往要同时使用几个软件,我个人觉得很不方便,希望能开发一套囊括大部分常用功能的语料库软件。

我现在希望对需求进行整理,以便确定算法。

一个人的力量是有限的,但是大家的力量是无穷的。

精神可嘉,果然是东北活雷锋啊. 但英文非国人之长,仍希望能在中文上有所作为.
 
回复:征集语料库软件需求

以下是引用 williamJia2006-7-31 18:45:39 的发言:
声明:
我的软件目前还没有处理中文的打算,因为中文的分词一直都没有突破性的进展。
我希望能够开发的是处理专门处理英语的语料库软件,因为目前的软件鱼龙混杂,各有短长,进行语料库分析往往要同时使用几个软件,我个人觉得很不方便,希望能开发一套囊括大部分常用功能的语料库软件。
Aha! You will be very much appreciated for your effort, but frankly I don't think it is a good idea to develop a tool to deal with English only. Your tool might be functionally almighty, hopefully, but less likely it could be developed as or more powerful or comprehensive than the existing tools like wst4 or antconc in the foreseeable future. Why should you bother to do it?
 
回复:征集语料库软件需求

以下是引用hancunxin 在2006-8-2 10:26:14的发言:
本站中的"语料库工具箱"其实已经含盖了语料分析的大部分功能.


据我所知,国内至少有两家正在做同样的事情,而且已经完成了部分工作.
 
语料库工具箱处理大文本很多功能不行,速度很慢。这是一个缺陷,但是我们也不应该苛求免费软件很多。
 
(以下仅代表我个人观点)

我简单研究一下语料库工具箱中的工具,我觉得不太好用。首先,界面不够友好;其次,功能有限;再次,效率不高。能与WS相当的软件几乎没有,于是我努力地研究了一下WS4,感觉它功能丰富,效率也不错,但是很难用,这个软件的整体设计有问题,有点乱;另外购买不方便。

作为一个程序员,我清楚程序能够实现什么,更清楚我自己能干什么。我在这里要讨论的内容不是to be or not to be 的问题, 想必很多人没有理解这一点。

研究算法和写软件是我个人的兴趣,我相信在IT世界里没有最好,只有更好。优秀的程序员要具有3大要素:懒惰、急燥、骄傲。懒惰:要用最简单的方法解决问题;急燥:要寻找最快的方法解决问题;骄傲:永远不相信现在的方法是最好的,相信自己能够找到更好的方法。

我个人认为中语料库的研究应该有更多职业程序员的加入,使用现成的工具和自己开发工具并不矛盾。另外,语料库研究者有必要学习至少一门编程语言,这样才能心手合一,而不受到任何工具的限制。
 
I can agree with you but still hope that your forthcoming tool will be unique in processing texts in Chinese, either simplified or traditional.
 
回复:征集语料库软件需求

以下是引用 xusun5752006-8-2 15:56:03 的发言:
I can agree with you but still hope that your forthcoming tool will be unique in processing texts in Chinese, either simplified or traditional.


my strongest support
 
Back
顶部