转载vinson xiong博士在http://202.204.128.82/forum/ 上的帖子
推荐几种适合大家做语料库时使用的开发语言
编程语言林林总总,有的比较复杂,涉及到底层,像C语言的指针,那是真 的让人望而生畏。但我们处理的语言文字,并不需要直接跟操作系统打交道,而且我们的本行还是语言学,花大量时间啃这些硬骨头有些得不偿失,以下推荐几种简 单、稍作学习即可使的编程语言。考虑到我们日常所用都是windows系统,因此所选语言都支持windows。
1)界面开发倾向采用RAD工具。我比较喜欢windows下的Visual Basic,C#,简单方便。其中,c#需要.net framework支持。这两种工具都像画图一样,button,label之类的,所见即所得。如果不是做比较复杂的图像处理,这两种语言应该是理想的 选择了。选择VB有个好处是,许多大型应用软件的脚本语言是VB的子集,像office系列的VBA。通了VB,VBA大概也差不多了。VB,C#基本上 在国内属于主流了,到中关村应该很容易找到D盘的,帮助文档系统自带,非常详细,而且是中文的,理解起来很方便;参考资料书籍的电子版也满世界都是,很多 网站也有例程。因此想做图形界面的话,VB/C#应该考虑。
2)真正的语言处理,推荐采用script语言,像Perl,python, Ruby之类的。Perl出得早,受众最多;後两者是后起之秀,在巨人的肩膀上,自然风头更劲。我比较懒,还是比较习惯老东西,因此多用perl。 perl的好处是简单,支持正则表达式,Hash,对文本处理尤其适合,通常写几行程序就可以完成日常语料处理工作。windows环境下的 ActivePerl还有PDK工具,可以编译成exe或dll直接分发,无需用户安装perl环境,这点我最喜欢。既能享受开发的方便快捷,又不增加用 户的负担。perl的还有个好处是做CGI程序,IIS和Apach下都支持,这样利用HTML+PERL好像省却了桌面程序的界面开发。
http://www.cpan.org : perl的数千个modules的集散地,你会有意想不到的发现。
http://www.activestate.com : activestate perl的开发公司, ActivePerl免费下载
3)统计计算采用R,Scilab,Octave,它们都是免费的,而且集成了 很多统计算法在内,只要勤搜索,网上总有好心人提供免费的packages,你就能直接用了,像SVD,多元回归等。Scilab和Octave据说与 Matlab极其相似,很多情况下在它们的运行环境中可以直接运行matlab程序。matlab的E书满世界都是,很好找的。但Octave在 windows环境中需要Cygwin的支持,因此貌似庞大了一些,又由于我先接触的R,因此多用R来做统计处理。
http://www.r-project.org/ : R语言及各类packages的下载地
http://www.gnu.org/software/octave/ : Octave
http://www.scilab.org/ :Scilab
enjoy it.
推荐几种适合大家做语料库时使用的开发语言
编程语言林林总总,有的比较复杂,涉及到底层,像C语言的指针,那是真 的让人望而生畏。但我们处理的语言文字,并不需要直接跟操作系统打交道,而且我们的本行还是语言学,花大量时间啃这些硬骨头有些得不偿失,以下推荐几种简 单、稍作学习即可使的编程语言。考虑到我们日常所用都是windows系统,因此所选语言都支持windows。
1)界面开发倾向采用RAD工具。我比较喜欢windows下的Visual Basic,C#,简单方便。其中,c#需要.net framework支持。这两种工具都像画图一样,button,label之类的,所见即所得。如果不是做比较复杂的图像处理,这两种语言应该是理想的 选择了。选择VB有个好处是,许多大型应用软件的脚本语言是VB的子集,像office系列的VBA。通了VB,VBA大概也差不多了。VB,C#基本上 在国内属于主流了,到中关村应该很容易找到D盘的,帮助文档系统自带,非常详细,而且是中文的,理解起来很方便;参考资料书籍的电子版也满世界都是,很多 网站也有例程。因此想做图形界面的话,VB/C#应该考虑。
2)真正的语言处理,推荐采用script语言,像Perl,python, Ruby之类的。Perl出得早,受众最多;後两者是后起之秀,在巨人的肩膀上,自然风头更劲。我比较懒,还是比较习惯老东西,因此多用perl。 perl的好处是简单,支持正则表达式,Hash,对文本处理尤其适合,通常写几行程序就可以完成日常语料处理工作。windows环境下的 ActivePerl还有PDK工具,可以编译成exe或dll直接分发,无需用户安装perl环境,这点我最喜欢。既能享受开发的方便快捷,又不增加用 户的负担。perl的还有个好处是做CGI程序,IIS和Apach下都支持,这样利用HTML+PERL好像省却了桌面程序的界面开发。
http://www.cpan.org : perl的数千个modules的集散地,你会有意想不到的发现。
http://www.activestate.com : activestate perl的开发公司, ActivePerl免费下载
3)统计计算采用R,Scilab,Octave,它们都是免费的,而且集成了 很多统计算法在内,只要勤搜索,网上总有好心人提供免费的packages,你就能直接用了,像SVD,多元回归等。Scilab和Octave据说与 Matlab极其相似,很多情况下在它们的运行环境中可以直接运行matlab程序。matlab的E书满世界都是,很好找的。但Octave在 windows环境中需要Cygwin的支持,因此貌似庞大了一些,又由于我先接触的R,因此多用R来做统计处理。
http://www.r-project.org/ : R语言及各类packages的下载地
http://www.gnu.org/software/octave/ : Octave
http://www.scilab.org/ :Scilab
enjoy it.