友人杨新安老师在博客上提到“语料库”这个术语。到本论坛进一步了解,得知语料库语言学是利用计算机技术进行语言学研究的学科。不免为好奇心所驱动,在网上狂搜了一番。除了一些网络版语料库,我还发现牛津大学提供免费的语料库下载。
要下载牛津的语料库(http://ota.oucs.ox.ac.uk/scripts/download.php?otaid=2474),需要填写自己的电子邮箱。很快就可以收到牛津的信,根据它提供的下载网址,可以下载到一个16M的压缩文件。解压以后是一个2474.xml文件和2474文件夹,,而2474文件夹里有Lcmc等几个文件夹。
我们知道,LCMC是兰开斯特汉语语料库的缩写,想来牛津的语料库就是在兰开斯特汉语语料库(LCMC)基础上发展的。
XML(eXtensible Markup Language)即可扩展标记语言,它与HTML一样,都是SGML(Standard Generalized Markup Language,标准通用标记语言)。Xml是Internet环境中跨平台的,依赖于内容的技术,是当前处理结构化文档信息的有力工具。扩展标记语言XML是一种简单的数据存储语言,使用一系列简单的标记描述数据,而这些标记可以用方便的方式建立,虽然XML占用的空间比二进制数据要占用更多的空间,但XML极其简单易于掌握和使用。
虽然“XML与HTML一样”、“极其简单易于掌握和使用”,我化了九牛二虎之力,仍无法打开。请教了年轻的电脑高手,他们也一筹莫展。后来在网上得知,需要使用Wordsmith tools程序打开,立马在网上下载了一个免费版的。这个版本的功能有限制,要获得全部功能,必须化80英镑购买,一般人购买有一定的难度。
继续搜索,总算找到了两个免费程序,分别叫antconc和Xaira。antconc是“开源程序”,即源代码开放的程序,既有windows版本的,也有Linux版本的。它只有一个可执行文件,可以放进U盘直接运行,虽然方便,但功能稍弱,这里不拟讨论。
下载地址:http://www.antlab.sci.waseda.ac.jp/software.html
视频演示:http://www.antlab.sci.waseda.ac.jp/...tarted/tutorials_antconc_getting_started.html
下面着重谈谈Xaira,其下载地址是(请任选一个):
http://sourceforge.net/project/showfiles.php?group_id=130289&package_id=142832&release_id=495634
http://www.hope.com.tw/Download/Show2.asp?O=200504281514316454
http://www.sourceforgecn.net/Projects/x/xa/xaira/
下载以后,安装非常简单,一路next就是了。
安装以后,在“开始——程序”里有两个程序,在使用牛津语料库之前要先运行“Xaira tools”。
1)先打开“Xaira tools”,Tools,选“Index wizard”,然后点“下一步”(下文不再重复“点‘下一步’”)。
2)给新文件夹命名,随意写一个。我这里写“牛津”的拼音。
3)确定放置即将创建的语言库文件夹的位置,点“下一步”。
4)点“下一步”。
5)点“下一步”。
6)找到文本存储的地方,即从牛津得到的文件位置(p04)
7)开始转换(p05)
(待续,如果看不见图片的话,请访问:http://blog.sina.com.cn/s/blog_502595370100cdji.html)
要下载牛津的语料库(http://ota.oucs.ox.ac.uk/scripts/download.php?otaid=2474),需要填写自己的电子邮箱。很快就可以收到牛津的信,根据它提供的下载网址,可以下载到一个16M的压缩文件。解压以后是一个2474.xml文件和2474文件夹,,而2474文件夹里有Lcmc等几个文件夹。
我们知道,LCMC是兰开斯特汉语语料库的缩写,想来牛津的语料库就是在兰开斯特汉语语料库(LCMC)基础上发展的。
XML(eXtensible Markup Language)即可扩展标记语言,它与HTML一样,都是SGML(Standard Generalized Markup Language,标准通用标记语言)。Xml是Internet环境中跨平台的,依赖于内容的技术,是当前处理结构化文档信息的有力工具。扩展标记语言XML是一种简单的数据存储语言,使用一系列简单的标记描述数据,而这些标记可以用方便的方式建立,虽然XML占用的空间比二进制数据要占用更多的空间,但XML极其简单易于掌握和使用。
虽然“XML与HTML一样”、“极其简单易于掌握和使用”,我化了九牛二虎之力,仍无法打开。请教了年轻的电脑高手,他们也一筹莫展。后来在网上得知,需要使用Wordsmith tools程序打开,立马在网上下载了一个免费版的。这个版本的功能有限制,要获得全部功能,必须化80英镑购买,一般人购买有一定的难度。
继续搜索,总算找到了两个免费程序,分别叫antconc和Xaira。antconc是“开源程序”,即源代码开放的程序,既有windows版本的,也有Linux版本的。它只有一个可执行文件,可以放进U盘直接运行,虽然方便,但功能稍弱,这里不拟讨论。
下载地址:http://www.antlab.sci.waseda.ac.jp/software.html
视频演示:http://www.antlab.sci.waseda.ac.jp/...tarted/tutorials_antconc_getting_started.html
下面着重谈谈Xaira,其下载地址是(请任选一个):
http://sourceforge.net/project/showfiles.php?group_id=130289&package_id=142832&release_id=495634
http://www.hope.com.tw/Download/Show2.asp?O=200504281514316454
http://www.sourceforgecn.net/Projects/x/xa/xaira/
下载以后,安装非常简单,一路next就是了。
安装以后,在“开始——程序”里有两个程序,在使用牛津语料库之前要先运行“Xaira tools”。
1)先打开“Xaira tools”,Tools,选“Index wizard”,然后点“下一步”(下文不再重复“点‘下一步’”)。
2)给新文件夹命名,随意写一个。我这里写“牛津”的拼音。
3)确定放置即将创建的语言库文件夹的位置,点“下一步”。
4)点“下一步”。
5)点“下一步”。
6)找到文本存储的地方,即从牛津得到的文件位置(p04)
7)开始转换(p05)
(待续,如果看不见图片的话,请访问:http://blog.sina.com.cn/s/blog_502595370100cdji.html)