略说“语料库”的使用

  友人杨新安老师在博客上提到“语料库”这个术语。到本论坛进一步了解,得知语料库语言学是利用计算机技术进行语言学研究的学科。不免为好奇心所驱动,在网上狂搜了一番。除了一些网络版语料库,我还发现牛津大学提供免费的语料库下载。
  要下载牛津的语料库(http://ota.oucs.ox.ac.uk/scripts/download.php?otaid=2474),需要填写自己的电子邮箱。很快就可以收到牛津的信,根据它提供的下载网址,可以下载到一个16M的压缩文件。解压以后是一个2474.xml文件和2474文件夹,,而2474文件夹里有Lcmc等几个文件夹。
  我们知道,LCMC是兰开斯特汉语语料库的缩写,想来牛津的语料库就是在兰开斯特汉语语料库(LCMC)基础上发展的。
  XML(eXtensible Markup Language)即可扩展标记语言,它与HTML一样,都是SGML(Standard Generalized Markup Language,标准通用标记语言)。Xml是Internet环境中跨平台的,依赖于内容的技术,是当前处理结构化文档信息的有力工具。扩展标记语言XML是一种简单的数据存储语言,使用一系列简单的标记描述数据,而这些标记可以用方便的方式建立,虽然XML占用的空间比二进制数据要占用更多的空间,但XML极其简单易于掌握和使用。
  虽然“XML与HTML一样”、“极其简单易于掌握和使用”,我化了九牛二虎之力,仍无法打开。请教了年轻的电脑高手,他们也一筹莫展。后来在网上得知,需要使用Wordsmith tools程序打开,立马在网上下载了一个免费版的。这个版本的功能有限制,要获得全部功能,必须化80英镑购买,一般人购买有一定的难度。
  继续搜索,总算找到了两个免费程序,分别叫antconc和Xaira。antconc是“开源程序”,即源代码开放的程序,既有windows版本的,也有Linux版本的。它只有一个可执行文件,可以放进U盘直接运行,虽然方便,但功能稍弱,这里不拟讨论。
  下载地址:http://www.antlab.sci.waseda.ac.jp/software.html
  视频演示:http://www.antlab.sci.waseda.ac.jp/...tarted/tutorials_antconc_getting_started.html
  下面着重谈谈Xaira,其下载地址是(请任选一个):
http://sourceforge.net/project/showfiles.php?group_id=130289&package_id=142832&release_id=495634
http://www.hope.com.tw/Download/Show2.asp?O=200504281514316454
http://www.sourceforgecn.net/Projects/x/xa/xaira/
  下载以后,安装非常简单,一路next就是了。
  安装以后,在“开始——程序”里有两个程序,在使用牛津语料库之前要先运行“Xaira tools”。
  1)先打开“Xaira tools”,Tools,选“Index wizard”,然后点“下一步”(下文不再重复“点‘下一步’”)。

50259537g6340d9894b6a

  2)给新文件夹命名,随意写一个。我这里写“牛津”的拼音。

50259537g6340e042ff0a


  3)确定放置即将创建的语言库文件夹的位置,点“下一步”。

50259537g6340e2e59e2d

  4)点“下一步”。

50259537g6340e63e4448

  5)点“下一步”。

50259537g6340e98d7837

  6)找到文本存储的地方,即从牛津得到的文件位置(p04)

50259537g6340f13db272

 7)开始转换(p05)

50259537g6340fbf14529

(待续,如果看不见图片的话,请访问:http://blog.sina.com.cn/s/blog_502595370100cdji.html
 
回复: 略说“语料库”的使用(续一)

  8)继续

50259537g63411b339d00

  9)继续

50259537g63411d9f421c

  10)继续

50259537g63411fea0f57

  11)继续


50259537g634122c60ca3

  12)继续

50259537g6341252cc4c4

  13)按上面的“Index”后,出现下面的DOS界面,需要十来分钟,静待这个窗口自动关闭

50259537g634129f20ad1

14)点“完成”,牛津语料库已经可以使用了。

50259537g63412dbd4ce4

(待续)
 
略说“语料库”的使用(续二)

完成了上面的设置以后,接下来就是使用牛津语料库了,这可是自己构建的“个人教学语料库”了。可惜对于语言库语言学我是外行,只能瞎人摸象,说说而已,请方家指正。
  1)点“开始-程序- Xaira”,启动“Xaira Client”。并且点“File-Open”,打开刚才安装的文件夹里的相关文件。其实,不启动“Xaira Client”,直接双击这个文件,也是可以的的。

50259537g7053a9f47cc9

  2)点下图①,出现新窗口。
  在框内输入关键词(如例中“高兴”),点②

50259537g634f08864e42

  
  3)双击点上图的③(如果有多个,双击其中一个),将出现下面的窗口。这大概就是我们需要的语料了。如果出现的是乱码,请在“View-Font”里设置为“宋体”。
  
50259537g634f0aa6e3bc

  4)点击下图箭头所示位置和后面的下拉选框,可以改变界面。

50259537g7054b5823635


50259537g7054b5a6dc34

  其它用法请大家摸索,我是江郎才尽了……​
 
Last edited:
Back
顶部