手头的BNC语料库全是XML格式,请问应该怎样正常使用呢?

本文由 sandrazeng1987@163.com2015-10-03 发表於 "常见问题" 讨论区

  1. 从别人那里拷来的BNC语料库,其中texts文件夹下全是XML格式的文件,打开之后都是看不懂的类似代码的东西。请问群里的大神们,是我拷贝的文件本身就不对,还是说有办法正常使用这些文件呢?

    最近都在线的好几个英语语料库都用不了,不知道是不是网站除了问题。
    希望各位不吝赐教~感谢大家了!
     
  2. 从别人那里拷来的BNC语料库,其中texts文件夹下全是XML格式的文件,打开之后都是看不懂的类似代码的东西。请问群里的大神们,是我拷贝的文件本身就不对,还是说有办法正常使用这些文件呢?
    ------------------------------------------------------------
    BNC语料是xml格式的。一般里面有xml格式专门的搜索软件
     
  3. 谢谢您的回复!只是我考下来的文件中并没有涵盖任何搜索软件,我试过antconc也不能打开,请问您能告诉我怎么用,用什么软件能搜索呢?:)
     
  4. 您客气了。其实我也不是太清楚,只是看到没有人回复,故而斗胆就说了几句。
    下面是我在BNC官网上找到的,您可以参考一下。
    “XAIRA (XML Aware Indexing and Retrieval Architecture) is a general purpose XML search engine developed specifically for access to the BNC and similar language corpora. XAIRA can be used with any well-formed XML corpus, but takes full advantage of the detailed XML markup in the BNC. It is provided free of charge along with the BNC XML Edition, BNC Baby, and BNC Sampler corpora. You can download the latest version of XAIRA from SourceForge.net and more information about the software can be found on the XAIRA webpage. Please note that OUCS does not support Xaira.”
    原文链接:http://www.natcorp.ox.ac.uk/tools/index.xml 。 里面您可以找到更为详细的说明。
    希望能对您有所帮助。
     
  5. Haiyang Ai

    Haiyang Ai Administrator Staff Member

    Professor Mark Davies used to have an excellent search interface for BNC, but it has been taken down.
    As aarondeng mentioned, looking at its documentation might help.
     
  6. 用Xaira检索BNC XML Edition 得先做index……,最后做出来的文件有80多个G,但是我还是出现了out of memory的错误,最终不了了之了。
     
  7. 我也遇到了同样的问题,自己从网上下载的BNC sampler, 但里面全部都是代码,不知道如何使用,求大神们指导。。。
     
  8. sourceforge上可以下载xaira-1.26版的msi安装文件。检索肯定离不开index,索引文档非常复杂,也很占空间。不过为了检索BNC还是值得的。
    另外也可以上cqpweb.lancs.ac.uk 来检索