求助如果要建语料库,用xml文件那么如何存取?

本文由 chb2015-03-13 发表於 "文献求助区" 讨论区

  1. chb

    chb

    要做语料库,用xml文件标记,那么如何实现检索啊?还是不用xml文件直接将所需数据存入数据库?用select语句检索,但是这样的话如果数据庞大的话很影响数据库响应,如果存入xmlb标记文件,怎么实现检索?解析xml文件的话,即使是Sax解析也很影响内存?还是影响不大?还是采用正则表达式?由于刚刚接触这个东西,关于语料库的创建和检索都不了解,网上的相关资料也说得模模糊糊,具体怎么实现的?----有没有相关详细论文或者资料?懂的能详细给我说说?不甚感激-----:)
     
  2. xiaoz

    xiaoz 永远的超级管理员 Staff Member

    回复: 求助如果要建语料库,用xml文件那么如何存取?

    You can use the open source tool XAIRA (XML Aware Indexing and Retrieval Architecture) to index and analyze your XML corpus.

    Download: http://sourceforge.net/projects/xaira/files/
     
  3. chb

    chb

    回复: 求助如果要建语料库,用xml文件那么如何存取?

    thank you