请教高手:有没有xml文件的信息检索的现成程序或软件

Re: 回复: Re: 回复: 请教高手:有没有xml文件的信息检索的现成程序或软件

版主,程序我试过了,和Haiyang老师开始做的pyextracter一样,也是把文件全部转换成记事本格式了,没有提取出mehtod部分,可能是没有见到源文件的缘故。后来Haiyang老师又根据我的文件调试好了,可以提取出来了。非常感谢大家!

是呀,应该给个源文件就好了。
 
回复: Re: 请教高手:有没有xml文件的信息检索的现成程序或软件

这样的话,是不是每次检索不同的内容就得修改一次代码?比如下次要检索<conclusion>?

对,需要修改代码,不过道理是相同的。把代码中原来提取method的关键词替换成你下次要提取的关键词就可以了。
 
回复: Re: 请教高手:有没有xml文件的信息检索的现成程序或软件

试过了,如果检索其它项如conclusion,只要把程序里的mehtod全部替换成conclusion就可以了,非常好用!再次感谢Haiyang

你好,我很想知道,你的文本有什么特点,为什么第一次提取失败了?做了什么调整后又成功了,以后大家好都注意下,呵呵。
 
回复: 请教高手:有没有xml文件的信息检索的现成程序或软件

同一个文件中有多个 <method>blah blah blah</method> 的内容,所以修改了 Regular Expression 以进行匹配。
 
Re: 回复: 请教高手:有没有xml文件的信息检索的现成程序或软件

同一个文件中有多个 <method>blah blah blah</method> 的内容,所以修改了 Regular Expression 以进行匹配。
你是怎样修改的,在perl怎么修改后还不成功呢?
 
回复: 请教高手:有没有xml文件的信息检索的现成程序或软件

The quantitifier * in regular expressions is "greedy" - in this case the pattern .* will include everything between the first instance of <method> and the last instance of </method>. You can use a question mark to limit it - .*?


同一个文件中有多个 <method>blah blah blah</method> 的内容,所以修改了 Regular Expression 以进行匹配。
 
Re: 回复: 请教高手:有没有xml文件的信息检索的现成程序或软件

你是怎样修改的,在perl怎么修改后还不成功呢?


原因找到了,因为input是按 行读的,他这个文件只有一行,所以只输出一个。

后来用表就可以了
 
回复: Re: 请教高手:有没有xml文件的信息检索的现成程序或软件

你好,我很想知道,你的文本有什么特点,为什么第一次提取失败了?做了什么调整后又成功了,以后大家好都注意下,呵呵。

文本就是最简单的xml格式,只是一个文件里同一格式出现多次。至于怎样调整的,本人菜鸟得很,楼上专家们在讨论。共勉啊
 
回复: 请教高手:有没有xml文件的信息检索的现成程序或软件

版主,Haiyang,Perl和Python我一时也整不明白,所以想斗胆再请教一下,下面文本中,如果想把所有major是mehtematics的text部分全提出来放到一起,应该怎么做?每篇作文是一个独立的文件。谢谢。

<?xml version="1.0" encoding="UTF-8" standalone="no" ?>
- <writtenenglish date="2007-3-12" id="root" itemid="205">
<type>timed composition</type>

<level>3</level>

<major>Mathematics</major>

<style>argumentation</style>

<title>Advantages and disadvantages of electronic dictionary</title>

- <text>
<p>As we know, Electronic dictionary takes us much convenience on the English study. It can help us know the meaning quickly. improve our reading speed.</p>

<p>However, it have many disadvantages. Many student have electronic dictionary rely too much on it, even radical words some students also look up it. If so, it can waste too much time on it. What’s more, many students play games instead of studing in it.</p>

<p>So, electronic dictionary have both advantages and disadvantages, We should make proper use it, and make it take us convenience.</p>

</text>


</writtenenglish>
 
回复: 请教高手:有没有xml文件的信息检索的现成程序或软件

Here's a python script to do the job. Let me know if this is not working for you.

  1. First, download and install Python Interpreter, if you don't have one.
  2. Download the pyXML.zip (attached); unzip it and put in the same folder as your xml files.
  3. Double click the script (pyXML.py) and a report will be generated containing the content you need.
 

附件

  • pyXML.zip
    559 bytes · 浏览: 26
回复: 请教高手:有没有xml文件的信息检索的现成程序或软件

Haiyang,刚刚试过,很好用,如果想检索其它项也都成功,不胜感激!帮我这么大忙,真是应该请客啊。:)

Python的语言好像不那么令人生畏,很想学习一下,请问哪里能找到通俗易懂又和语料库有关系的材料呢?
 
回复: 请教高手:有没有xml文件的信息检索的现成程序或软件

Haiyang,刚刚试过,很好用,如果想检索其它项也都成功,不胜感激!帮我这么大忙,真是应该请客啊。:)

Python的语言好像不那么令人生畏,很想学习一下,请问哪里能找到通俗易懂又和语料库有关系的材料呢?

好用就好。Python 语法简洁一些,下面这两本书都是入门的好教材:
  • Learning Python(3rd)
  • How to Think Like a Computer Scientist: Learning with Python (零起点)

http://www.corpus4u.org/wiki/index.php/Programming_in_corpus_linguistics
 
回复: 请教高手:有没有xml文件的信息检索的现成程序或软件

谢谢Haiyang指点.
 
Interesting applications but don't WST and AntConc both already have a function to limit the search/count domain to within specific tags, whereby you don;t need to change anything with the original text?
 
回复: 请教高手:有没有xml文件的信息检索的现成程序或软件

既然这些xml文件都不算大,用perl处理时一次将整个文件全部读入内存,就可以用regex匹配了。在文本所在目录中循环处理所有xml,将结果输出到指定文本文件。“将所有major是mathematics的text部分全提出来放到一起”,包含条件判断,还是编程比较好。
 
回复: Re: 回复: 请教高手:有没有xml文件的信息检索的现成程序或软件

给我一个你们的文件,我来帮你写个程序抽取你需要的信息吧。

非常感谢您的热心帮助,在论坛诸位老师的帮助下,已经提取出来了。再次感谢您。
 
Back
顶部