请问:如何可以做到把文本形式的语料库可以在线检索?

回复: 请问:如何可以做到把文本形式的语料库可以在线检索?

用lucene可以实现,速度奇快无比,java语言,

可以实现的工具和语言有很多,关键是如何去做到,而且这里很多人需要的其实就是按一个按钮就啥都能做到的,不需要学习,不需要花时间和精力,还要够快、够准、够猛、全功能、多制式……
 
回复: 请问:如何可以做到把文本形式的语料库可以在线检索?

这个有现成的软件,只要提供文本文件就可以了。
 
回复: 请问:如何可以做到把文本形式的语料库可以在线检索?

一个Perl做的,还是个雏形,一次能处理一个文件,按cgi方式执行即可,测试环境用的是apache 2+ Linux

#!/usr/bin/perl -w
open(FILE,"browncorpus.txt") or die("cannot open the file");
$/="";
$target='\b(the)\b';
$radius=50;
$width=2*$radius;
print "Content-Type: text/html\n\n";
print "<pre>";
while(<FILE>){
chomp;
s/\n/ /g;
while($_=~/$target/gi){
$match=$1;
$pos=pos($_);
$start=$pos-$radius-length($match);
if ($start<0){
$extract=substr($_,0,$radius) . "<font color='#cc0000'>" .$match . "</font>".substr($_,$pos,$radius);
$extract=$num++ . "\t" . (" " x - $start) . $extract;
} else {
$extract=$num++ . "\t" . substr($_,$start,$radius) . "<font color='#cc0000'>" .$match . "</font>".substr($_,$pos,$radius);

}
print "$extract\n";
}
}
print "</pre>";

#improved by iCasino in HNUC from Roger Bilisoly,2008. Practical Text Mining with Perl . Wiley.
 
Last edited:
回复: 请问:如何可以做到把文本形式的语料库可以在线检索?

运行Mr. iCasino提供的程序,提示程序第六行有问题。
 
回复: 请问:如何可以做到把文本形式的语料库可以在线检索?

对不起,我的环境是Windows,不是apache 2.06 + Linux .
 
回复: 请问:如何可以做到把文本形式的语料库可以在线检索?

对不起,我的环境是Windows,不是apache 2.06 + Linux .

Perl是跨平台的,结果应该不受影响, 刚才在Windows XP + ActivePerl 5.8 + Apache 2 for Windows下运行是可以的,删除$width=2*$radius;这行后,
将#!/usr/bin/perl -w 改为 #!C:\Perl\bin\perl -w 就可以了。只是同样的硬件,速度不可同日而语。
 
Last edited:
回复: 请问:如何可以做到把文本形式的语料库可以在线检索?

我现在还没具体用过sql,一般做了“索引”的文本检索速度就提高了。所以不知道使用sql是否需要一些特殊的设置那?
 
回复: 请问:如何可以做到把文本形式的语料库可以在线检索?

Perl是跨平台的,结果应该不受影响, 刚才在Windows XP + ActivePerl 5.8 + Apache 2 for Windows下运行是可以的,删除$width=2*$radius;这行后,
将#!/usr/bin/perl -w 改为 #!C:\Perl\bin\perl -w 就可以了。只是同样的硬件,速度不可同日而语。


Mr.iCasino:

首先谢谢你,按照你的提示,是可以的,速度也很快,但检索词要改变,就要将程序改变。并且好象不支持汉语。
 
Last edited:
回复: 请问:如何可以做到把文本形式的语料库可以在线检索?

不客气,一起学习。因本人主攻英语,汉语的问题确实没有考虑,至于其他功能还需要好好设计。
 
回复: 请问:如何可以做到把文本形式的语料库可以在线检索?

用lucene可以实现,速度奇快无比,java语言,


感谢你提供了一个新的方式!我以前的确还真是没听过,学到新东西了。
不过使用过的朋友能否说下和sql相比,有什么优势和不足?
 
Back
顶部