如何从网页抓取语料库

回复: 如何从网页抓取语料库

有没有这种现成的软件?
谢谢:)

不知道你具体说的是什么意思。是把别人的语料库拿过来?还是根据给定的主题词,将相关的网页下载下来?前者没有听说过,有也不会公开。后者倒是有,比如WST就可以,另外,有一个好像叫CAT的软件,有此功能。
 
回复: 如何从网页抓取语料库

谢谢楼上的
我的情况是这样 我们单位有个内部网络 我想从内网各个网站提取行业关键词 。
我想这样办:
1。把网页下载下来。
2。用wordsmith的wordlist功能提取频率高的组合

这其中所用到的软件,有没有推荐的?非常感谢您的热心答复
 
回复: 如何从网页抓取语料库

谢谢楼上的
我的情况是这样 我们单位有个内部网络 我想从内网各个网站提取行业关键词 。
我想这样办:
1。把网页下载下来。
2。用wordsmith的wordlist功能提取频率高的组合

这其中所用到的软件,有没有推荐的?非常感谢您的热心答复
没那么复杂. 首先把网页全部给down下来(现成工具很多,批量下载),然后除噪整理(本坛C友) 保存为WST可以处理的格式,最后用WST生成Wordlist(这个很简单)
 
回复: 如何从网页抓取语料库

谢谢LS
请问如何用WST抓取设定关键字的页面?

比如我想抓取China Daily上关键字包含“gay”的文章,然后保存成txt格式,来进行语料分析。请问有实现的方法吗?不吝赐教啊~
 
回复: 如何从网页抓取语料库

我觉得可以先用google搜索一下, 用inurl: 限制日期, 把google每页显示调到100,比如:

gay inurl:2011-03 site:www.chinadaily.com.cn

把这些网页都拷贝下来(应该可以自动完成吧,不过我折腾到现在,没弄出来。:mad:)。

我发现该网站网页内容保存在<div style="xxxxx" id="content">正文</div>中,找个HTML2txt软件把这部分内容提取出来。

这是我能想到的笨办法,不知是否可行。我试了一下WST4的webgetter,但好像不能用,不知大家是怎么使用webgetter的?
 
Back
顶部