如何从网页抓取语料库

lc82111 · 2010-10-06

有没有这种现成的软件？
谢谢

oscar3 · 2010-10-07

回复: 如何从网页抓取语料库

作者 lc82111:
有没有这种现成的软件？
谢谢

不知道你具体说的是什么意思。是把别人的语料库拿过来？还是根据给定的主题词，将相关的网页下载下来？前者没有听说过，有也不会公开。后者倒是有，比如WST就可以，另外，有一个好像叫CAT的软件，有此功能。

lc82111 · 2010-10-07

回复: 如何从网页抓取语料库

谢谢楼上的
我的情况是这样我们单位有个内部网络我想从内网各个网站提取行业关键词。
我想这样办：
1。把网页下载下来。
2。用wordsmith的wordlist功能提取频率高的组合

这其中所用到的软件，有没有推荐的？非常感谢您的热心答复

superyangt · 2010-10-08

回复: 如何从网页抓取语料库

Offline Explorer或者Webzip都可以。

iCasino · 2010-10-08

回复: 如何从网页抓取语料库

You might try Nutch if you are comfortable with Java.

http://nutch.apache.org/

xusun575 · 2010-10-08

回复: 如何从网页抓取语料库

作者 lc82111:
谢谢楼上的
我的情况是这样我们单位有个内部网络我想从内网各个网站提取行业关键词。
我想这样办：
1。把网页下载下来。
2。用wordsmith的wordlist功能提取频率高的组合

这其中所用到的软件，有没有推荐的？非常感谢您的热心答复

没那么复杂. 首先把网页全部给down下来(现成工具很多,批量下载),然后除噪整理(本坛C友) 保存为WST可以处理的格式,最后用WST生成Wordlist(这个很简单)

seanxpq · 2010-10-08

回复: 如何从网页抓取语料库

http://www.fanpq.com/UploadFiles/2010-01/ROST%20TextExtractor.rar

xujiajin · 2010-10-10

回复: 如何从网页抓取语料库

作者 seanxpq:
http://www.fanpq.com/UploadFiles/2010-01/ROST%20TextExtractor.rar

楼上链接不可用。

seanxpq · 2010-10-10

回复: 如何从网页抓取语料库

作者 xujiajin:
楼上链接不可用。

用迅雷下载可以的且很快。“ROST TextExtractor ROST 网页正文抽取”

http://www.gougou.com/search?search...取&restype=-1&id=10000064&ty=0&pattern=0&xmp=0

ChaseWang · 2011-03-05

回复: 如何从网页抓取语料库

菜鸟问WST是什么？

qhdjason · 2011-03-05

回复: 如何从网页抓取语料库

WordSmith Tools:

http://www.lexically.net/wordsmith/

ChaseWang · 2011-03-05

回复: 如何从网页抓取语料库

谢谢LS
请问如何用WST抓取设定关键字的页面？

比如我想抓取China Daily上关键字包含“gay”的文章，然后保存成txt格式，来进行语料分析。请问有实现的方法吗？不吝赐教啊~

qhdjason · 2011-03-06

回复: 如何从网页抓取语料库

我觉得可以先用google搜索一下, 用inurl: 限制日期, 把google每页显示调到100,比如：

gay inurl:2011-03 site:www.chinadaily.com.cn

把这些网页都拷贝下来（应该可以自动完成吧，不过我折腾到现在，没弄出来。

）。

我发现该网站网页内容保存在<div style="xxxxx" id="content">正文</div>中，找个HTML2txt软件把这部分内容提取出来。

这是我能想到的笨办法，不知是否可行。我试了一下WST4的webgetter，但好像不能用，不知大家是怎么使用webgetter的？

如何从网页抓取语料库

lc82111

oscar3

高级会员

lc82111

superyangt

iCasino

普通会员

xusun575

高级会员

seanxpq

corpus explorer

xujiajin

管理员

seanxpq

corpus explorer

ChaseWang

qhdjason

ChaseWang

qhdjason