oscar3 高级会员 2010-10-07 #2 回复: 如何从网页抓取语料库 作者 lc82111: 有没有这种现成的软件? 谢谢 Click to expand... 不知道你具体说的是什么意思。是把别人的语料库拿过来?还是根据给定的主题词,将相关的网页下载下来?前者没有听说过,有也不会公开。后者倒是有,比如WST就可以,另外,有一个好像叫CAT的软件,有此功能。
回复: 如何从网页抓取语料库 作者 lc82111: 有没有这种现成的软件? 谢谢 Click to expand... 不知道你具体说的是什么意思。是把别人的语料库拿过来?还是根据给定的主题词,将相关的网页下载下来?前者没有听说过,有也不会公开。后者倒是有,比如WST就可以,另外,有一个好像叫CAT的软件,有此功能。
L lc82111 2010-10-07 #3 回复: 如何从网页抓取语料库 谢谢楼上的 我的情况是这样 我们单位有个内部网络 我想从内网各个网站提取行业关键词 。 我想这样办: 1。把网页下载下来。 2。用wordsmith的wordlist功能提取频率高的组合 这其中所用到的软件,有没有推荐的?非常感谢您的热心答复
回复: 如何从网页抓取语料库 谢谢楼上的 我的情况是这样 我们单位有个内部网络 我想从内网各个网站提取行业关键词 。 我想这样办: 1。把网页下载下来。 2。用wordsmith的wordlist功能提取频率高的组合 这其中所用到的软件,有没有推荐的?非常感谢您的热心答复
I iCasino 普通会员 2010-10-08 #5 回复: 如何从网页抓取语料库 You might try Nutch if you are comfortable with Java. http://nutch.apache.org/
xusun575 高级会员 2010-10-08 #6 回复: 如何从网页抓取语料库 作者 lc82111: 谢谢楼上的 我的情况是这样 我们单位有个内部网络 我想从内网各个网站提取行业关键词 。 我想这样办: 1。把网页下载下来。 2。用wordsmith的wordlist功能提取频率高的组合 这其中所用到的软件,有没有推荐的?非常感谢您的热心答复 Click to expand... 没那么复杂. 首先把网页全部给down下来(现成工具很多,批量下载),然后除噪整理(本坛C友) 保存为WST可以处理的格式,最后用WST生成Wordlist(这个很简单)
回复: 如何从网页抓取语料库 作者 lc82111: 谢谢楼上的 我的情况是这样 我们单位有个内部网络 我想从内网各个网站提取行业关键词 。 我想这样办: 1。把网页下载下来。 2。用wordsmith的wordlist功能提取频率高的组合 这其中所用到的软件,有没有推荐的?非常感谢您的热心答复 Click to expand... 没那么复杂. 首先把网页全部给down下来(现成工具很多,批量下载),然后除噪整理(本坛C友) 保存为WST可以处理的格式,最后用WST生成Wordlist(这个很简单)
seanxpq corpus explorer 2010-10-08 #7 回复: 如何从网页抓取语料库 http://www.fanpq.com/UploadFiles/2010-01/ROST%20TextExtractor.rar
xujiajin 管理员 Staff member 2010-10-10 #8 回复: 如何从网页抓取语料库 作者 seanxpq: http://www.fanpq.com/UploadFiles/2010-01/ROST%20TextExtractor.rar Click to expand... 楼上链接不可用。
回复: 如何从网页抓取语料库 作者 seanxpq: http://www.fanpq.com/UploadFiles/2010-01/ROST%20TextExtractor.rar Click to expand... 楼上链接不可用。
seanxpq corpus explorer 2010-10-10 #9 回复: 如何从网页抓取语料库 作者 xujiajin: 楼上链接不可用。 Click to expand... 用迅雷下载可以的且很快。“ROST TextExtractor ROST 网页正文抽取” http://www.gougou.com/search?search...取&restype=-1&id=10000064&ty=0&pattern=0&xmp=0
回复: 如何从网页抓取语料库 作者 xujiajin: 楼上链接不可用。 Click to expand... 用迅雷下载可以的且很快。“ROST TextExtractor ROST 网页正文抽取” http://www.gougou.com/search?search...取&restype=-1&id=10000064&ty=0&pattern=0&xmp=0
C ChaseWang 2011-03-05 #12 回复: 如何从网页抓取语料库 谢谢LS 请问如何用WST抓取设定关键字的页面? 比如我想抓取China Daily上关键字包含“gay”的文章,然后保存成txt格式,来进行语料分析。请问有实现的方法吗?不吝赐教啊~
回复: 如何从网页抓取语料库 谢谢LS 请问如何用WST抓取设定关键字的页面? 比如我想抓取China Daily上关键字包含“gay”的文章,然后保存成txt格式,来进行语料分析。请问有实现的方法吗?不吝赐教啊~
Q qhdjason 2011-03-06 #13 回复: 如何从网页抓取语料库 我觉得可以先用google搜索一下, 用inurl: 限制日期, 把google每页显示调到100,比如: gay inurl:2011-03 site:www.chinadaily.com.cn 把这些网页都拷贝下来(应该可以自动完成吧,不过我折腾到现在,没弄出来。)。 我发现该网站网页内容保存在<div style="xxxxx" id="content">正文</div>中,找个HTML2txt软件把这部分内容提取出来。 这是我能想到的笨办法,不知是否可行。我试了一下WST4的webgetter,但好像不能用,不知大家是怎么使用webgetter的?
回复: 如何从网页抓取语料库 我觉得可以先用google搜索一下, 用inurl: 限制日期, 把google每页显示调到100,比如: gay inurl:2011-03 site:www.chinadaily.com.cn 把这些网页都拷贝下来(应该可以自动完成吧,不过我折腾到现在,没弄出来。)。 我发现该网站网页内容保存在<div style="xxxxx" id="content">正文</div>中,找个HTML2txt软件把这部分内容提取出来。 这是我能想到的笨办法,不知是否可行。我试了一下WST4的webgetter,但好像不能用,不知大家是怎么使用webgetter的?