如何以直观形式给出单词的搭配词的出现频率和MI值? word cloud visualization

回复: 如何以平面图的直观形式给出一个单词的搭配词的出现频率和MI值,或者,单词出现在某个位置上的概率?

1. 到了学校,终于能打开Wordle.net,看来教育网被屏蔽的内容少一些。可是按照要求粘帖了英语文本之后,却没有显示。改了安全限制设置还是不行,不知道该怎么办?:confused:

2. 找到陶老师推荐的地址下载了IBM的word cloud generator后,无法安装。以为是因为Java没装的事,赶紧下了一个Java runtime environment 6u17版,然后点击“ibm-wordcloud.jar",还是没有反应,各位大侠看一下是怎么回事啊?:confused: 截屏图在附件中。谢谢啊!
 

附件

  • wordcloud installation screenshot.doc
    140 KB · 浏览: 23
回复: 如何以平面图的直观形式给出一个单词的搭配词的出现频率和MI值,或者,单词出现在某个位置上的概率?

1. 到了学校,终于能打开Wordle.net,看来教育网被屏蔽的内容少一些。可是按照要求粘帖了英语文本之后,却没有显示。改了安全限制设置还是不行,不知道该怎么办?:confused:

2. 找到陶老师推荐的地址下载了IBM的word cloud generator后,无法安装。以为是因为Java没装的事,赶紧下了一个Java runtime environment 6u17版,然后点击“ibm-wordcloud.jar",还是没有反应,各位大侠看一下是怎么回事啊?:confused: 截屏图在附件中。谢谢啊!

对于问题一,建议你再试试其他机器或浏览器(IE或Firefox)。

至于问题二,你应该读一下说明,那个jar文件并不是执行文件。如果要处理UTF-8的中文分好词了的文本,要先修改configuration.txt文件里的第17行,把FONT改成中文的(如mingliu.ttc),同时修改两个tabconfig.txt里的第一行;然后把自己的文件复制到examples文件夹里,把run-example.bat里的文件名改成自己的,双击就能运行出结果了。

刚才应同事的要求,又做了一个。文本是广西来宾烟草局韩局长的香艳日记,为更好显示日记内容,采用了stopwords,过滤掉了日期、气温等词语。这里是结果,看起来这个局长真是好命,工作主要是吃饭。
 

附件

  • diary.png
    diary.png
    126.9 KB · 浏览: 4
回复: 如何以平面图的直观形式给出一个单词的搭配词的出现频率和MI值,或者,单词出现在某个位置上的概率?

至于问题二,你应该读一下说明,那个jar文件并不是执行文件。如果要处理UTF-8的中文分好词了的文本,要先修改configuration.txt文件里的第17行,把FONT改成中文的(如mingliu.ttc),同时修改两个tabconfig.txt里的第一行;然后把自己的文件复制到examples文件夹里,把run-example.bat里的文件名改成自己的,双击就能运行出结果了。
[/QUOTE]

我要处理的英文文本,所以前面的就不要做了吧?是不是只要做“然后把自己的文件复制到examples文件夹里,把run-example.bat里的文件名改成自己的,双击就能运行出结果了。”这一部分就可以了吧。但是

1. 不知道laohong讲的“把自己的文件复制到examples文件夹里”是怎样操作,我的做法是把examples文件夹里的hamlet.txt(原来是ANSI编码)另存为hamlet1.txt(现在是UTF-8编码),放到examples文件夹中;

2. “把run-example.bat里的文件名改成自己的”是要打开这个文件吗在里面修改吗?如果是这样理解的话,该文件无法打开;如果是把run-example.bat改为run-hamlet1.bat或hamlet1.bat,都试过,还是打不开啊。

不知道哪个环节又出问题了。
 
回复: 如何以平面图的直观形式给出一个单词的搭配词的出现频率和MI值,或者,单词出现在某个位置上的概率?

我要处理的英文文本,所以前面的就不要做了吧?是不是只要做“然后把自己的文件复制到examples文件夹里,把run-example.bat里的文件名改成自己的,双击就能运行出结果了。”这一部分就可以了吧。但是
1. 不知道laohong讲的“把自己的文件复制到examples文件夹里”是怎样操作,我的做法是把examples文件夹里的hamlet.txt(原来是ANSI编码)另存为hamlet1.txt(现在是UTF-8编码),放到examples文件夹中;
2. “把run-example.bat里的文件名改成自己的”是要打开这个文件吗在里面修改吗?如果是这样理解的话,该文件无法打开;如果是把run-example.bat改为run-hamlet1.bat或hamlet1.bat,都试过,还是打不开啊。
不知道哪个环节又出问题了。

把你自己的文本文件, 如test.txt,移到examples文件夹里,然后用记事本notepad把run-example.bat打开,把examples/后面的内容改成test.txt > test.png后存下,然后双击run-example.bat就能运行出结果了。结果文件就是那个test.png。 Good luck!
 
回复: 如何以平面图的直观形式给出一个单词的搭配词的出现频率和MI值,或者,单词出现在某个位置上的概率?

把你自己的文本文件, 如test.txt,移到examples文件夹里,然后用记事本notepad把run-example.bat打开,把examples/后面的内容改成test.txt > test.png后存下,然后双击run-example.bat就能运行出结果了。结果文件就是那个test.png。 Good luck!

我的问题有可能是WinRar的问题,因为我用的是个评估版本,不知道是否功能受限,反正就是无法打开run-example.bat文件,只可以点右键选“查看文件”选项,这样一来又无法改动里面的设置。只好先将run-example.bat的后缀直接改为.txt, 然后打开修改,保存,再将后缀改回.bat,用“查看文件”查看一下,果然改过来了,可是还是无法运行。不知道怎么搞的?
 

附件

  • wordcloud installation screenshot 2.doc
    155.5 KB · 浏览: 22
回复: 如何以平面图的直观形式给出一个单词的搭配词的出现频率和MI值,或者,单词出现在某个位置上的概率?

我的问题有可能是WinRar的问题,因为我用的是个评估版本,不知道是否功能受限,反正就是无法打开run-example.bat文件,只可以点右键选“查看文件”选项,这样一来又无法改动里面的设置。只好先将run-example.bat的后缀直接改为.txt, 然后打开修改,保存,再将后缀改回.bat,用“查看文件”查看一下,果然改过来了,可是还是无法运行。不知道怎么搞的?

用记事本notepad把run-example.bat打开修改
 
回复: 如何以平面图的直观形式给出一个单词的搭配词的出现频率和MI值,或者,单词出现在某个位置上的概率?

"如果要处理UTF-8的中文分好词了的文本,要先修改configuration.txt文件里的第17行,把FONT改成中文的(如mingliu.ttc),同时修改两个tabconfig.txt里的第一行;然后把自己的文件复制到examples文件夹里,把run-example.bat里的文件名改成自己的,双击就能运行出结果了。"不好意思,我怎么没找到17行的FONT呢?
 
回复: 如何以平面图的直观形式给出一个单词的搭配词的出现频率和MI值,或者,单词出现在某个位置上的概率?

For online use:
1) 屏蔽、firewall settings are among the common issues;
2) If 1) is no issue, Java console needs to be running on the system that you are using;

More info about potential problems can be found here: http://www.wordle.net/faq#gray

For local use:
3) Configuration file has one line that reads:

font: c:/windows/fonts/georgiab.ttf

Change it to reflect your local unicode-compatible Chinese font.

4) In the *.bat file, change the path and/or the file names to reflect your own files and their location.

5) You need to know how to use Notepad to edit the batch file (*.bat), which can be used to run the Java applet (*.jar).

6) Chinese working text needs to be word-segmented and in UTF-8 encoding.
 
回复: 如何以平面图的直观形式给出一个单词的搭配词的出现频率和MI值,或者,单词出现在某个位置上的概率?

"如果要处理UTF-8的中文分好词了的文本,要先修改configuration.txt文件里的第17行,把FONT改成中文的(如mingliu.ttc),同时修改两个tabconfig.txt里的第一行;然后把自己的文件复制到examples文件夹里,把run-example.bat里的文件名改成自己的,双击就能运行出结果了。"不好意思,我怎么没找到17行的FONT呢?
从一开始数,连空行都算在内,第17行就是啦。

如果还找不到,就直接找font.
 
回复: 如何以平面图的直观形式给出一个单词的搭配词的出现频率和MI值,或者,单词出现在某个位置上的概率?

Data visualization 确实很有意思。这里给大家分享一个 Ted.com 里面的统计数据的“奇用”:
Hans Rosling shows the best stats you've ever seen
http://www.ted.com/talks/hans_rosling_shows_the_best_stats_you_ve_ever_seen.html

Thanks, Haiyang! Hans Rosling's presentation is fabulous with effective use of data visualization technology. If anyone wants to try out some of the tricks, the free version of FusionCharts may be a good start. Here is also a live demo online.
 
回复: 如何以平面图的直观形式给出一个单词的搭配词的出现频率和MI值,或者,单词出现在某个位置上的概率?

终于弄出来了,可真不容易啊
 
回复: 如何以平面图的直观形式给出一个单词的搭配词的出现频率和MI值,或者,单词出现在某个位置上的概率?

终于弄出来了,可真不容易啊
能否将整个过程用缩略图的形式上传,让我学习一下。不知道怎么回事,我这边总是做不出来。
 
回复: 如何以平面图的直观形式给出一个单词的搭配词的出现频率和MI值,或者,单词出现在某个位置上的概率?

你装Java了吗?
 
回复: 如何以平面图的直观形式给出一个单词的搭配词的出现频率和MI值,或者,单词出现在某个位置上的概率?

你装Java了吗?
下载了java的jre-6u17-windows-i586.rar解压缩后安装了,但似乎没什么反应,还要再进行配置吗?
 
回复: 如何以平面图的直观形式给出一个单词的搭配词的出现频率和MI值,或者,单词出现在某个位置上的概率?

英语的:把默认的那个hamlet替换成你要的文章,stopwords里设置你要排除的。
汉语:laohong老师已经给出解释了,在楼上。

装好java,双击,自动生成一个图片,打开就是结果。。。。
 
回复: 如何以平面图的直观形式给出一个单词的搭配词的出现频率和MI值,或者,单词出现在某个位置上的概率?

英语的:把默认的那个hamlet替换成你要的文章,stopwords里设置你要排除的。
汉语:laohong老师已经给出解释了,在楼上。

装好java,双击,自动生成一个图片,打开就是结果。。。。
如果我就是要做Hamlet这一篇的word cloud,是不是意味着我不用更改任何东西,直接点击ibm-word-cloud.jar或者run-example.bat就可以出结果了?(目前是点哪一个都没有反应)。或者还需要修改路径?我下载的wordcloud-build-32.zip压缩包放在F盘而不是C盘,需要修改什么吗?
 
回复: 如何以平面图的直观形式给出一个单词的搭配词的出现频率和MI值,或者,单词出现在某个位置上的概率?

刚才自己试着把wordcloud-build-32.zip解压缩到C盘,嘿!成功了!原来是必须将它放到C盘!以后试手的C友可以引以为戒。起初是为了节省C盘空间,没想到折磨了我这么长时间。

多谢各位啦!

分享一下喜悦。
 

附件

  • example.png
    example.png
    189.6 KB · 浏览: 6
回复: 如何以平面图的直观形式给出一个单词的搭配词的出现频率和MI值,或者,单词出现在某个位置上的概率?

刚才自己试着把wordcloud-build-32.zip解压缩到C盘,嘿!成功了!原来是必须将它放到C盘!以后试手的C友可以引以为戒。起初是为了节省C盘空间,没想到折磨了我这么长时间。

多谢各位啦!

分享一下喜悦。

晕,和放在哪个盘没有关系啊。朋友。。。。我就是放在F盘的,迄今还未听说有几个程序说必须在c盘才能运行。呵呵
 
回复: 如何以平面图的直观形式给出一个单词的搭配词的出现频率和MI值,或者,单词出现在某个位置上的概率?

晕,和放在哪个盘没有关系啊。朋友。。。。我就是放在F盘的,迄今还未听说有几个程序说必须在c盘才能运行。呵呵

估计可能是直接在那个zip包里运行了,windows会自动打开zip文件,但其实并没有把那个包完整解压出来。
 
Back
顶部