如何以直观形式给出单词的搭配词的出现频率和MI值? word cloud visualization

如题。以前曾在Amazon和Cambridge Online Dictionary看到过类似的方式。下面是截屏图。怎样才能做到这一点?很想学学,多谢指教!
 

附件

  • Amazon_com_ Formulaic Language and the Lexicon (9780521022125)_ Alison Wray_ Books.png
    Amazon_com_ Formulaic Language and the Lexicon (9780521022125)_ Alison Wray_ Books.png
    20.4 KB · 浏览: 25
  • Light - Light and colour_ Synonyms and other related words in Cambridge Dictionary Online_ Free .png
    Light - Light and colour_ Synonyms and other related words in Cambridge Dictionary Online_ Free .png
    8.2 KB · 浏览: 14
回复: 如何以平面图的直观形式给出一个单词的搭配词的出现频率和MI值,或者,单词出现在某个位置上的概率?

这是现在Web 2.0下比较流行的cloud显示方式。
 
回复: 如何以平面图的直观形式给出一个单词的搭配词的出现频率和MI值,或者,单词出现在某个位置上的概率?

不知道那些网站是怎么做的,不过在我看来应该可以根据其频数或其他数值计算出另一个数字,然后将该短语的html字号设置为这个数字就行了
 
回复: 如何以平面图的直观形式给出一个单词的搭配词的出现频率和MI值,或者,单词出现在某个位置上的概率?

我想就是这个思路。不同的字号和颜色代表不同的频数段。
 
回复: 如何以平面图的直观形式给出一个单词的搭配词的出现频率和MI值,或者,单词出现在某个位置上的概率?

研究这个有段时间了,上次在北外的回忆时我的电脑桌面就是用的这个。想把自己的文本搞个图出来,可以到这里来制作:

Wordle is a toy for generating “word clouds” from text that you provide. The clouds give greater prominence to words that appear more frequently in the source text. You can tweak your clouds with different fonts, layouts, and color schemes. The images you create with Wordle are yours to use however you like. You can print them out, or save them to the Wordle gallery to share with your friends.
Create your own.
 
回复: 如何以平面图的直观形式给出一个单词的搭配词的出现频率和MI值,或者,单词出现在某个位置上的概率?

老洪提供的链接好像链接不上
 
回复: 如何以平面图的直观形式给出一个单词的搭配词的出现频率和MI值,或者,单词出现在某个位置上的概率?

刚刚又试了一下,很酷。
 

附件

  • corpus-cloud.jpg
    corpus-cloud.jpg
    86.6 KB · 浏览: 22
回复: 如何以平面图的直观形式给出一个单词的搭配词的出现频率和MI值,或者,单词出现在某个位置上的概率?

酷呆了.
 
回复: 如何以平面图的直观形式给出一个单词的搭配词的出现频率和MI值,或者,单词出现在某个位置上的概率?

老洪提供的链接好像链接不上

从1点左右一直到现在,3个半小时的时间,一直无法打开链接,不知道有什么问题。只好看着许博上传的缩略图流口水。:confused: 看晚上能不能打开吧。
 
回复: 如何以平面图的直观形式给出一个单词的搭配词的出现频率和MI值,或者,单词出现在某个位置上的概率?

从1点左右一直到现在,3个半小时的时间,一直无法打开链接,不知道有什么问题。只好看着许博上传的缩略图流口水。:confused: 看晚上能不能打开吧。

我这边使用这个连接一直没有问题,各位在国内的朋友没法连接,估计是党和人民政府也错把该网站和谐了。
 
回复: 如何以平面图的直观形式给出一个单词的搭配词的出现频率和MI值,或者,单词出现在某个位置上的概率?

Good find, Lao Hong!

Could be a useful tool for language education. It provides frequency info!

Some random pictures here

|
|
V
 

附件

  • c4u_01.jpg
    c4u_01.jpg
    16.1 KB · 浏览: 7
  • c4u_02.jpg
    c4u_02.jpg
    10 KB · 浏览: 6
  • c4u_03.jpg
    c4u_03.jpg
    10.7 KB · 浏览: 4
  • c4u_04.JPG
    c4u_04.JPG
    11 KB · 浏览: 5
回复: 如何以平面图的直观形式给出一个单词的搭配词的出现频率和MI值,或者,单词出现在某个位置上的概率?

目前还不支持中文,我已经给开发者发了信,提供了解决办法,希望他能采纳。这是他不支持中文的原因:

Can you add Chinese/Japanese?

There are two things against Wordle getting ideographic language support. First, ideographic fonts are enormous, and this would cost Wordle a lot of bandwidth. Second, I don't know how to recognize word breaks in those languages. As far as I know, there's no reliable way to detect individual "words" in those languages—which can consist of one or more glyphs—without an enormous database. If anyone wants to guide me to a reliable word-break algorithm for these languages, please do.
 
回复: 如何以平面图的直观形式给出一个单词的搭配词的出现频率和MI值,或者,单词出现在某个位置上的概率?

I did the same. Hope he can implement the Chinese support soon.
 
回复: 如何以平面图的直观形式给出一个单词的搭配词的出现频率和MI值,或者,单词出现在某个位置上的概率?

Three related books on this topic (search www.amazon.com with the keyword "data visualization" for more):

1. Visualizing Data: Exploring and Explaining Data with the Processing Environment
# Paperback: 384 pages
# Publisher: O'Reilly Media; 1 edition (January 11, 2008)
# Language: English
# ISBN-10: 0596514557
# ISBN-13: 978-0596514556

2. Handbook of Data Visualization (Springer Handbooks of Computational Statistics)
# Hardcover: 936 pages
# Publisher: Springer; 1 edition (March 11, 2008)
# Language: English
# ISBN-10: 3540330364
# ISBN-13: 978-3540330363

3. Beautiful Data: The Stories Behind Elegant Data Solutions (Paperback)
# Paperback: 384 pages
# Publisher: O'Reilly Media; 1 edition (July 21, 2009)
# Language: English
# ISBN-10: 0596157118
# ISBN-13: 978-0596157111
 
回复: 如何以平面图的直观形式给出一个单词的搭配词的出现频率和MI值,或者,单词出现在某个位置上的概率?

谢谢iCasino提供的文献。其实这里有一本我个人觉得更好的书,而且是完全免费的,我正打算写书评呢。剑桥大学出版社2009年出版社第一版,2010年第二版。

Hearst, Marti. 2009. Search User Interfaces. New York: Cambridge University Press.

Book Contents

This book presents the state of the art of search interface design, based on both academic research and deployment in commercial systems.

Topics include:
* How to Design Search User Interfaces
* How to Evaluate Search User Interfaces
* Models of the Information Seeking Process
* Search Interfaces Fundamentals, including:
o Query Specification
o Presentation of Search Results
o Query Reformulation
* Advanced Topics, including:
o Integrating Navigation with Search
o Personalization in Search
o Information Visualization and Search
o Mobile Search
o Social Search
o Multimedia Search

Read the Book

The full text of this book can be read free of charge. Click here to read.

性急的,可直接读第10和11章:
10: Information Visualization for Search Interfaces
11: Information Visualization for Text Analysis
 
回复: 如何以平面图的直观形式给出一个单词的搭配词的出现频率和MI值,或者,单词出现在某个位置上的概率?

Thanks a lot for the book info.
amazon已有两人对这本书作了五星的评价,laohong的书评有挑战了:)
记得两三年前Professor Barlow还说要招一个学生(不要求懂编程,教授说自己可以搞定)一起来做语料库方面的visualization,不知他最近的工作怎样了.
 
Last edited:
回复: 如何以平面图的直观形式给出一个单词的搭配词的出现频率和MI值,或者,单词出现在某个位置上的概率?

Thanks a lot for the book info.
amazon已有两人对这本书作了五星的评价,laohong的书评有挑战了:)
记得两三年前Professor Barlow还说要招一个学生(不要求懂编程,教授说自己可以搞定)一起来做语料库方面的visualization,不知他最近的工作怎样了.

不编程就能搞visualization估计是天方夜谭。我这边正做的一个项目就是data visualization,相当辛苦的。
 
回复: 如何以平面图的直观形式给出一个单词的搭配词的出现频率和MI值,或者,单词出现在某个位置上的概率?

教授说自己对编程很有信心,无须外援,招个学生是为了帮忙找出哪些东西值得visualized, 怎么实现只有教授自己操刀了。不过那个学生如果有CS背景或学习能力特强,又对visualization特感兴趣那自然是巴不得了。恭喜这次laohong又先走一步了。
 
回复: 如何以平面图的直观形式给出一个单词的搭配词的出现频率和MI值,或者,单词出现在某个位置上的概率?

I did the same. Hope he can implement the Chinese support soon.

Link to a desktop version:

http://www.alphaworks.ibm.com/tech/wordcloud

After unzipping it to your own system, you can change the configuration file and the .bat file to use your own fonts (i.e. Chinese UTF-8 compatible fonts).

Some samples are attached below.

Note: Working text is based on a news report: http://society.people.com.cn/GB/41158/11137880.html, which is word segmented and changed to UTF-8 encoding.


Very interesting stuff.
 

附件

  • weather_01.JPG
    weather_01.JPG
    88.5 KB · 浏览: 2
  • weather_02.JPG
    weather_02.JPG
    123.1 KB · 浏览: 2
  • weather_03.JPG
    weather_03.JPG
    100.6 KB · 浏览: 3
回复: 如何以平面图的直观形式给出一个单词的搭配词的出现频率和MI值,或者,单词出现在某个位置上的概率?

照陶老师的方法也做了一个。使用的文本是两会刚出炉的“国家中长期教育改革和发展规划纲要 ( 2010 — 2020年 )( 公开征求意见稿)“。
原文参见:http://2010lianghui.people.com.cn/GB/181632/11044296.html

这里是做出来的Word Cloud:
 

附件

  • outline.png
    outline.png
    113.8 KB · 浏览: 5
Back
顶部