如何以直观形式给出单词的搭配词的出现频率和MI值? word cloud visualization

回复: 如何以平面图的直观形式给出一个单词的搭配词的出现频率和MI值,或者,单词出现在某个位置上的概率?

估计可能是直接在那个zip包里运行了,windows会自动打开zip文件,但其实并没有把那个包完整解压出来。
应该是这么回事。不过,从结果看来,应该是按照整篇文章中的绝对词频来显示的(当然去掉stoplist),不知道不同的颜色有什么意义?有MI值的信息在其中吗?

另外,如何得到文章中某个词的collocates(例如Hamlet,跨距span是前4后4)的分布呢?貌似可以用字号的大小来代表频率,用颜色来代表MI值(或类似参数)。

如果想要把COCA当中得到的一些信息(见附件中关于hectic修饰的名词的列表信息)用类似软件(这个软件貌似不行,必须输入原文) 表示出来,有没有这样的软件,或者用现有的软件如何处理?
 

附件

  • COCA sample - hectic.doc
    118.5 KB · 浏览: 27
回复: 如何以直观形式给出单词的搭配词的出现频率和MI值? word cloud visualization

Wordle Wednesday
http://edition.englishclub.com/esl-magazine/
Wordle Wednesday
Down arrowUp arrow
grey line
Guide to Wordle for Educators
http://bit.ly/bQX9VC
Guide to Wordle for Educators
The beauty of Wordle is that there is no signup or login and the whole process can be completed in as little as a minute depending on how complex you wish to get.
Down arrowUp arrow
grey line
Wordshift for creating Word Clouds
http://wordsift.com/
Wordshift for creating Word Clouds
WordSift was created to help teachers manage the demands of vocabulary and academic language in their text materials. We especially hope that this tool is helpful in supporting English Language Learners.
Wordsift Tutorial Use in Classrooms
Down arrowUp arrow
grey line
Screencast Tutorial on Using Wordle
http://www.teachertrainingvideos.com/wordle/index.html
Screencast Tutorial on Using Wordle ... this is made with teachers in mind ... including 'why would you want to use Wordle'.
Down arrowUp arrow
grey line
All About Word Clouds ... Tutorial for Teachers
http://www.teachertrainingvideos.com/wordCloud/
All About Word Clouds ... Tutorial (Screencast) for Teachers ... not just Wordle.
Down arrowUp arrow
grey line
Using Word Clouds to Integrate Reading and Writing
http://reformsymposium.com/blog/2010/07/13/marisa-constantinides/
Using Word Clouds to Integrate Reading and Writing
Word clouds are a relatively new and popular web 2.0 application which has proved highly versatile in helping teachers design more motivating reading and writing lessons.
This presentation aims to show participants the various word cloud tools available and to briefly compare and evaluate them as well as present some ideas for lessons which integrate reading and writing skills in a motivating and effective way for the teacher of languages.
This was a presentation at The Reform Symposium
The Reform Symposium was a free online conference for educators, administrators, parents and students. In 2010 the conference was focused on innovative practices in education and what role these practices can play in educational reform.
This is a recorded archive of one of the sessions at the Reform Symposium ... a global online event held over the last weekend of July 2010
http://reformsymposium.com
conference hashtag #rscon10
Note that the player is Elluminate (webinar platform) itself ... which should auto download (temp) to your computer.
Down arrowUp arrow
grey line
TagCrowd (Wordle look-a-like)
http://tagcrowd.com/
TagCrowd (Wordle look-a-like) .. one added feature is to be able to do a word tag cloud of a whole webpage by just giving the url.
Down arrowUp arrow
grey line
Word Clouds (Wordle Look-a-likes) .. Tutorial
http://www.teachertrainingvideos.com/wordCloud/index.html
Word Clouds (Wordle Look-a-likes) .. Tutorial covering several different web-based applications.
Down arrowUp arrow
grey line
Tagxedo ... Wordle look-a-like (create tag cloud)
http://www.tagxedo.com/
Tagxedo turns words -- famous speeches, news articles, slogans and themes, even your love letters -- into a visually stunning tag cloud, words individually sized appropriately to highlight the frequencies of occurrence within the body of text.
CLICK HERE for Screencast tutorial
 
回复: 如何以直观形式给出单词的搭配词的出现频率和MI值? word cloud visualization

“词云”——网络内容发布新招式

紫竹

2006年04月07日16:40

2006年2月1日的洛彬矶时报网站(http://www.latimes.com)在其国内新闻版上刊登了布什总统2006年1月31日在国会所作“国情咨文”(State of the Union Address)报告,同时将这篇演讲与布什在9.11事件五个多月后的2002年1月29日所作的“国情咨文”报告的文本相对照,对照的方法,是将这两篇报告文本中的一些出现次数较多的关键词加以放大及粗体突出——即成为“关键词云”(keyword clouds)(以下我估且简称其为“词云”),当浏览者将鼠标放到这些“词云”上的时候,能立即显示出它们在文本中出现(被使用)的次数(见插图)。布什2006年1月31日的“国情咨文”篇幅为3875个词,其级别较高的一些“词云”依次为:“美国(america)”(33次)、“安全(security)”(19次)、“世界(world)”(17次)、“恐怖(terror)”(13次);布什2002年1月29日的“国情咨文”篇幅为5437个词,其级别较高的“词云”依次为:“美国(america)”(38次)、“世界(world)”(28次)、“人民(people)”(21次)、“自由(freedom)”(15次)。这其中的变化,我以为从一定程度反映了布什总统的认识转变以及美国反恐5年来所走过的“心路历程”:民主国家要使自己一国免于“恐怖”袭击,仅加强自身“安全”防范是不够的,而必须关注与支持“世界”“人民”争取“自由”民主的进程。

  “词云”这个概念由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登(Rich Gordon)于近日提出。戈登做过编辑、记者,曾担任迈阿密先驱报(Miami Herald)新媒体版的主任。他一直很关注网络内容发布的最新形式——即那些只有互联网可以采用而报纸、广播、电视等其它媒体都望尘莫及的传播方式。通常,这些最新的、最适合网络的传播方式,也是最好的传播方式。


P200604071640212896222841.jpg




  因此,“词云”就是对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨。从洛彬矶时报网站的实践来看,“词云”是有“级别”的,因为对某个需要突出与“渲染”的关键词,可以采用不同的字号——那么字体的粗细也就有了区别——在醒目程度上也就自然有所不同。而决定“词云”级别的唯一因素,显然就是其在文本中出现的频次。频次越高,级别越高。并且,这个频次浏览者能通过鼠标放在该“词云”上立即获知——这就是报纸等其它平面媒体要对“词云”妒意横生之处了。

  此前,新闻网站在突出文本中某个关键词的“招式”,通常是对这个关键词加上解释性的链接,会使这个关键词有了下划杠或变了字色,也能起到一定的突显作用。但此法之弊是容易将浏览者引离正在阅读的文本而“链”入新页面。与“词云”相比,浏览者也难以知道那个关键词到底有多“关键”。

  如果细心观察,每过一个阶段,短则几个月,长则半年至一年,网络内容发布方面总有新“招式”出现。这当是互联网媒体强大而旺盛的生命力的体现。这样的生命力可能是任何力量都难以扼制的。这两天,有一个汉语词汇本应该成为绝大多数中文网站的“词云”,因为这个“词云”如果被编辑采用,其频次很可能会是最高的。这个“词云”可以是两个字,也可以是四个字。并且我相信,这些编辑中的大多数人,某一天也会与我一样,为没有采用这个“词云”而悔泪满面。


来源:人民网 (责任编辑:燕帅)

http://media.people.com.cn/GB/22100/61748/61749/4281906.html
 
回复: 如何以直观形式给出单词的搭配词的出现频率和MI值? word cloud visualization

谢谢superyangt转帖的上面这篇文章
 
回复: 如何以直观形式给出单词的搭配词的出现频率和MI值? word cloud visualization

谢谢,有时间去试试看。
 
Back
顶部