Windows下NLTK的安装和入门

dzhigner

Moderator
一切都可以从这里开始(NLTK安装说明):http://nltk.org/install.html

一. 安装Python:
1. ActivePython,Windows下Python的流行版本,似乎在运行NLTK时容易出故障。建议安装NLTK安装说明中链接的Python(python.org版本)(http://www.python.org/download/releases/2.7.3/)
2. 安装Win32扩展(win32 extensions): http://sourceforge.net/projects/pywin32/
3. 将Python所在目录(比如C:\python27)加入PATH环境变量。

二. 安装NLTK(http://nltk.org/)
1. 下载安装NLTK,最新安装包:nltk-2.0.4.win32.exe
2. 注意:Numpy以及PyYAML这两个Python扩展包实际上都是必要的,说optional不妥。应该在安装NLTK后一并把这两个包都装了,安装方法和NLTK一样,很简单。
3. NLTK安装好之后,打开Python Shell (IDLE或者Command Line),在提示符后输入import nltk,等下一行提示符出现,然后键入nltk.download(),跳出安装NLTK data的GUI界面,按需选择下载。NLTK安装完毕。
4. 若需要使用Windows scripting操作NLTK (下文有介绍),在Python目录中找到下面这个脚本,双击运行,在系统里注册Python script:
..\Python27\Lib\site-packages\win32comext\axscript\client\pyscript.py

NLTK入门:
最好的资源是Python book (nltk.org/book/),不过,如果是从零开始,建议不妨先把nltk.org主页上的例子操作一下
Python语言的缩进表示代码块结构,帖子里不能正确处理缩进,所以以附件方式(txt文件)提供几个我自己做的微型脚本,演示一些NLTK的简单使用方法.
 

附件

  • NLTKTrial.txt
    2.4 KB · 浏览: 26
Last edited:
回覆: Windows下NLTK的安装和入门

想請教高手要如何在win 7, python 2.7環境下 執行NLTK sinica_treebank時可以讓它輸出中文嗎? 例如 print sinica_treebank.words()時 可在屏幕上顯示中文而非\xXX

我已經在首行鍵入 #coding = UTF-8 但還是無效

感謝回覆
 
回复: 回覆: Windows下NLTK的安装和入门

想請教高手要如何在win 7, python 2.7環境下 執行NLTK sinica_treebank時可以讓它輸出中文嗎? 例如 print sinica_treebank.words()時 可在屏幕上顯示中文而非\xXX

我已經在首行鍵入 #coding = UTF-8 但還是無效

感謝回覆

我用gb2312编码的文件试过,貌似可以的。

试试这个:print some_Chinese_string.decode('gb2312', errors='ignore')

首行“#coding = UTF-8”仅对代码有效
 
回覆: Windows下NLTK的安装和入门

非常感谢d大回复,指出了我观念上的错误。

我后来使用了网络上下载的复旦大学的文本分类语料库,用chardet测出该文本是用gb2312编码

我试了您说的办法,但是出现'cp950' codec can't encode character u'\u5b66' in position 2: illegal multibyte sequence

参照其他网站上的指示,问题似乎是windows命令行用的是cp936(但我的系统是英文的,大概就是cp950了吧)。用decode和encode函数对字符重新解码和编码

print chinese.decode('gb2312', errors='ignore').encode('cp950', errors='ignore')

这样就可以正常显示简体中文。

可是最后出来的结果有太多常见字(eg. 国、谈、学)都无法正常显示。因为我要做的是搭配词跟文本之间的相关研究。这样的结果可能会有严重影响。能不能再请教是不是我的code有那边不对呢?又该如何解决。

谢谢
 
回复: Windows下NLTK的安装和入门

我没发现类似的问题哦。。可能还是编码没选对。。
 
Back
顶部