SentenceTokenizer、TreeBankWordTokenizer等Python脚本
自己写的(或修改的)几段Python代码,力求简单实用。。。
一、Tokenizers文件夹内容:
提取自NLTK的SentenceTokenizer、TreeBankWordTokenizer合并到一个punkt.py模块中。几点说明:
1. 内核含两个文件:englishPunkt.pickle和punkt.py
2. 仅保留NLTK原punkt.py的SentenceTokenizer与WordTokenizer,不含Training部分。
3. 添加了TreeBankWordTokenizer,这个Tokenizer最好用于单句,配合SentenceTokenizer
3. 为不依赖NLTK安装,修改了原始english.pickle文件。
4. NLTK里的SentenceTokenizer和TreeBankTokenizer都是性能上乘的工具,提取其核心,用于嵌入其他Python项目。
二、taggers文件夹内容:
两段脚本,演示Python如何调用TreeTagger与Hunpos Tagger,均为直接调用命令行可执行文件,在Python里可对赋码过程中的输入输出做深度处理。几点说明:
1. 均使用了梁茂成教授“TreeTagger Windows界面”包中提供的tokenize.exe。
2. TreeTagger命令行:tokenize.exe sample.txt | tree-tagger -token -lemma english.par
3. Hunpos Tagger行分隔符为"\n"(LF),而不是Windows的"\r\n"(CRLF),所以tokenize.exe在使用时替换了行分隔符
自己写的(或修改的)几段Python代码,力求简单实用。。。
一、Tokenizers文件夹内容:
提取自NLTK的SentenceTokenizer、TreeBankWordTokenizer合并到一个punkt.py模块中。几点说明:
1. 内核含两个文件:englishPunkt.pickle和punkt.py
2. 仅保留NLTK原punkt.py的SentenceTokenizer与WordTokenizer,不含Training部分。
3. 添加了TreeBankWordTokenizer,这个Tokenizer最好用于单句,配合SentenceTokenizer
3. 为不依赖NLTK安装,修改了原始english.pickle文件。
4. NLTK里的SentenceTokenizer和TreeBankTokenizer都是性能上乘的工具,提取其核心,用于嵌入其他Python项目。
二、taggers文件夹内容:
两段脚本,演示Python如何调用TreeTagger与Hunpos Tagger,均为直接调用命令行可执行文件,在Python里可对赋码过程中的输入输出做深度处理。几点说明:
1. 均使用了梁茂成教授“TreeTagger Windows界面”包中提供的tokenize.exe。
2. TreeTagger命令行:tokenize.exe sample.txt | tree-tagger -token -lemma english.par
3. Hunpos Tagger行分隔符为"\n"(LF),而不是Windows的"\r\n"(CRLF),所以tokenize.exe在使用时替换了行分隔符
附件
Last edited: