结巴中文分词有很多语言的版本,详见 https://github.com/fxsjy/jieba
试了下 R 语言的结巴,好像还不错。步骤如下:
1. 安装结巴
> install.packages("jiebaR")
2. 读取库文件
> library(jiebaR)
3. 调用 worker() 函数
> tagger = worker("tag", symbol=T)
4. 分词、词性标注
> tagger <= "D:/ludingji.txt"
标注结果保存在 D 盘。
试了下 R 语言的结巴,好像还不错。步骤如下:
1. 安装结巴
> install.packages("jiebaR")
2. 读取库文件
> library(jiebaR)
3. 调用 worker() 函数
> tagger = worker("tag", symbol=T)
4. 分词、词性标注
> tagger <= "D:/ludingji.txt"
标注结果保存在 D 盘。