结巴中文分词 词性标注 R 语言版

结巴中文分词有很多语言的版本,详见 https://github.com/fxsjy/jieba

试了下 R 语言的结巴,好像还不错。步骤如下:

1. 安装结巴
> install.packages("jiebaR")

2. 读取库文件
> library(jiebaR)

3. 调用 worker() 函数
> tagger = worker("tag", symbol=T)

4. 分词、词性标注
> tagger <= "D:/ludingji.txt"

标注结果保存在 D 盘。
 
Back
顶部