我已经向北大购买了该语料库,里面的内容基本如下面的感觉:
一/m(d-m) 、/w 旅行/v 背囊/n
列车/n 驶/Vg 抵/v 浜名湖/ns 铁桥/n 的/u(Dg-Ng-u) 时候/n ,/w 曾根二郎/nr 从/d(d-Ng-p-Vg) 靠近/v 车/v(n-Ng-q-v-V) 尾/Ng(Ng-q) 的/u(Dg-Ng-u) 三等/b 车/v(n-Ng-q-v-V) 一个/m 角落/n 里/f(f-Ng-q) 站/v(n-v) 起身/v 来/v(f-m-Ng-u-v-y) ,/w 准备/v 到/v(Ng-p-v) 餐车/n 去/v 。/w
我想用wordsmith统计,做一个wordlist,统计里面的各类词性的词的数量。
设置成英语吧,能统计出结果,但是,只能把英文的那些tag给统计出来,中文都是乱码。设置成中文吧,干脆就不出来结果了。
本来用没有赋码的语料库,中文语料库wordsmith无法区别他们的词。本以为用了赋码的就好了,结果还是用不起来。
wordsmith里面是自带了tag的,可是好像和我这个语料库的tag不是很一致,到底该怎么办呢!求救!
一/m(d-m) 、/w 旅行/v 背囊/n
列车/n 驶/Vg 抵/v 浜名湖/ns 铁桥/n 的/u(Dg-Ng-u) 时候/n ,/w 曾根二郎/nr 从/d(d-Ng-p-Vg) 靠近/v 车/v(n-Ng-q-v-V) 尾/Ng(Ng-q) 的/u(Dg-Ng-u) 三等/b 车/v(n-Ng-q-v-V) 一个/m 角落/n 里/f(f-Ng-q) 站/v(n-v) 起身/v 来/v(f-m-Ng-u-v-y) ,/w 准备/v 到/v(Ng-p-v) 餐车/n 去/v 。/w
我想用wordsmith统计,做一个wordlist,统计里面的各类词性的词的数量。
设置成英语吧,能统计出结果,但是,只能把英文的那些tag给统计出来,中文都是乱码。设置成中文吧,干脆就不出来结果了。
本来用没有赋码的语料库,中文语料库wordsmith无法区别他们的词。本以为用了赋码的就好了,结果还是用不起来。
wordsmith里面是自带了tag的,可是好像和我这个语料库的tag不是很一致,到底该怎么办呢!求救!