{入门问题}如何等化token,type

[FONT=新細明體][FONT=新細明體]請教各位,不同数量token, type, sentence number 如何等化后做比较?[/FONT]
[FONT=新細明體]例如: [/FONT]
[FONT=新細明體]Group: token/type[/FONT]
[FONT=新細明體]A group: 6600/910 [/FONT]
[FONT=新細明體]B group: 18990/2010[/FONT]
[FONT=新細明體]C group: 10300/1500[/FONT][/FONT]

[FONT=新細明體][FONT=新細明體]1. 若token除以100 或1000 不知其差别在哪?[/FONT]
[FONT=新細明體]2. Token统一除以1000而type统一除以100这样行吗?[/FONT]
[FONT=新細明體]或者[/FONT][/FONT][FONT=新細明體][FONT=新細明體]请指导可看哪些文献[/FONT]
[FONT=新細明體]感激不尽![/FONT]

[/FONT]
 
回复: {入门问题}如何等化token,type

如果你是想要比较这三组数据的词汇密度的话,使用Type Token Ratio(TTR)就可以了。
不同库容的语料库,若要比较某个词在这几个库中的频数差异,可以转化为标准频数,如每十万词次出现几次,再做对比。
《语料库应用教程》或者《语料库语言学导论》等书籍中都有相关介绍。
 
回复: {入门问题}如何等化token,type

非常谢谢Volfer的回答!
所以如果我有三个语料各自有:6000, 15000,23000token
可用每100词次出现几次转化为标准频数,再做对比吧? 若除以1000呢,都可以自行决定[FONT=新細明體]吗?[/FONT]
请再麻烦帮忙解惑 谢谢!
 
Last edited:
回复: {入门问题}如何等化token,type

非常谢谢Volfer的回答!
所以如果我有三个语料各自有:6000, 15000,23000token
可用每100词次出现几次转化为标准频数,再做对比吧? 若除以1000呢,都可以自行决定[FONT=新細明體]吗?[/FONT]
请再麻烦帮忙解惑 谢谢!

转化为每100还是每1000词出现几次,这个可以由你自己决定,一般视库容大小选取合适的数字作为分母。
 
回复: {入门问题}如何等化token,type

"等化"?还是说的是标准化?
根据你的三个库的大小,我觉得应取10000
 
Back
顶部