请教:如何衡量领域专用语料库?

大家好!本人刚刚涉足语料库语言学,目前准备筹建一个旅游领域的专用语料库,不太清楚该以何种指标来衡量专用预料库?看汉字的覆盖率?词的覆盖率?可是我是准备在语料库建库过程中生成词典,这样的话,词的覆盖率显然不能成为衡量指标。要说汉字字的覆盖率,因为这是个领域专用预料库,它也没有必要覆盖到所有汉字。
这个库是打算来训练语言模型的,仅以语言模型的perplexity来衡量就够了吗?我左思右想不得其解,特上来请教各位研学者,望赐教!多谢!:):)
 
Back
顶部