老师们好!我目前想做一个研究,需要抽取不同长度的词块。之前的研究说词块具有扩展性,比如三词块as a result也可以作为四词块as a result of的一部分,如果不处理可能会造成词块的重复计数。我参照张霞老师2010的做法,屏蔽掉先抽取的长词块再抽取短词块。我使用的是n-gram功能,再用global setting里的filter功能过滤掉,但好像过滤后结果没有什么变化,请问是我哪部分操作失误了呢?
好的,谢谢许老师!未见有比较好的去处长短词块间重复计数的办法。
自然语言处理似乎不大理会这个问题。
作为语言学研究者,一般会根据提取出的不同长度词块进行手工删除语法语义不完整词块,是否同时删除包含关系的词块,也可一并考虑。