AntConc中n-gram使用求助

老师们好!我目前想做一个研究,需要抽取不同长度的词块。之前的研究说词块具有扩展性,比如三词块as a result也可以作为四词块as a result of的一部分,如果不处理可能会造成词块的重复计数。我参照张霞老师2010的做法,屏蔽掉先抽取的长词块再抽取短词块。我使用的是n-gram功能,再用global setting里的filter功能过滤掉,但好像过滤后结果没有什么变化,请问是我哪部分操作失误了呢?
 
未见有比较好的去处长短词块间重复计数的方法。
自然语言处理领域似乎不大理会这一问题。
作为语言学研究者,一般会根据提取出的词块进行手工剔除,舍弃其中语法语义不完整的词块,是否删除具有包含关系的词块,也可一并考虑。
 
Last edited:
未见有比较好的去处长短词块间重复计数的办法。
自然语言处理似乎不大理会这个问题。
作为语言学研究者,一般会根据提取出的不同长度词块进行手工删除语法语义不完整词块,是否同时删除包含关系的词块,也可一并考虑。
好的,谢谢许老师!
 
as a result和as a result of从形式上是包含关系,但个人觉得不宜视为重复,至少二者的语篇功能不对等
 
Back
顶部