本人想做一个关于学生词块使用特征的一个调查分析,但是通过 Antconc 的N-gram 和cluster对语料检索的结果发现很多词块有重合部分,例如,than other types of 和 better than other types of还有一些词块自身没有意义,比如,more and, is the, make a,等等。如果将这些词块纳入我们的研究中,是不是会影响到我们的研究结果?
个人的一点看法
N-Gram (N元结构)是利用计算机技术将所有的“单词连续体”看作是多元序列或者词块,比如face to face...