问题1:小文本算法的确因具体问题而异。搭配统计的实质无非是通过比较明确"共现次数是否大于偶然",所谓偶然,具体到计算方法,就是"经验频率/经验相对频率/经验概率“和”实测频率/实测相对频率/实测概率"无显著差异。经验频率就是节点词在整个文本中的相对频率,而小文本的作用,就是用来明确实测频率(或者说实测相对频率)的。因此,严格而言,如果只关心一侧,小文本就划一侧。
不过,各种具体算法也有细微差异,比如Z值既有比较经验频率与实测频率的算法,也有比较小文本内外相对频率的算法,需要搞清原理,酌情处理。
问题2:如果网上库有数据,用网上库的数据如何?究竟适用否,要看网上库的数据是怎么测的,如果网上库给的共现次数是双侧的,且不可自定义,而你只关心单侧的,那么这个数据就不适用了。。。