【求助】关键性分析研究方法

论坛的各位前辈老师,大家好!我在做一个有关语料库文体学的研究,在提取关键词&关键语义域时遇到研究方法相关的问题,恳请各位老师帮我解答疑惑。


目标语料库:某1部儿童小说,称为A

参照语料库1:BNC sampler written,其中包含文学类文本&信息类文本,称为B

参照语料库2:自建的儿童小说语料库,包含10部作品,称为C

目的:通过A-B & A-C两组关键性对比(keyness comparison),得到有关A的关键语义域(key semantic domain)和关键词,选择其中有关“空间”的语义域/关键词,再进行下一步文本分析。

方案1步骤和逻辑

1)采用对数似然率Log-likelihood (LL)衡量显著性。由于文本类型的原因,AB之间的相似性和AC之间的相似性更低,所以当LL设置为同一个值时,AB对比得出的结果数量会多于AC对比得出的结果数量。比如,将LL值设为3.84(p value对应0.05),AB对比得出134个结果,AC对比得出104个结果;

2)为了使结果数量更加可控manageable,也为了得到更显著的结果,给AB关键性对比设置一个相对更高的LL值(15.13),p<0.0001,得到结果列表1;

3)给AC关键性对比设置一个相对更低的LL值(6.63),p<0.01,得到结果列表2;

4)对比结果列表1&2,选择在这两个表上均出现的关键语义域,作为进一步分析的对象。

方案2步骤

1)同样采用LL衡量显著性。通过对比AB和AC,分别得到结果列表1&2;

2)选择结果列表1&2上各自前100个/前200个linguistic items;

3)对比筛选这前100/200个结果中均出现的项目,进行分析;

我的问题

1)给AB对比和AC对比设置不同的显著性LL值(即方案1),是否可行?还是选取结果列表中的前100个或前200个项目进行分析(即方案2),更加可行?

2)筛选出在两个关键语义域结果列表上均出现的linguistic item,再进行分析,是否可行?

3)如果是提取有关A的关键词,得到的数量非常大,那么是不是选择前100/前200个词的方案,更加可行?
 
感觉BNC的数据在其中有些多余。
直接用A比C即可。C需要再进一步扩充。

至于选前100还是前200,没有一定之规,可在显著主题词中自行梳理,尝试得知。
语料库中的keywords,一般不译成“关键词”,而是译成“主题词”
 
老师,还有一个问题请教您,无论最终选择分析前100还是前200个结果,都需要保证并且在论文里说明,这些结果关键性值都是足够显著的,对嘛?
 
Back
顶部