论坛的各位前辈老师,大家好!我在做一个有关语料库文体学的研究,在提取关键词&关键语义域时遇到研究方法相关的问题,恳请各位老师帮我解答疑惑。
目标语料库:某1部儿童小说,称为A
参照语料库1:BNC sampler written,其中包含文学类文本&信息类文本,称为B
参照语料库2:自建的儿童小说语料库,包含10部作品,称为C
目的:通过A-B & A-C两组关键性对比(keyness comparison),得到有关A的关键语义域(key semantic domain)和关键词,选择其中有关“空间”的语义域/关键词,再进行下一步文本分析。
方案1步骤和逻辑:
1)采用对数似然率Log-likelihood (LL)衡量显著性。由于文本类型的原因,AB之间的相似性和AC之间的相似性更低,所以当LL设置为同一个值时,AB对比得出的结果数量会多于AC对比得出的结果数量。比如,将LL值设为3.84(p value对应0.05),AB对比得出134个结果,AC对比得出104个结果;
2)为了使结果数量更加可控manageable,也为了得到更显著的结果,给AB关键性对比设置一个相对更高的LL值(15.13),p<0.0001,得到结果列表1;
3)给AC关键性对比设置一个相对更低的LL值(6.63),p<0.01,得到结果列表2;
4)对比结果列表1&2,选择在这两个表上均出现的关键语义域,作为进一步分析的对象。
方案2步骤:
1)同样采用LL衡量显著性。通过对比AB和AC,分别得到结果列表1&2;
2)选择结果列表1&2上各自前100个/前200个linguistic items;
3)对比筛选这前100/200个结果中均出现的项目,进行分析;
我的问题:
1)给AB对比和AC对比设置不同的显著性LL值(即方案1),是否可行?还是选取结果列表中的前100个或前200个项目进行分析(即方案2),更加可行?
2)筛选出在两个关键语义域结果列表上均出现的linguistic item,再进行分析,是否可行?
3)如果是提取有关A的关键词,得到的数量非常大,那么是不是选择前100/前200个词的方案,更加可行?
目标语料库:某1部儿童小说,称为A
参照语料库1:BNC sampler written,其中包含文学类文本&信息类文本,称为B
参照语料库2:自建的儿童小说语料库,包含10部作品,称为C
目的:通过A-B & A-C两组关键性对比(keyness comparison),得到有关A的关键语义域(key semantic domain)和关键词,选择其中有关“空间”的语义域/关键词,再进行下一步文本分析。
方案1步骤和逻辑:
1)采用对数似然率Log-likelihood (LL)衡量显著性。由于文本类型的原因,AB之间的相似性和AC之间的相似性更低,所以当LL设置为同一个值时,AB对比得出的结果数量会多于AC对比得出的结果数量。比如,将LL值设为3.84(p value对应0.05),AB对比得出134个结果,AC对比得出104个结果;
2)为了使结果数量更加可控manageable,也为了得到更显著的结果,给AB关键性对比设置一个相对更高的LL值(15.13),p<0.0001,得到结果列表1;
3)给AC关键性对比设置一个相对更低的LL值(6.63),p<0.01,得到结果列表2;
4)对比结果列表1&2,选择在这两个表上均出现的关键语义域,作为进一步分析的对象。
方案2步骤:
1)同样采用LL衡量显著性。通过对比AB和AC,分别得到结果列表1&2;
2)选择结果列表1&2上各自前100个/前200个linguistic items;
3)对比筛选这前100/200个结果中均出现的项目,进行分析;
我的问题:
1)给AB对比和AC对比设置不同的显著性LL值(即方案1),是否可行?还是选取结果列表中的前100个或前200个项目进行分析(即方案2),更加可行?
2)筛选出在两个关键语义域结果列表上均出现的linguistic item,再进行分析,是否可行?
3)如果是提取有关A的关键词,得到的数量非常大,那么是不是选择前100/前200个词的方案,更加可行?