【求助】关键性分析研究方法

诚源0501 · 2024-06-18

论坛的各位前辈老师，大家好！我在做一个有关语料库文体学的研究，在提取关键词&关键语义域时遇到研究方法相关的问题，恳请各位老师帮我解答疑惑。

目标语料库：某1部儿童小说，称为A

参照语料库1：BNC sampler written，其中包含文学类文本&信息类文本，称为B

参照语料库2：自建的儿童小说语料库，包含10部作品，称为C

目的：通过A-B & A-C两组关键性对比（keyness comparison），得到有关A的关键语义域（key semantic domain）和关键词，选择其中有关“空间”的语义域/关键词，再进行下一步文本分析。

方案1步骤和逻辑：

1）采用对数似然率Log-likelihood (LL)衡量显著性。由于文本类型的原因，AB之间的相似性和AC之间的相似性更低，所以当LL设置为同一个值时，AB对比得出的结果数量会多于AC对比得出的结果数量。比如，将LL值设为3.84（p value对应0.05），AB对比得出134个结果，AC对比得出104个结果；

2）为了使结果数量更加可控manageable，也为了得到更显著的结果，给AB关键性对比设置一个相对更高的LL值（15.13），p＜0.0001，得到结果列表1；

3）给AC关键性对比设置一个相对更低的LL值（6.63），p＜0.01，得到结果列表2；

4）对比结果列表1&2，选择在这两个表上均出现的关键语义域，作为进一步分析的对象。

方案2步骤：

1）同样采用LL衡量显著性。通过对比AB和AC，分别得到结果列表1&2；

2）选择结果列表1&2上各自前100个/前200个linguistic items；

3）对比筛选这前100/200个结果中均出现的项目，进行分析；

我的问题：

1）给AB对比和AC对比设置不同的显著性LL值（即方案1），是否可行？还是选取结果列表中的前100个或前200个项目进行分析（即方案2），更加可行？

2）筛选出在两个关键语义域结果列表上均出现的linguistic item，再进行分析，是否可行？

3）如果是提取有关A的关键词，得到的数量非常大，那么是不是选择前100/前200个词的方案，更加可行？

xujiajin · 2024-06-19

感觉BNC的数据在其中有些多余。
直接用A比C即可。C需要再进一步扩充。

至于选前100还是前200，没有一定之规，可在显著主题词中自行梳理，尝试得知。
语料库中的keywords，一般不译成“关键词”，而是译成“主题词”

诚源0501 · 2024-06-19

非常感谢许老师的建议和纠正！我试一下把C库扩大至20部小说看看结果怎么样

xujiajin · 2024-06-20

“纠正”不敢说，也仅是一个建议，供您参考。

诚源0501 · 2024-06-20

老师，还有一个问题请教您，无论最终选择分析前100还是前200个结果，都需要保证并且在论文里说明，这些结果关键性值都是足够显著的，对嘛？

【求助】关键性分析研究方法

诚源0501

xujiajin

管理员

诚源0501

xujiajin

管理员

诚源0501