BYU-BNC的中文使用说明

回复: BYU-BNC的中文使用说明

请教一下,关于SECTIONS那一栏,您说这是拿来比较两个子数据库中单词出现频率的,那如果说我在SECTION1里选择FICTION, 在SECTION2里选择NEWSPAPER,出来的一个表格中RATIO到底指什么?是频率吗?当我把SECTION1重新选择,定为SPOKEN比如说,而SECTION2不变时,新出来的表格中关于NEWSPAPER的RATION这一栏数字式会变的。为什么呢?
 
回复: BYU-BNC的中文使用说明

请教一下,关于SECTIONS那一栏,您说这是拿来比较两个子数据库中单词出现频率的,那如果说我在SECTION1里选择FICTION, 在SECTION2里选择NEWSPAPER,出来的一个表格中RATIO到底指什么?是频率吗?当我把SECTION1重新选择,定为SPOKEN比如说,而SECTION2不变时,新出来的表格中关于NEWSPAPER的RATION这一栏数字式会变的。为什么呢?
如果你仔细看一下,这个问题应该很好回答的。请看下面的截图
cheese in fiction vs newspaper.png
截图中的
SEC 1: 78,752,154 WORDS 是第一个子数据库(Fiction)中出现所有词汇的总频数(即:fiction这部分一共包括7千8百多万词次);
SEC 2: 79,368,267 WORDS 是第二个子数据库(Newspaper)中出现所有词汇的总频数(即:Newspaper这部分一共包括7千9百多万词次);、
Tokens 1:2349指的是token(此处我用的是cheese)在第一个子数据库(Ficiton)中出现的频数;
Tokens 2:4671指的是token(此处我用的是cheese)在第二个子数据库(Newspaper)中出现的频数;
PM1:29.83指的是token(此处是cheese)在第一个子数据库(Fiction)中的每百万词次的频数;
PM1:58.85指的是token(此处是cheese)在第二个子数据库(Newspaper)中的每百万词次的频数;
【之所以要有PM1和PM2,是因为通常每个子数据库的规模略有出入,参加上面SEC 1和SEC 2的数值差别,因此,需要将它们进行这样的处理,以便在公平的基础是进行比较】
Ration = PM1 / PM2 (第二部分的Ratio = PM2 / PM1)

练习题:再把第一部分重新选择,换成SPOKEN,那么如何解释下面的截图呢?
cheese in spoken vs newspaper.png
 
回复: BYU-BNC的中文使用说明

SPOKEN[FONT=宋体]子语料库一共有[/FONT]81,690,404[FONT=宋体]个词汇[/FONT]
NEWSPAPER[FONT=宋体]子语料库一共有[/FONT]79,368,267[FONT=宋体]个词汇[/FONT]

CHEESE[FONT=宋体]在[/FONT]SPOKEN[FONT=宋体]子语料库中出现了[/FONT]1350[FONT=宋体]次,每百万词标准频数为[/FONT]16.53
CHEESE[FONT=宋体]在[/FONT]NEWSPAPER[FONT=宋体]子语料库中出现了[/FONT]4671[FONT=宋体]次,每百万词标准频数为[/FONT]58.85

RATIO1=PM1/MP2=0.28
RATIO2=PM2/PM1=3.56
 
回复: BYU-BNC的中文使用说明

SPOKEN[FONT=宋体]子语料库一共有[/FONT]81,690,404[FONT=宋体]个词汇[/FONT]
NEWSPAPER[FONT=宋体]子语料库一共有[/FONT]79,368,267[FONT=宋体]个词汇[/FONT]

CHEESE[FONT=宋体]在[/FONT]SPOKEN[FONT=宋体]子语料库中出现了[/FONT]1350[FONT=宋体]次,每百万词标准频数为[/FONT]16.53
CHEESE[FONT=宋体]在[/FONT]NEWSPAPER[FONT=宋体]子语料库中出现了[/FONT]4671[FONT=宋体]次,每百万词标准频数为[/FONT]58.85

RATIO1=PM1/MP2=0.28
RATIO2=PM2/PM1=3.56
Bingo!
 
Back
顶部