如何根据MT/T值求得显著搭配词?

大家好,麻烦再请教一下,如果我用Antconc计算出来MT/T值,并按降序排序,如果选出显著搭配词拿来分析呢?需要用SPSS吗,还是仅仅根据MT/T值大小? 具体选出多少个词来分析合适呢,20个,30个还是更多呢?
因为我检索出来的搭配词的MI/T值非常多,不太好选。
谢谢了!
 
回复: 如何根据MT/T值求得显著搭配词?

看你要做哪一方面的分析了,比如我要做非词语化的分析,检索take的显著搭配词,那么按照MI/T值排序,检索结果中,try, damn等等可能就是我要关注的搭配词(当然这些例子只是为了说明问题,都是我瞎编的),而其他的功能词,介词等,就不是我们需要关注的了。
不需要再使用SPSS。
 
回复: 如何根据MT/T值求得显著搭配词?

看你要做哪一方面的分析了,比如我要做非词语化的分析,检索take的显著搭配词,那么按照MI/T值排序,检索结果中,try, damn等等可能就是我要关注的搭配词(当然这些例子只是为了说明问题,都是我瞎编的),而其他的功能词,介词等,就不是我们需要关注的了。
不需要再使用SPSS。
我计算出的MI/T值很多,跨距为4,from 0 to 4,最小频率设置为3,以下是对clec其中的一次检索,我要和brown做对比分析,您看我该选取多少个来分析为好呢?
1 16 0 16 13.56994 jack
2 7 0 7 12.37729 tom
3 17 0 17 11.65740 st
4 12 0 12 11.15490 peter
5 21 0 21 9.50282 i
6 50 0 50 9.35581 bitterly
7 4 0 4 9.24801 laughter
8 53 0 53 9.23177 crying
9 3 0 3 9.15490 chest
10 8 0 8 8.98497 prison
11 3 0 3 8.83297 categories
12 5 0 5 8.56994 y
13 61 0 61 8.56994 room
14 6 0 6 7.83297 reality
15 3 0 3 7.69547 basket
16 4 0 4 7.66305 groups
17 3 0 3 7.56994 markets
18 3 0 3 7.15490 account
19 13 0 13 6.86099 market
20 3 0 3 6.83297 dough
21 8 0 8 6.81505 knocked
22 3 0 3 6.69547 actions
23 3 0 3 6.69547 round
24 6 0 6 6.66305 socity
25 23 0 23 6.53126 face
26 4 0 4 6.28453 sky
27 19 0 19 6.21795 rivers
28 16 0 16 5.90460 river
29 8 0 8 5.69957 boy
30 4 0 4 5.68729 truth
31 4 0 4 5.66305 effect
32 5 0 5 5.62508 small
33 5 0 5 5.55201 house
34 3 0 3 5.54019 action
35 3 0 3 5.48247 rage
36 5 0 5 5.36830 armchair
37 4 0 4 5.26616 night
38 56 0 56 5.08843 society
39 4 0 4 5.04637 eyes
40 3 0 3 5.00515 where
41 17 0 17 4.99919 practice
42 3 0 3 4.90697 took
43 3 0 3 4.86950 next
44 8 0 8 4.73705 being
45 4 0 4 4.72445 real
46 10 0 10 4.72194 without
47 4 0 4 4.71196 body
48 3 0 3 4.54019 soon
49 12 0 12 4.41343 then
50 3 0 3 4.38671 daily
51 4 0 4 4.32201 eye
52 4 0 4 4.23902 several
53 4 0 4 4.23902 second
54 10 0 10 4.20536 two
55 3 0 3 4.17762 mind
56 3 0 3 4.17762 three
57 4 0 4 4.17762 university
58 7 0 7 4.08267 social
59 7 0 7 3.90969 after
60 4 0 4 3.79515 result
61 20 0 20 3.66425 but
62 5 0 5 3.63920 now
63 3 0 3 3.63920 condition
64 7 0 7 3.54124 college
65 312 0 312 3.44509 the
66 31 0 31 3.44065 fresh
67 3 0 3 3.35400 while
68 48 0 48 3.29575 water
69 21 0 21 3.22585 my
70 15 0 15 3.21826 his
71 11 0 11 3.20123 if
72 3 0 3 3.14927 just
73 15 0 15 3.09204 world
74 4 0 4 3.00388 before
75 7 0 7 2.98069 what
76 14 0 14 2.95103 one
77 3 0 3 2.95033 through
78 3 0 3 2.93573 another
79 5 0 5 2.90887 first
80 7 0 7 2.87347 your
81 15 0 15 2.79911 so
82 3 0 3 2.77119 order
83 14 0 14 2.76534 some
84 78 0 78 2.68197 and
85 6 0 6 2.66907 because
86 5 0 5 2.63920 new
87 40 0 40 2.63448 it
88 6 0 6 2.61187 study
89 7 0 7 2.59266 there
90 22 0 22 2.58694 np
91 17 0 17 2.49627 our
92 4 0 4 2.47190 most
93 11 0 11 2.46999 as
94 8 0 8 2.43937 or
95 71 0 71 2.40808 wd
96 3 0 3 2.39668 every
97 6 0 6 2.38671 at
98 3 0 3 2.30315 him
99 3 0 3 2.25403 how
100 11 0 11 2.24392 with
101 12 0 12 2.23902 cc
102 10 0 10 2.23812 was
103 6 0 6 2.23604 years
104 67 0 67 2.17941 s
105 4 0 4 2.16480 infant
106 3 0 3 2.16055 same
107 10 0 10 2.15546 he
108 39 0 39 2.08591 a
109 3 0 3 2.07009 day
110 4 0 4 2.06611 old
111 4 0 4 2.05227 students
112 5 0 5 2.02923 only
113 8 0 8 2.02690 work
114 4 0 4 2.01152 which
115 4 0 4 2.00198 outside
 
回复: 如何根据MT/T值求得显著搭配词?

还是同一个问题:你的最终研究目的,究竟是什么?你用CLEC和Brown做对比分析,对比的是什么,为的是得出哪方面的结果呢?
数据繁多不要害怕。研究的意义就在于从繁杂的数据中找寻出规律性的东西来。几年前为了做三组词的非词语化研究,对比过5,600个collocates,看过成千条concordances,相对于板上的大牛来说,肯定还只是小case。做事要有耐心,有恒心和毅力。
 
回复: 如何根据MT/T值求得显著搭配词?

还是同一个问题:你的最终研究目的,究竟是什么?你用CLEC和Brown做对比分析,对比的是什么,为的是得出哪方面的结果呢?
数据繁多不要害怕。研究的意义就在于从繁杂的数据中找寻出规律性的东西来。几年前为了做三组词的非词语化研究,对比过5,600个collocates,看过成千条concordances,相对于板上的大牛来说,肯定还只是小case。做事要有耐心,有恒心和毅力。
非常感谢您的鼓励和帮助!
我使用MI/Tscore的最终目的是想找出所分析的介词的显著搭配词,以此从语法和词汇的角度做进一步分析,对比差异性。
我不怕繁琐的,只是之前读了一些文章,里面用到MI/T值,只取20或30个来分析,我不知道有什么样的标准才科学,到底该分析多少个?另外,显著搭配词的提取可以忽略共现频率而只考虑MI/T值大小吗?
Hunston的书中提到,若所对比的两个语料库词容量不等是不适合用T值来分析的,那样不科学。这个我在具体分析中,该提取哪些数值呢?
谢谢您!期待回复!
 
回复: 如何根据MT/T值求得显著搭配词?

MI/T值本身就是基于共现频率和库容大小计算出来的。建议你先找本语料库的教材仔细阅读下与之有关的章节,搞清楚这两个值的概念,计算方法和统计学上意义。Brown和CLEC库容不同,直接对比肯定是不科学的,你不能因为这个词在CLEC里MI值为5,而那个词在Brown里MI值为4,就说这个词比那个词更具有搭配显著性。
直接按共现频数来做对比,其实也可以的,但记得要换算成标准频数再做对比。
 
回复: 如何根据MT/T值求得显著搭配词?

MI/T值本身就是基于共现频率和库容大小计算出来的。建议你先找本语料库的教材仔细阅读下与之有关的章节,搞清楚这两个值的概念,计算方法和统计学上意义。Brown和CLEC库容不同,直接对比肯定是不科学的,你不能因为这个词在CLEC里MI值为5,而那个词在Brown里MI值为4,就说这个词比那个词更具有搭配显著性。
直接按共现频数来做对比,其实也可以的,但记得要换算成标准频数再做对比。
好的,非常感谢您!
 
Back
顶部