紧急求助!如何在CLEC里提取英语双宾结构?

各位老师好!
我想在CLEC里面提取英语双宾结构和动词+宾语+介宾结构,可是不知道如何去做。
我看到《外语研究》(2007.5)上有胡学文老师的一篇《中国学生英语双宾构式的习得———一项基于语料库的对比研究》,他在CLEC和LOCNESS中采用了一种提取方法,摘录如下:
“首先用语料库附码工具J CLAWS 对四个语料库进行附码,然后用检索工具WordSmith 提取所有含双宾构式的语境共现行。
这需要分三步进行:第一部提取出所有含“动词+ 人称代词+ 名词”的语境共现行;
第二步提取出所有含“动词+ 名词+ 名词”的语境共现行;
第三步手工摘除非双宾构式的语境共现行。
结果就得到四个语料库中所有的含双宾构式的语境共现行。”

可是我不知道从哪里可以弄到JCLAWS这个工具,网上好像也下载不到免费版本;Wordsmith是一定得购买才能得到完整版吗?

我是二语习得专业的学生,对语料库很不熟悉,所以请老师帮忙!!
 
回复: 紧急求助!如何在CLEC里提取英语双宾结构?

“动词+ 名词+ 名词”和“动词+ 人称代词+ 名词”只能检索出一部分双宾结构。
give me a linguistics book,give my friend a corpus linguistics book,上面的描写就检索不出来。

通过词性赋码不大容易检索出所有的双宾结构。

如果有句法分析过的语料,会容易解决一点。
 
回复: 紧急求助!如何在CLEC里提取英语双宾结构?

试试corpus.byu,edu.你会得到一些启发.
比如最典型的give somebody something 检索,可以用以下 Ngram型:

g?ve [p*] [n*]
or
g?ve [p*] a [n*]
or

g?ve [n*] [n*]
or
g?ve [n*] a [n*]
or
g?ve [n*] a [j*][n*]
....

 
回复: 紧急求助!如何在CLEC里提取英语双宾结构?

各位老师好!
我想在CLEC里面提取英语双宾结构和动词+宾语+介宾结构,可是不知道如何去做。
我看到《外语研究》(2007.5)上有胡学文老师的一篇《中国学生英语双宾构式的习得———一项基于语料库的对比研究》,他在CLEC和LOCNESS中采用了一种提取方法,摘录如下:
“首先用语料库附码工具J CLAWS 对四个语料库进行附码,然后用检索工具WordSmith 提取所有含双宾构式的语境共现行。
这需要分三步进行:第一部提取出所有含“动词+ 人称代词+ 名词”的语境共现行;
第二步提取出所有含“动词+ 名词+ 名词”的语境共现行;
第三步手工摘除非双宾构式的语境共现行。
结果就得到四个语料库中所有的含双宾构式的语境共现行。”

可是我不知道从哪里可以弄到JCLAWS这个工具,网上好像也下载不到免费版本;Wordsmith是一定得购买才能得到完整版吗?

我是二语习得专业的学生,对语料库很不熟悉,所以请老师帮忙!!

huanier 同学可以利用Antcon这个免费工具进行检索。下载地址: http://www.antlab.sci.waseda.ac.jp/
它和wordsmith 的基本功能一样的。而且支持regular expression。
为什么不选用SWECLL?
 
回复: 紧急求助!如何在CLEC里提取英语双宾结构?

“动词+ 名词+ 名词”和“动词+ 人称代词+ 名词”只能检索出一部分双宾结构。
give me a linguistics book,give my friend a corpus linguistics book,上面的描写就检索不出来。

通过词性赋码不大容易检索出所有的双宾结构。

如果有句法分析过的语料,会容易解决一点。

顶这个思路


  1. 把文本分割成单句;
  2. 分析语法结构(parsing)
  3. 用regular expression 筛选出 V + NP+NP 的结构
没有做过, 只是商榷
 
回复: 紧急求助!如何在CLEC里提取英语双宾结构?

之所以不容易检索出来,难点在NP。
 
回复: 紧急求助!如何在CLEC里提取英语双宾结构?

提取双宾语的正则表达式:\S+_V\w+\s\S+_[NP]\w+\s\S+_[NP]\w+\b

使用Colligator 2.0对Claws4标注过的文本进行分析:


1. recounted_VVD John_NP1 Walford_NP1
2. told_VVN Sinn_NN121 Fein_NN122
3. mismatched_VVD pas_NN31 de_NN32
4. provided_VVN coal_NN1 seams_NN2
5. become_VVI migrant_NN1 labourers_NN2
6. allowed_VVD Edith_NP1 Whalley_NP1
7. were_VBDR dairy_NN1 breeds_NN2
8. rehousing_VVG Springtown_NP1 residents_NN2
9. watched_VVD Mrs_NNB Hollidaye_NP1
10. is_VBZ Mike_NP1 Hallett_NP1
11. suffered_VVD liver_NN1 failure_NN1
12. finding_VVG woodworking_NN1 workshops_NN2
13. handling_VVG telephone_NN1 traffic_NN1
14. eliminating_VVG employment_NN1 discrimination_NN1
15. met_VVD John_NP1 Virgo_NP1
16. include_VVI staff_NN costs_NN2
17. serving_VVG cask_NN1 beer_NN1
18. buying_VVG ad_NN1 borrowing_NN1
19. appoint_VVI Forest_NN1 justices_NN2
20. dispense_VVI keg_NN1 beers_NN2
21. gave_VVD business_NN1 travel_NN1
22. chose_VVD beer_NN1 soup_NN1
23. held_VVD hair_NN1 dryer_NN1
24. ignore_VV0 dilution_NN1 instructions_NN2
25. accompanying_VVG Mr_NNB Gorbachev_NP1
26. involving_VVG Joan_NP1 Lewis_NP1
27. fired_VVD tortoise_NN1 stove_NN1
28. denied_VVD party_NN1 strategy_NN1
29. discussed_VVD efficiency_NN1 standards_NN2
30. asked_VVD John_NP1 Wakeham_NP1
31. contemplated_VVD Jolyon_NP1 Vigo_NP1
32. watch_VV0 September_NPM1 September_NPM1
33. made_VVD hunt_NN1 scenes_NN2
34. may_VM prene_NN1 therin_NN1
35. incorporates_VVZ NHS_NP1 hospitals_NN2
36. produce_VVI disciplinarian_NN1 managers_NN2
37. were_VBDR family_NN1 events_NN2
38. featuring_VVG Gracie_NP1 Fields_NN2
39. consider_VVI lock_NN1 Troy_NP1
40. following_VVG heart_NN1 attacks_NN2
41. Controlling_VVG ammonia_NN1 emissions_NN2
42. solidify_VVI covenant_NN1 beliefs_NN2
43. using_VVG foam_NN1 cleaning_NN1
44. receiving_VVG day_NNT1 care_NN1
45. ride_VVI Guy_NP1 Harwood_NP1
46. Cooling_VVG water_NN1 pumps_NN2
47. selecting_VVG sound_NN1 foundation_NN1
48. do_VDI causes_NN2 anxiety_NN1
49. supported_VVD Edward_NP1 Heath_NP1
50. given_VVN advance_NN1 notification_NN1
51. managing_VVG Doncaster_NP1 Rovers_NP1
52. locating_VVG breeding_NN1 Water_NN1
53. alloying_VVG Copper_NN1 alloys_NN2
54. relieve_VVI traffic_NN1 congestion_NN1
55. holding_VVG Saddam_NP1 Hussein_NP1
56. dating_VVG model_NN1 Naomi_NP1
57. won_VVD Aberdeen_NP1 South_ND1
58. was_VBDZ party_NN1 night_NNT1
59. sending_VVG London_NP1 share_NN1
60. clarify_VVI wine_NN1 classification_NN1
61. ensuring_VVG breeding_NN1 synchronicity_NN1
62. met_VVD Margaret_NP1 Thatcher_NP1
63. undercut_VVI Mr_NNB Bush_NP1
64. had_VHD mining_NN1 interests_NN2
65. include_VV0 La_NP1 Bombola_NP1
66. said_VVD Mrs_NNB Beeton_NP1
67. attend_VVI training_NN1 courses_NN2
68. includes_VVZ Tina_NP1 Turner_NP1
69. attack_VVI Croat_NP1 positions_NN2
70. try_VVI satellite_NN1 television_NN1
71. were_VBDR Colin_NP1 Skipp_NP1
72. aiming_VVG point_NN1 technique_NN1
73. include_VV0 spider_NN1 monkeys_NN2
74. require_VVI majority_NN1 support_NN1
75. have_VH0 injury_NN1 problems_NN2
76. using_VVG terracotta_NN1 pots_NN2
77. state_VV0 benefit_NN1 books_NN2
78. moving_VVG water_NN1 tanks_NN2
79. inspired_VVD John_NP1 Johnson_NP1
80. want_VV0 Ferdinand_NP1 Marcos_NP1
81. replace_VVI Micky_NP1 Stewart_NP1
82. has_VHZ Sutton_NP1 back_NN1
83. writes_VVZ Georgina_NP1 Henry_NP1
84. followed_VVD wireless_NN1 operator_NN1
85. rationalise_VVI styrene_NN1 monomer_NN1
86. Following_VVG government_NN1 policy_NN1
87. says_VVZ Anne_NP1 Swithinbank_NP1
88. reinforce_VV0 ambulanceman_NN1 Jack_NP1
89. crushing_VVG Helena_NP1 Sukova_NP1
90. brought_VVN Harry_NP1 home_NN1
91. blame_VVI London_NP1 influences_NN2
92. identifying_VVG staffing_NN1 requirements_NN2
93. rating_VVG bond_NN1 insurers_NN2
94. control_VVI body_NN1 weight_NN1
95. comprise_VV0 dune_NN1 ridges_NN2
96. take_VVI afternoon_NNT1 tea_NN1
97. delegating_VVG personnel_NN2 issues_NN2
98. get_VVI wage_NN1 reductions_NN2
99. encourages_VVZ exchange_NN1 visits_NN2
100. was_VBDZ James_NP1 Williamson_NP1
101. replaces_VVZ Neil_NP1 Francis_NP1
 

附件

  • result.rtf
    56.9 KB · 浏览: 10
回复: 紧急求助!如何在CLEC里提取英语双宾结构?

Colligator 2.0 下载地址 http://www.corpus4u.org/showthread.php?t=4873

统计 V+N+N不难
但是,正如许老师所说统计
V+NP+N
V+N+NP
V+NP+NP
就不太容易了,首先要确定NP
如果使用对句法进行标注的语料可能会容易一些

NP= N
NP= N + N
NP= ADJ+N
NP= N + ADJ (较少)
NP = DET + N
NP = DET + ADJ + N
NP = ...
 
回复: 紧急求助!如何在CLEC里提取英语双宾结构?

提取双宾语的正则表达式:\S+_V\w+\s\S+_[NP]\w+\s\S+_[NP]\w+\b

使用Colligator 2.0对Claws4标注过的文本进行分析:


1. recounted_VVD John_NP1 Walford_NP1
2. told_VVN Sinn_NN121 Fein_NN122
3. mismatched_VVD pas_NN31 de_NN32
4. provided_VVN coal_NN1 seams_NN2
5. become_VVI migrant_NN1 labourers_NN2
6. allowed_VVD Edith_NP1 Whalley_NP1
7. were_VBDR dairy_NN1 breeds_NN2
8. rehousing_VVG Springtown_NP1 residents_NN2
9. watched_VVD Mrs_NNB Hollidaye_NP1
10. is_VBZ Mike_NP1 Hallett_NP1
11. suffered_VVD liver_NN1 failure_NN1
12. finding_VVG woodworking_NN1 workshops_NN2
13. handling_VVG telephone_NN1 traffic_NN1
14. eliminating_VVG employment_NN1 discrimination_NN1
15. met_VVD John_NP1 Virgo_NP1
16. include_VVI staff_NN costs_NN2
17. serving_VVG cask_NN1 beer_NN1
18. buying_VVG ad_NN1 borrowing_NN1
19. appoint_VVI Forest_NN1 justices_NN2
20. dispense_VVI keg_NN1 beers_NN2
21. gave_VVD business_NN1 travel_NN1
22. chose_VVD beer_NN1 soup_NN1
23. held_VVD hair_NN1 dryer_NN1
24. ignore_VV0 dilution_NN1 instructions_NN2
25. accompanying_VVG Mr_NNB Gorbachev_NP1
26. involving_VVG Joan_NP1 Lewis_NP1
27. fired_VVD tortoise_NN1 stove_NN1
28. denied_VVD party_NN1 strategy_NN1
29. discussed_VVD efficiency_NN1 standards_NN2
30. asked_VVD John_NP1 Wakeham_NP1
31. contemplated_VVD Jolyon_NP1 Vigo_NP1
32. watch_VV0 September_NPM1 September_NPM1
33. made_VVD hunt_NN1 scenes_NN2
34. may_VM prene_NN1 therin_NN1
35. incorporates_VVZ NHS_NP1 hospitals_NN2
36. produce_VVI disciplinarian_NN1 managers_NN2
37. were_VBDR family_NN1 events_NN2
38. featuring_VVG Gracie_NP1 Fields_NN2
39. consider_VVI lock_NN1 Troy_NP1
40. following_VVG heart_NN1 attacks_NN2
41. Controlling_VVG ammonia_NN1 emissions_NN2
42. solidify_VVI covenant_NN1 beliefs_NN2
43. using_VVG foam_NN1 cleaning_NN1
44. receiving_VVG day_NNT1 care_NN1
45. ride_VVI Guy_NP1 Harwood_NP1
46. Cooling_VVG water_NN1 pumps_NN2
47. selecting_VVG sound_NN1 foundation_NN1
48. do_VDI causes_NN2 anxiety_NN1
49. supported_VVD Edward_NP1 Heath_NP1
50. given_VVN advance_NN1 notification_NN1
51. managing_VVG Doncaster_NP1 Rovers_NP1
52. locating_VVG breeding_NN1 Water_NN1
53. alloying_VVG Copper_NN1 alloys_NN2
54. relieve_VVI traffic_NN1 congestion_NN1
55. holding_VVG Saddam_NP1 Hussein_NP1
56. dating_VVG model_NN1 Naomi_NP1
57. won_VVD Aberdeen_NP1 South_ND1
58. was_VBDZ party_NN1 night_NNT1
59. sending_VVG London_NP1 share_NN1
60. clarify_VVI wine_NN1 classification_NN1
61. ensuring_VVG breeding_NN1 synchronicity_NN1
62. met_VVD Margaret_NP1 Thatcher_NP1
63. undercut_VVI Mr_NNB Bush_NP1
64. had_VHD mining_NN1 interests_NN2
65. include_VV0 La_NP1 Bombola_NP1
66. said_VVD Mrs_NNB Beeton_NP1
67. attend_VVI training_NN1 courses_NN2
68. includes_VVZ Tina_NP1 Turner_NP1
69. attack_VVI Croat_NP1 positions_NN2
70. try_VVI satellite_NN1 television_NN1
71. were_VBDR Colin_NP1 Skipp_NP1
72. aiming_VVG point_NN1 technique_NN1
73. include_VV0 spider_NN1 monkeys_NN2
74. require_VVI majority_NN1 support_NN1
75. have_VH0 injury_NN1 problems_NN2
76. using_VVG terracotta_NN1 pots_NN2
77. state_VV0 benefit_NN1 books_NN2
78. moving_VVG water_NN1 tanks_NN2
79. inspired_VVD John_NP1 Johnson_NP1
80. want_VV0 Ferdinand_NP1 Marcos_NP1
81. replace_VVI Micky_NP1 Stewart_NP1
82. has_VHZ Sutton_NP1 back_NN1
83. writes_VVZ Georgina_NP1 Henry_NP1
84. followed_VVD wireless_NN1 operator_NN1
85. rationalise_VVI styrene_NN1 monomer_NN1
86. Following_VVG government_NN1 policy_NN1
87. says_VVZ Anne_NP1 Swithinbank_NP1
88. reinforce_VV0 ambulanceman_NN1 Jack_NP1
89. crushing_VVG Helena_NP1 Sukova_NP1
90. brought_VVN Harry_NP1 home_NN1
91. blame_VVI London_NP1 influences_NN2
92. identifying_VVG staffing_NN1 requirements_NN2
93. rating_VVG bond_NN1 insurers_NN2
94. control_VVI body_NN1 weight_NN1
95. comprise_VV0 dune_NN1 ridges_NN2
96. take_VVI afternoon_NNT1 tea_NN1
97. delegating_VVG personnel_NN2 issues_NN2
98. get_VVI wage_NN1 reductions_NN2
99. encourages_VVZ exchange_NN1 visits_NN2
100. was_VBDZ James_NP1 Williamson_NP1
101. replaces_VVZ Neil_NP1 Francis_NP1
多看一眼,却发现所提取出的例子似乎与"双宾语"都搭不上边.问题是在colligator 还在claws?谢谢!
 
回复: 紧急求助!如何在CLEC里提取英语双宾结构?

似乎没有把动词定义限制为行为动词,有些be动词也混进来了。比如例子100
 
回复: 紧急求助!如何在CLEC里提取英语双宾结构?

发生句法变化的是否不予考虑?比如倒装句,疑问句,被动句等等。双宾语结构并不只是陈述句吧
 
回复: 紧急求助!如何在CLEC里提取英语双宾结构?

似乎没有把动词定义限制为行为动词,有些be动词也混进来了。比如例子100

不仅仅是be动词的问题,其它很多动词后面两个名词实际上是有两个名词构成的合成词(compound),和双宾语不挨边。看来这个方法不合适,必须另辟蹊径。
 
Last edited:
回复: 紧急求助!如何在CLEC里提取英语双宾结构?

如此结果确实出人意料,但问题应该出在ClAWS的tagging上,如果能有ditransitive 的标记项,就会提高regex检索的正确性。
 
回复: 紧急求助!如何在CLEC里提取英语双宾结构?

个人以为,除非要检索的语料是经过句法标注的,就像ICE-GB一样,否则即使用正则表达式也不能完全提取出想要的检索行。即使自己使用一些句法标注程序或软件来对自己要用的语料进行处理,在标注的准确性上也没法保证,至少你得去进行手工检查。与其那样的话,你还不如设定自己要检索的此类结构的标准,借助WST或Antconc等工具手工进行分拣。
 
回复: 紧急求助!如何在CLEC里提取英语双宾结构?

关键问题出现在NP上
 
回复: 紧急求助!如何在CLEC里提取英语双宾结构?

看来方法有两个:一、准确可靠的句法标注语料。该方法需要前期对语料的加工处理,一旦做好这部工作,后面的检索结果就比较准确了。此方法既要有技术,即parser的准确性高,也要有人工核对。个人难以完成。二、对语料进行词性标注,然后在检索词性附码的基础上再进行人工filtering。该方法的问题是,词性标注附码并不能明确句法关系,其检索结果很不全面。一方面其结果会遗漏不少符合条件的双宾语结构,另一方面结果中包含不少非双宾语结构。因而该方法的结果需要人工来进行添补和剔除两个方面的校正。
 
回复: 紧急求助!如何在CLEC里提取英语双宾结构?

还是对基本的英语语法(而TG,UG,SFG等五花八门的语法)的学习不够.唉,咱又要得罪人捏:D,
 
Last edited:
回复: 紧急求助!如何在CLEC里提取英语双宾结构?

急急 请教 怎么进入CLEC语料库啊?我找到的网址打不开啊,我想找四级作文库。谢谢啊,盼回复。
 
回复: 紧急求助!如何在CLEC里提取英语双宾结构?

谢谢各位老师指点!我似乎明白了一些,但由于是新手,看了这么多评论还是懵懵懂懂~
现在我用GoTagger这个软件对CLEC进行了标注,不知道GoTagger的可信度是多少?另外我在WordSmith里面想尝试对tag过的文本进行structure的提取,可在search word里面输入类似VB*NN之类的关键词都找不到相应的句子,请问我该输入什么具体的标注符号呢?还用在Wordsmith里面另设tag file吗?
搞了半天还是搞不出来,所以再次请教老师!
 
Back
顶部