求助：正则表达式在PowerGREP的使用

HelenShi · 2011-08-01

[FONT=楷体][FONT=宋体]7月28-30日的语料库应用（基础班）中刚了解一些语料库的基础知识，非常感兴趣，继续探索中。请问：我利用Patternbuilder得到的正则表达式\S+_N\w+\s\S+_WP\s为什么在PowerGREP中查不到任何匹配语料？文件是研修班光盘中的data/NS/datebase1/tagged.渴望您的指导！
[FONT=宋体][/FONT]
[/FONT][/FONT]

seanxpq · 2011-08-02

回复: 求助：正则表达式在PowerGREP的使用

作者 HelenShi:
[FONT=楷体][FONT=宋体]7月28-30日的语料库应用（基础班）中刚了解一些语料库的基础知识，非常感兴趣，继续探索中。请问：我利用Patternbuilder得到的正则表达式\S+_N\w+\s\S+_WP\s为什么在PowerGREP中查不到任何匹配语料？文件是研修班光盘中的data/NS/datebase1/tagged.渴望您的指导！[/FONT]

[/FONT]

我没参加会议，没有你这个语料，只能猜测如下：

[FONT=宋体]\S+_N\w+\s\S+_WP\s是TREETAGGER的赋码，表示Noun + Wh-pron，由于你的语料容量小，不一定含有这种结构，所以可能会查不到。[/FONT]
[FONT=宋体][/FONT]
[FONT=宋体]DT mama_NN ,_, that_DT proven_JJ whore_NN who_WP was_VBD now_RB in_IN a_DT brothel
to_TO realise_VV that_IN any_DT woman_NN who_WP aimed_VVD to_TO share_VV his_PP$
P was_VBD to_TO meet_VV Irish_JJ women_NNS who_WP ,_, unable_JJ to_TO stand_VV the_
We_PP found_VVD some_DT workers_NNS who_WP deliberately_RB controlled_VVD le
_NP was_VBD an_DT influential_JJ writer_NN who_WP developed_VVD a_DT philosophy_NN
Those_DT writers_NNS who_WP share_VV Parker_NP 's_POS view_NN[/FONT]
[FONT=宋体][/FONT]
[FONT=宋体][/FONT]
[FONT=宋体][/FONT]
[FONT=宋体]另外，如果可能，请把光盘中的Tools名称在下面列一下，好让大家知道许博士他们又弄了些什么新的秘密武器啊。[/FONT]

HelenShi · 2011-08-02

回复: 求助：正则表达式在PowerGREP的使用

[FONT=宋体]thanks a lot!问题已经解决了。不过现在的新问题是在CLEC文本中，总是有错误标注，如 the [wd5,-1] Qingdao Daily ect [fm1,-] . I am going to tiried [fm1,-] to be a suitable man in the future job. [/FONT]
我怎样才能把这些错误标注去掉，再把这些文本用CLAWS赋码？

tools里的工具有：检索工具，标注工具，统计工具，DDL工具，文本处理。
检索工具：AntConc, AntwordProfile, Colligator2, Collocator1.0, Patcount,等等。
标注工具：metadata-encoder, tree-tagger 2,deTagger_en, BFSU_Standford,等
统计工具：Filelister, Document to text converter, sub-corpus-creator, PowerGREP,等等。
太多了，我也不懂，您可以找许博士询问吧。

seanxpq · 2011-08-02

回复: 求助：正则表达式在PowerGREP的使用

作者 HelenShi:
[FONT=宋体]thanks a lot!问题已经解决了。不过现在的新问题是在CLEC文本中，总是有错误标注，如 the [wd5,-1] Qingdao Daily ect [fm1,-] . I am going to tiried [fm1,-] to be a suitable man in the future job. [/FONT]
我怎样才能把这些错误标注去掉，再把这些文本用CLAWS赋码？

tools里的工具有：检索工具，标注工具，统计工具，DDL工具，文本处理。
检索工具：AntConc, AntwordProfile, Colligator2, Collocator1.0, Patcount,等等。
标注工具：metadata-encoder, tree-tagger 2,deTagger_en, BFSU_Standford,等
统计工具：Filelister, Document to text converter, sub-corpus-creator, PowerGREP,等等。
太多了，我也不懂，您可以找许博士询问吧。

你不是有detagger吗？用它就可以去掉[xxxxxxx]里面的内容了。
将CLEC进行赋码会很多错误，用处不大。

HelenShi · 2011-08-02

谢谢您的回复

作者 seanxpq:
你不是有detagger吗？用它就可以去掉[xxxxxxx]里面的内容了。
将CLEC进行赋码会很多错误，用处不大。

非常感谢您的多次帮助，我是新手就是比菜鸟还要菜鸟的那种。您说“将CLEC进行赋码会有很多错误，用处不大”。我很赞同您的观点，但是SWECCL里的文本都用CLAWS赋码了，我想这个语料库里也应该有一些错误吧。再说，我想了解大学英语四、六级作文中的语言特征，只有进行赋码了吧？不赋码也可以检索吗？感谢大师的帮助。

seanxpq · 2011-08-02

回复: 谢谢您的回复

作者 HelenShi:
非常感谢您的多次帮助，我是新手就是比菜鸟还要菜鸟的那种。您说“将CLEC进行赋码会有很多错误，用处不大”。我很赞同您的观点，但是SWECCL里的文本都用CLAWS赋码了，我想这个语料库里也应该有一些错误吧。再说，我想了解大学英语四、六级作文中的语言特征，只有进行赋码了吧？不赋码也可以检索吗？感谢大师的帮助。

SWECCL是英语专业学生的作文，水平要高些。POS tagging后准确度相对也高些。
CLEC含有四六级和英语专业的作文，四六级的水平当然差点。

你说的语言特征包括哪些呢？词汇搭配类不需要pos tagging, 涉及到类联接和句法的研究当然要POS tagging才行。

HelenShi · 2011-08-02

回复: 谢谢您的回复

作者 seanxpq:
SWECCL是英语专业学生的作文，水平要高些。POS tagging后准确度相对也高些。
CLEC含有四六级和英语专业的作文，四六级的水平当然差点。

你说的语言特征包括哪些呢？词汇搭配类不需要pos tagging, 涉及到类联接和句法的研究当然要POS tagging才行。

您好，万分感谢您的回复。我想检索四六级作文中关系从句的使用情况，如
名词+who/which/that/whose/when/where/why引导的限制性关系从句、相关的非限制性关系从句的使用情况
[FONT=宋体]例如，我可以利用正则表达式：[/FONT]\S+_N\w+\s\S+_PNQS\s检索出WECCL中专业学生的who（在从句中做主语）引导的关系从句使用频数，而在CLEC中不能检索，因为这个库没有CLAWS赋码，只有错误标注。
不知我的想法是否可行？期待大师的指点。

求助：正则表达式在PowerGREP的使用

HelenShi

seanxpq

corpus explorer

HelenShi

seanxpq

corpus explorer

HelenShi

seanxpq

corpus explorer

HelenShi