[FONT=楷体][FONT=宋体]7月28-30日的语料库应用(基础班)中刚了解一些语料库的基础知识,非常感兴趣,继续探索中。请问:我利用Patternbuilder得到的正则表达式\S+_N\w+\s\S+_WP\s为什么在PowerGREP中查不到任何匹配语料?文件是研修班光盘中的data/NS/datebase1/tagged.渴望您的指导![/FONT]
[/FONT]
[FONT=宋体]thanks a lot!问题已经解决了。不过现在的新问题是在CLEC文本中,总是有错误标注,如 the [wd5,-1] Qingdao Daily ect [fm1,-] . I am going to tiried [fm1,-] to be a suitable man in the future job. [/FONT]
我怎样才能把这些错误标注去掉,再把这些文本用CLAWS赋码?
tools里的工具有:检索工具,标注工具,统计工具,DDL工具,文本处理。
检索工具:AntConc, AntwordProfile, Colligator2, Collocator1.0, Patcount,等等。
标注工具:metadata-encoder, tree-tagger 2,deTagger_en, BFSU_Standford,等
统计工具:Filelister, Document to text converter, sub-corpus-creator, PowerGREP,等等。
太多了,我也不懂,您可以找许博士询问吧。
你不是有detagger吗?用它就可以去掉[xxxxxxx]里面的内容了。
将CLEC进行赋码会很多错误,用处不大。
非常感谢您的多次帮助,我是新手就是比菜鸟还要菜鸟的那种。您说“将CLEC进行赋码会有很多错误,用处不大”。我很赞同您的观点,但是SWECCL里的文本都用CLAWS赋码了,我想这个语料库里也应该有一些错误吧。再说,我想了解大学英语四、六级作文中的语言特征,只有进行赋码了吧?不赋码也可以检索吗?感谢大师的帮助。
您好,万分感谢您的回复。我想检索四六级作文中关系从句的使用情况,如SWECCL是英语专业学生的作文,水平要高些。POS tagging后准确度相对也高些。
CLEC含有四六级和英语专业的作文,四六级的水平当然差点。
你说的语言特征包括哪些呢?词汇搭配类不需要pos tagging, 涉及到类联接和句法的研究当然要POS tagging才行。