请问如何用用powergrep对符码的文本文件标记,使其只保留符码?梁茂成教授的文章中提到,但没有细节,请问具体的操作方法,先谢了!
请问如何用用powergrep对符码的文本文件标记,使其只保留符码?梁茂成教授的文章中提到,但没有细节,请问具体的操作方法,先谢了!
请问如何用用powergrep对符码的文本文件标记,使其只保留符码?梁茂成教授的文章中提到,但没有细节,请问具体的操作方法,先谢了!
如果是a_AT book_NN1这样的,在word中利用替换,在查找中输入(<[a-zA-Z0-9]@>)_(<[A-Z0-9]@>),在替换中输入\2,然后选是使用通配符就可以将之变成:AT NN1
如果是a_AT book_NN1这样的,在word中利用替换,在查找中输入(<[a-zA-Z0-9]@>)_(<[A-Z0-9]@>),在替换中输入\2,然后选是使用通配符就可以将之变成:AT NN1
search and replace
(\S+)_(\S+)替换为\2
当然方法很多,这只是其中一种方法。
如果是a_AT book_NN1这样的,在word中利用替换,在查找中输入(<[a-zA-Z0-9]@>)_(<[A-Z0-9]@>),在替换中输入\2,然后选是使用通配符就可以将之变成:AT NN1
批量文本,两次即可.Word 的功能真该好好挖掘一下.如果有3000个文本,在Word里需要做3000次,用PowerGREP,只要一次。
你应该说清楚你用的是什么语料。
CLEC的错误码情况不一样。CLEC错误码,不是每词赋码。而且是在在方括号中。
在PowerGREP里选择Collect功能,不是search and replace
然后查找\[(.*?)\]
Collect框输入$1
不过如果你将CLEC的单词去掉,保留错误码,没多大意义。
采取某个操作前,要明确自己想做什么。
用这种方法试了weccl 某个文件,结果一红一绿,使用了SELET ALL ,得到结果:
D:\WARG0001.txt
TARGET: D:\WARG0001.txt
2 I_PPIS1PPIS1 think_VV0VV0 they_PPHS2PPHS2 are_VBRVBR both_RRRR right_JJJJ ._..
3 Many_DA2DA2 people_NNNN go_VV0VV0 to_IIII the_ATAT university_NN1NN1 ,_,, because_CSCS it_PPH1PPH1 can_VMVM be_VBIVBI easy_JJJJ for_IFIF you_PPYPPY to_TOTO find_VVIVVI a_AT1AT1 work_NN1NN1 ._..
4 Many_DA2DA2 people_NNNN go_VV0VV0 to_IIII the_ATAT university_NN1NN1 ,_,, because_CSCS it_PPH1PPH1 can_VMVM be_VBIVBI easy_JJJJ for_IFIF you_PPYPPY to_TOTO find_VVIVVI a_AT1AT1 work_NN1NN1 ._..
又怎样一次性提取符码?请提醒!
请问如何用用powergrep对符码的文本文件标记,使其只保留符码和该要保留的原词如:情态动词might?梁茂成教授的文章中提到,但没有细节,请问具体的操作方法,先谢了!
又要问如何用用powergrep对符码的文本文件标记,使其只保留符码和该要保留的原词如:情态动词might?梁茂成教授的文章中提到,但没有细节,请问具体的操作方法,先谢了!
又要问如何用用powergrep对符码的文本文件标记,使其只保留符码和该要保留的原词如:情态动词might?梁茂成教授的文章中提到,但没有细节,请问具体的操作方法,先谢了!
假设用treetagger对文本进行赋码,我们可以考虑所赋的码的格式均为:下划线+几个大写字母。
我在PowerGrep中试了下面的正则表达式,可以去掉文本,只保留赋码。
(\w+)_(?=[A-Z]+)
Good luck!