请问如何用用powergrep对符码的文本文件标记,使其只保留符码?

请问如何用用powergrep对符码的文本文件标记,使其只保留符码?梁茂成教授的文章中提到,但没有细节,请问具体的操作方法,先谢了!
 
回复: 请问如何用用powergrep对符码的文本文件标记,使其只保留符码?

假设用treetagger对文本进行赋码,我们可以考虑所赋的码的格式均为:下划线+几个大写字母。
我在PowerGrep中试了下面的正则表达式,可以去掉文本,只保留赋码。

(\w+)_(?=[A-Z]+)

Good luck!

请问如何用用powergrep对符码的文本文件标记,使其只保留符码?梁茂成教授的文章中提到,但没有细节,请问具体的操作方法,先谢了!
 
回复: 请问如何用用powergrep对符码的文本文件标记,使其只保留符码?

请问如何用用powergrep对符码的文本文件标记,使其只保留符码?梁茂成教授的文章中提到,但没有细节,请问具体的操作方法,先谢了!

发一段已标注的文本上来.
 
回复: 请问如何用用powergrep对符码的文本文件标记,使其只保留符码?

search and replace

(\S+)_(\S+)替换为\2

当然方法很多,这只是其中一种方法。
 
回复: 请问如何用用powergrep对符码的文本文件标记,使其只保留符码?

如果是a_AT book_NN1这样的,在word中利用替换,在查找中输入(<[a-zA-Z0-9]@>)_(<[A-Z0-9]@>),在替换中输入\2,然后选是使用通配符就可以将之变成:AT NN1
 
回复: 请问如何用用powergrep对符码的文本文件标记,使其只保留符码?

如果是a_AT book_NN1这样的,在word中利用替换,在查找中输入(<[a-zA-Z0-9]@>)_(<[A-Z0-9]@>),在替换中输入\2,然后选是使用通配符就可以将之变成:AT NN1


Greeeeat minds think alike.:p
 
回复: 请问如何用用powergrep对符码的文本文件标记,使其只保留符码?

如果是a_AT book_NN1这样的,在word中利用替换,在查找中输入(<[a-zA-Z0-9]@>)_(<[A-Z0-9]@>),在替换中输入\2,然后选是使用通配符就可以将之变成:AT NN1

如果有3000个文本,在Word里需要做3000次,用PowerGREP,只要一次。
 
回复: 请问如何用用powergrep对符码的文本文件标记,使其只保留符码?

search and replace

(\S+)_(\S+)替换为\2

当然方法很多,这只是其中一种方法。

许博士,我用这种方法对于CLEC语言错误类型赋码进行了操作,得到的结果是
TOTAL: 0 matches in 0 files (1 other file without matches not listed)
也许,我所说的符码不在你的考虑范围?请老师帮忙!
 
回复: 请问如何用用powergrep对符码的文本文件标记,使其只保留符码?

你应该说清楚你用的是什么语料。

CLEC的错误码情况不一样。CLEC错误码,不是每词赋码。而且是在在方括号中。

在PowerGREP里选择Collect功能,不是search and replace

然后查找\[(.*?)\]
Collect框输入$1

不过如果你将CLEC的单词去掉,保留错误码,没多大意义。
采取某个操作前,要明确自己想做什么。
 
回复: 请问如何用用powergrep对符码的文本文件标记,使其只保留符码?

如果是a_AT book_NN1这样的,在word中利用替换,在查找中输入(<[a-zA-Z0-9]@>)_(<[A-Z0-9]@>),在替换中输入\2,然后选是使用通配符就可以将之变成:AT NN1

谢谢你,我用了这种方法吧CLEC 复制到了WORD 文档并进行了如此操作,也是没有效果,不知是文件原因,还是我操作不当?
 
回复: 请问如何用用powergrep对符码的文本文件标记,使其只保留符码?

如果有3000个文本,在Word里需要做3000次,用PowerGREP,只要一次。
批量文本,两次即可.Word 的功能真该好好挖掘一下.:p
 
回复: 请问如何用用powergrep对符码的文本文件标记,使其只保留符码?

你应该说清楚你用的是什么语料。

CLEC的错误码情况不一样。CLEC错误码,不是每词赋码。而且是在在方括号中。

在PowerGREP里选择Collect功能,不是search and replace

然后查找\[(.*?)\]
Collect框输入$1

不过如果你将CLEC的单词去掉,保留错误码,没多大意义。
采取某个操作前,要明确自己想做什么。

谢谢许博士的提醒与帮助,我已经明白了!
 
回复: 请问如何用用powergrep对符码的文本文件标记,使其只保留符码?

用这种方法试了weccl 某个文件,结果一红一绿,使用了SELET ALL ,得到结果:
D:\WARG0001.txt
TARGET: D:\WARG0001.txt
2 I_PPIS1PPIS1 think_VV0VV0 they_PPHS2PPHS2 are_VBRVBR both_RRRR right_JJJJ ._..
3 Many_DA2DA2 people_NNNN go_VV0VV0 to_IIII the_ATAT university_NN1NN1 ,_,, because_CSCS it_PPH1PPH1 can_VMVM be_VBIVBI easy_JJJJ for_IFIF you_PPYPPY to_TOTO find_VVIVVI a_AT1AT1 work_NN1NN1 ._..
4 Many_DA2DA2 people_NNNN go_VV0VV0 to_IIII the_ATAT university_NN1NN1 ,_,, because_CSCS it_PPH1PPH1 can_VMVM be_VBIVBI easy_JJJJ for_IFIF you_PPYPPY to_TOTO find_VVIVVI a_AT1AT1 work_NN1NN1 ._..

又怎样一次性提取符码?请提醒!
 
回复: 请问如何用用powergrep对符码的文本文件标记,使其只保留符码?

用这种方法试了weccl 某个文件,结果一红一绿,使用了SELET ALL ,得到结果:
D:\WARG0001.txt
TARGET: D:\WARG0001.txt
2 I_PPIS1PPIS1 think_VV0VV0 they_PPHS2PPHS2 are_VBRVBR both_RRRR right_JJJJ ._..
3 Many_DA2DA2 people_NNNN go_VV0VV0 to_IIII the_ATAT university_NN1NN1 ,_,, because_CSCS it_PPH1PPH1 can_VMVM be_VBIVBI easy_JJJJ for_IFIF you_PPYPPY to_TOTO find_VVIVVI a_AT1AT1 work_NN1NN1 ._..
4 Many_DA2DA2 people_NNNN go_VV0VV0 to_IIII the_ATAT university_NN1NN1 ,_,, because_CSCS it_PPH1PPH1 can_VMVM be_VBIVBI easy_JJJJ for_IFIF you_PPYPPY to_TOTO find_VVIVVI a_AT1AT1 work_NN1NN1 ._..

又怎样一次性提取符码?请提醒!

<STU2><ARG17><YEAR06><GRADE1><TIMED>
PPIS1 VV0 PPHS2 VBR RR JJ .
DA2 NN VV0 II AT NN1 , CS PPH1 VM VBI JJ IF PPY TO VVI AT1 NN1 .
DA2 NN VV0 II AT NN1 , CS PPH1 VM VBI JJ IF PPY TO VVI AT1 NN1 .
CS PPY VBR RR AT1 JJ NN1 , DAT NN1 VM XX VVI PPY , PPHS2 VV0 PPY VBR XX NN1 RR , II APPGE NN2 PPY VH0 XX VV0 II AT1 NN1 CS PPY VBR XX JJ .
CCB CS PPY VV0 II AT NN1 CS PPY VM XX VDI DD NN1 , REX21 REX22 PPY VM XX VVI APPGE NN2 , PPY VM XX VDI DD JJ NN2 .
PPHS2 RR VV0 PPY VBR RG JJ , CS PPY VBR II AT1 JJ NN1 PPH1 VM VBI NN1 .
RR DD NN VV0 II AT NN1 IF VV0 AT1 NN1 .
JJ NN VV0 II AT NN1 CS PPHS2 VV0 TO VVI DD NN1 .
PPHS2 RR VV0 TO VVI PPX1 .
CS CS PPY JJ VH0 DD NN1 PPY VM VHI DB NN1 .
PPHS2 VV0 NN2 VM VHI DA2 NN2 XX RR RRQ TO VVI .
PPHS2 VM VVI TO VVI CC RRQ TO VVI NN2 .
PPHS2 VM VVI RRQ TO VVI IW NN2 .


I got it 1thanks!
 
回复: 请问如何用用powergrep对符码的文本文件标记,使其只保留符码?

congrats!
 
回复: 请问如何用用powergrep对符码的文本文件标记,使其只保留符码和该要保留的原词如:情态动词might??

请问如何用用powergrep对符码的文本文件标记,使其只保留符码和该要保留的原词如:情态动词might?梁茂成教授的文章中提到,但没有细节,请问具体的操作方法,先谢了!
 
请问如何用用powergrep对符码的文本文件标记,使其只保留符码和该要保留的原词如:情态动词might??

又要问如何用用powergrep对符码的文本文件标记,使其只保留符码和该要保留的原词如:情态动词might?梁茂成教授的文章中提到,但没有细节,请问具体的操作方法,先谢了!
 
回复: 请问如何用用powergrep对符码的文本文件标记,使其只保留符码和该要保留的原词如:情态动词might??

又要问如何用用powergrep对符码的文本文件标记,使其只保留符码和该要保留的原词如:情态动词might?梁茂成教授的文章中提到,但没有细节,请问具体的操作方法,先谢了!

又要问如何用用powergrep对符码的文本文件标记,使其只保留符码和该要保留的原词如:情态动词might?梁茂成教授的文章中提到,但没有细节,请问具体的操作方法,先谢了!
 
回复: 请问如何用用powergrep对符码的文本文件标记,使其只保留符码和该要保留的原词如:情态动词might??

又要问如何用用powergrep对符码的文本文件标记,使其只保留符码和该要保留的原词如:情态动词might?梁茂成教授的文章中提到,但没有细节,请问具体的操作方法,先谢了!

又要问如何用用powergrep对符码的文本文件标记,使其只保留符码和该要保留的原词如:情态动词might?梁茂成教授的文章中提到,但没有细节,请问具体的操作方法,先谢了!
这个问题我以为很难,请求大家帮忙!
 
回复: 请问如何用用powergrep对符码的文本文件标记,使其只保留符码?

假设用treetagger对文本进行赋码,我们可以考虑所赋的码的格式均为:下划线+几个大写字母。
我在PowerGrep中试了下面的正则表达式,可以去掉文本,只保留赋码。

(\w+)_(?=[A-Z]+)

Good luck!


让这个帖子浮上来。关于正则表达式,我觉得查找方面好懂一些,涉及到替换有时候就搞不懂了。许博士那个替换为\2的表达式大致懂了。

(\w+)_(?=[A-Z]+)这个表达式究竟是查找还是收集或替换呢?

(?=[A-Z]+)这个部分不明白,还请不吝赐教!
 
Back
顶部