CLEC 去标注问题讨论

xusun575

高级会员
#1
CLEC detagged 上传,仅供C友研究参考.使用中若发现detagging问题,请告知,以便改进个人在WS WORD中自用的全能detagger.
另外,若下载,敬请留名留言,否则以盗窃论处,扭送公安法办.:D
 
Last edited by a moderator:

laohong

管理员
Staff member
#4
回复: CLEC 去标注上传

CLEC detagged 上传,仅供C友研究参考.使用中若发现detagging问题,请告知,以便改进个人在WS WORD中自用的全能detagger.
另外,若下载,敬请留名留言,否则以盗窃论处,扭送公安法办.:D
CLEC是有版权保护的语料资源,请大家通过别的渠道获取吧。
to 老孙:感谢你的热忱和奉献,不过这里见谅了,我得去掉你的附件。
 
#8
回复: CLEC 去标注上传

我买了CLEC的光盘,但是我需要原来没有标注的纯文本,请教各位,如何去掉CLEC中的这些赋码?使用什么软件?在哪下载?多谢!
 
#9
Re: 回复: CLEC 去标注上传

如何去掉CLEC中的这些赋码?使用什么软件?在哪下载?多谢!
可以使用Editpad Pro的查找替换功能(之前最好用文本合并工具将五个CLEC文本整合在一块,省去一个个整合的麻烦。), 用简单的正则表达式可以去除,但不要期望一次性就能完全消除非文本内容。有的附加信息在尖括号之中(表达式可为\[[ \w,\-]+\]),有的又在方括号内(表达式可以是\<[ \w\?\-]+\>),还有较少的在圆括号中(\(t[\S\-]+\))。消除之后使用表达式\]和\>查找包含有]或>的高亮文字,手动消除。另外:在一般的学校图书馆里面可以借到《中国学习者英语口语语料库建设与研究》这本书,该书附有光盘,包含CLEC文本。
 
#10
回复: Re: 回复: CLEC 去标注上传

可以使用Editpad Pro的查找替换功能(之前最好用文本合并工具将五个CLEC文本整合在一块,省去一个个整合的麻烦。), 用简单的正则表达式可以去除,但不要期望一次性就能完全消除非文本内容。有的附加信息在尖括号之中(表达式可为\[[ \w,\-]+\]),有的又在方括号内(表达式可以是\<[ \w\?\-]+\>),还有较少的在圆括号中(\(t[\S\-]+\))。消除之后使用表达式\]和\>查找包含有]或>的高亮文字,手动消除。另外:在一般的学校图书馆里面可以借到《中国学习者英语口语语料库建设与研究》这本书,该书附有光盘,包含CLEC文本。
多谢,可以用这个方法来处理ICE吗
 
#12
回复: Re: 回复: Re: 回复: CLEC 去标注上传

得先分析ICE码的特点才可对症下药。如果ICE太大,不知Editpad Pro打开时会不会像word一样卡死,何不试试看?
ICE 标注复杂,试过用detagger,卡了,用文本编辑器,替换不了,你的那个什么东东?介绍下嘞
 
#13
回复: Re: 回复: CLEC 去标注上传

可以使用Editpad Pro的查找替换功能(之前最好用文本合并工具将五个CLEC文本整合在一块,省去一个个整合的麻烦。), 用简单的正则表达式可以去除,但不要期望一次性就能完全消除非文本内容。有的附加信息在尖括号之中(表达式可为\[[ \w,\-]+\]),有的又在方括号内(表达式可以是\<[ \w\?\-]+\>),还有较少的在圆括号中(\(t[\S\-]+\))。消除之后使用表达式\]和\>查找包含有]或>的高亮文字,手动消除。另外:在一般的学校图书馆里面可以借到《中国学习者英语口语语料库建设与研究》这本书,该书附有光盘,包含CLEC文本。
多谢Brainstorm, 我也尝试了用Editpad的替换功能,就是去不干净。我来找找你说的这本书吧,再次感谢!
 
#14
Re: 回复: Re: 回复: CLEC 去标注上传

多谢Brainstorm, 我也尝试了用Editpad的替换功能,就是去不干净。我来找找你说的这本书吧,再次感谢!
更正一下:包含CLEC光盘的是《中国英语学习者语料库》,不是《中国学习者英语口语语料库建设与研究》。后者包含的是COLSEC语料库。不好意思。
 
顶部