请教!!!如何检索出“长被字句”?

自建了一个中文语料库,想研究有关“被”字句。请教有什么方法可以让Wordsmith4自动检索出“长被字句”的数目吗?抑或我需要人工在检索出来的“被”字句中找出长“被”字句吗?多谢!!!!
 
回复: 请教!!!如何检索出“长被字句”?

首先定义“长”值,例如:“长”>=30。
然后,给文本断句。
最后,计算含“被”句的长度,并过滤非“长”的句子。
 
回复: 请教!!!如何检索出“长被字句”?

施事出现的被动句称为“长式被动句”,施事没有出现的被动句称为“短式被动句”.
如果是根据这种定义进行分析的话,应该可以比较顺利进行统计。
 
回复: 请教!!!如何检索出“长被字句”?

貌似计算机只能解决类似2楼的问题,而不能解决3楼的问题。
 
Last edited:
回复: 请教!!!如何检索出“长被字句”?

施事出现的被动句称为“长式被动句”,施事没有出现的被动句称为“短式被动句”.
如果是根据这种定义进行分析的话,应该可以比较顺利进行统计。

生语料和简单POS-tagged的语料都很难检索出这样的被动句。经过syntax-parsed(句法分析)语料才有可能这样检索。可以考虑使用 Standford Parser 来先预处理语料,然后检索。不过,自己加工的经过句法分析的语料由于parsed低准确率会影响检索结果的。

现成的经过人工校对、syntax-parsed英语语料库有ICE-GBDCPSE。可以下载试用版试试,也可以在线购买。
 
Back
顶部