语料库软件查询汉语成语

#1
请教老师们,我现在想用语料库软件检索中文文本中的成语,个数以及用法,准备研究英汉语际显化的,请教各位该怎么检索呢,能不能做到穷尽式的检索呢
 

iCasino

普通会员
#4
回复: 语料库软件查询汉语成语

成语标注或分词不一定要,用成语字典文件进行批量检索就可以了(如用北外PowerConc的批量检索功能)。这样的话结果可能会含有不符合要求的情况,但比例应当不大(这个比例倒值得去计算一下)。标注的话准确率可能会高一点(高多少也是个有趣的问题),但也需要一个成语字典文件做分词时用的用户自定义词典。
 

iCasino

普通会员
#5
回复: 语料库软件查询汉语成语

刚才动手做了个用于批处理的成语词典文件,但里面还有些词是否为成语还有待商榷,且该表并不能说已经穷尽了汉语里的成语,欢迎大家补充修正。大伙如能提出其他表,我们可以把它们不断汇总合并,以后也好有个公共资源。
参考文献:
何平主编. 2004. 汉语成语词典. 成都: 电子科技大学出版社.
 

附件

#7
回复: 语料库软件查询汉语成语

刚才动手做了个用于批处理的成语词典文件,但里面还有些词是否为成语还有待商榷,且该表并不能说已经穷尽了汉语里的成语,欢迎大家补充修正。大伙如能提出其他表,我们可以把它们不断汇总合并,以后也好有个公共资源。
参考文献:
何平主编. 2004. 汉语成语词典. 成都: 电子科技大学出版社.
太感谢啦,麻烦老师啦!!
 

iCasino

普通会员
#8
回复: 语料库软件查询汉语成语

词典里有些成语有重复的,刚才用PowerConc(Concordance->Stats)发现的,抱歉。

1 臭味相投
2 口口声声
3 明知故犯
4 人仰马翻
5 人之常情
6 死于非命
7 有目共睹
8 瓜田李下
9 情不自禁
10 人面桃花
11 依依不舍
12 议论纷纷
13 饱食终日
14 本性难移
15 不败之地
16 不可终日
17 侧目而视
18 吹灰之力
19 诲人不倦
20 祸从口出
21 积毁销骨
22 鸡犬升天
23 立地成佛
24 量体裁衣
25 旁观者清
26 轻于鸿毛
27 食不甘味
28 死而后已
29 天高地厚
30 同日而语
31 形影相吊
32 一张一弛
33 驷马难追
 
#9
回复: 语料库软件查询汉语成语

词典里有些成语有重复的,刚才用PowerConc(Concordance->Stats)发现的,抱歉。
确实有点重复,出现两次的成语有如下9个:
臭味相投 瓜田李下 口口声声 明知故犯 人面桃花 人仰马翻 人之常情 死于非命 有目共睹

“附件”已去除重复。
 

附件

Last edited:
顶部