求助~~~~~~~~~~~

以前从未接触过语料库,现在是必修课。现老师让一起做一个小project:在一个美语网聊数据库的基础上研究网聊文本中,影响单词拼写简化的因素,并最终建立一个statistical model 来测量这些因素在多大程度上影响里网聊中的拼写简化。
项目分步骤进行:
现在,对数据库的ANNOTATION已经结束,已经归纳出了网聊中单词拼写简化的大体分类:
1. 标准的固定缩略词汇形式,一般是词汇中每个单词首字母的组合, 聊天中一般不以未缩略前的词汇形式出现。eg lol=laugh out loudly.
2.可与原词汇相互替代的减缩形式: eg wanna=want to.
3. 创造性的减缩形式: eg walkin=walking
影响网聊拼写简化的因素也大体确定了:
- 聊友年龄
- 被简化词汇出现的频率.
- 被简化词汇的可预见性(包括通过词汇本身.或者前词,或者后词来预见)
- 对话的已知信息
- 从简化形式推测原词汇意义的程度。
- 功能或实义词汇,也可能是句法形式。
现在要做的工作是,老师让写一个manual 来区分上述三类简化形式。就是告诉别人该怎么来区分这三类。

这种的MANUAL怎么写呢?
本人实在是语料库的外行,整个课程都将充满艰辛,若有高人在旁指点,会对我帮助很大。5555555.。。。真诚希望各位前辈多多指教~~~~~~~~~~真诚感谢!!
 
Back
顶部