[原创讨论]计算机时代汉语的一大问题及对策建议

问题:
我们早已进入计算机时代,但我国汉语的人工智能研究、汉语语言机器处理能力还比较低下。这当中的一个重要原因是针对汉语自然语言处理的第一步:分词,就受困于汉语自身天然的特点。汉语的词与词之间是没有间隙的,比如:美女教师。你是切分成:美/女教师(美国的女教师),还是切分成:美女/教师(美丽的女教师)呢?而英语每个词之间都有一个天然的空格键,这个问题就简单的多:a beautiful woman teacher。当然现在国内也有研究者开发了汉语自动分词系统,但终究效果不是很理想,因为这种自动分词系统要依据语义分析才能做出正确的分词判断,如上例计算机要能自动判断出“美女”是“美国妇女”还是“漂亮的女人”。我们知道,语义分析是语言自然处理最难的一个环节,我们第一步的成功居然要依赖于最后一步的成功,而最后一步的成功又首先要求第一步至少已经解决(语义分析要在切好词的基础上才能推进),这是一种无解的循环!不过,不要失望,还是有解决的可能的,下面将个人的想法晒出来跟大家讨论讨论,特别是希望能够引起国家标准委以及输入法开发企业的关注。

对策建议:
可以建议国家标准委针对这一现象出台一项“输入法统一标准”,强制要求任何在中国公开使用的汉语输入法,必须再编写一套程序在输入法的后台标记用户在输入“词项”时的选择,也就是用户在打字时的自觉分词能够在后台进行标记自动记录下来,然后计算机就可以轻松识别出来。

可行性:
我们现在使用的主流输入法,大都已经有很强的词库功能,我们的普通用户也多已养成“按词输入”的习惯,也就是说,我们在电脑上码字时往往不是一个字一个字敲出来的,而是一个词一个词敲出来的。这就意味着输入法用户在打字时已进行了很好的分词工作,而我们只需要把它们通过输入法软件在后台上记录下来就可以了。

价值:
可以极大的推动汉语自然语言处理的发展,极大地推动汉语人工智能的发展,甚至推动超越英语语言计算机处理的发展,因为英语虽然个体词间有间隙自然分词,但是它们有进一步的语块切分的问题。
 
回复: [原创讨论]计算机时代汉语的一大问题及对策建议

或者,在文本编辑器(如word)上编写程序,记录用户在打字时的分词。
 
回复: [原创讨论]计算机时代汉语的一大问题及对策建议

多年前冯志伟等教授就呼吁书写时,按词书写.
 
回复: [原创讨论]计算机时代汉语的一大问题及对策建议

分词本身也是一个语言学的问题,汉语的字和词的区分并不总是非常清晰。
 
回复: [原创讨论]计算机时代汉语的一大问题及对策建议

光有这些数据只怕也难解决问题。况且,这类数据,对这些输入法企业来说,肯定有一大堆。
Haiyang老师说得对,恐怕还得要有语言理论上的突破才能有实质进展。
 
回复: [原创讨论]计算机时代汉语的一大问题及对策建议

词可能并不是汉语的基本单位,汉语界有“字本位”的主张。每个词中的单个汉字在一定程度上可以意义自足,词更像是字之间的固定搭配或短语,并非一个整体。
 
回复: [原创讨论]计算机时代汉语的一大问题及对策建议

我认为这并不可行。。。
“我 认为 这 并 不 可行” 还是 “我 认为 这 并不 可行”?
需要建立一个标准,但是推广势必不容易,如果采用自动化方法,不还是当前的分词问题么?
 
回复: [原创讨论]计算机时代汉语的一大问题及对策建议

别太过关注分词问题了,其实最要命的还是语法分析,最终的落脚点还在汉语的句子究竟是什么的问题上。例如:“让美更美”,即使分词正确,句法分析却难以进行。
 
Back
顶部