问题:
我们早已进入计算机时代,但我国汉语的人工智能研究、汉语语言机器处理能力还比较低下。这当中的一个重要原因是针对汉语自然语言处理的第一步:分词,就受困于汉语自身天然的特点。汉语的词与词之间是没有间隙的,比如:美女教师。你是切分成:美/女教师(美国的女教师),还是切分成:美女/教师(美丽的女教师)呢?而英语每个词之间都有一个天然的空格键,这个问题就简单的多:a beautiful woman teacher。当然现在国内也有研究者开发了汉语自动分词系统,但终究效果不是很理想,因为这种自动分词系统要依据语义分析才能做出正确的分词判断,如上例计算机要能自动判断出“美女”是“美国妇女”还是“漂亮的女人”。我们知道,语义分析是语言自然处理最难的一个环节,我们第一步的成功居然要依赖于最后一步的成功,而最后一步的成功又首先要求第一步至少已经解决(语义分析要在切好词的基础上才能推进),这是一种无解的循环!不过,不要失望,还是有解决的可能的,下面将个人的想法晒出来跟大家讨论讨论,特别是希望能够引起国家标准委以及输入法开发企业的关注。
对策建议:
可以建议国家标准委针对这一现象出台一项“输入法统一标准”,强制要求任何在中国公开使用的汉语输入法,必须再编写一套程序在输入法的后台标记用户在输入“词项”时的选择,也就是用户在打字时的自觉分词能够在后台进行标记自动记录下来,然后计算机就可以轻松识别出来。
可行性:
我们现在使用的主流输入法,大都已经有很强的词库功能,我们的普通用户也多已养成“按词输入”的习惯,也就是说,我们在电脑上码字时往往不是一个字一个字敲出来的,而是一个词一个词敲出来的。这就意味着输入法用户在打字时已进行了很好的分词工作,而我们只需要把它们通过输入法软件在后台上记录下来就可以了。
价值:
可以极大的推动汉语自然语言处理的发展,极大地推动汉语人工智能的发展,甚至推动超越英语语言计算机处理的发展,因为英语虽然个体词间有间隙自然分词,但是它们有进一步的语块切分的问题。
我们早已进入计算机时代,但我国汉语的人工智能研究、汉语语言机器处理能力还比较低下。这当中的一个重要原因是针对汉语自然语言处理的第一步:分词,就受困于汉语自身天然的特点。汉语的词与词之间是没有间隙的,比如:美女教师。你是切分成:美/女教师(美国的女教师),还是切分成:美女/教师(美丽的女教师)呢?而英语每个词之间都有一个天然的空格键,这个问题就简单的多:a beautiful woman teacher。当然现在国内也有研究者开发了汉语自动分词系统,但终究效果不是很理想,因为这种自动分词系统要依据语义分析才能做出正确的分词判断,如上例计算机要能自动判断出“美女”是“美国妇女”还是“漂亮的女人”。我们知道,语义分析是语言自然处理最难的一个环节,我们第一步的成功居然要依赖于最后一步的成功,而最后一步的成功又首先要求第一步至少已经解决(语义分析要在切好词的基础上才能推进),这是一种无解的循环!不过,不要失望,还是有解决的可能的,下面将个人的想法晒出来跟大家讨论讨论,特别是希望能够引起国家标准委以及输入法开发企业的关注。
对策建议:
可以建议国家标准委针对这一现象出台一项“输入法统一标准”,强制要求任何在中国公开使用的汉语输入法,必须再编写一套程序在输入法的后台标记用户在输入“词项”时的选择,也就是用户在打字时的自觉分词能够在后台进行标记自动记录下来,然后计算机就可以轻松识别出来。
可行性:
我们现在使用的主流输入法,大都已经有很强的词库功能,我们的普通用户也多已养成“按词输入”的习惯,也就是说,我们在电脑上码字时往往不是一个字一个字敲出来的,而是一个词一个词敲出来的。这就意味着输入法用户在打字时已进行了很好的分词工作,而我们只需要把它们通过输入法软件在后台上记录下来就可以了。
价值:
可以极大的推动汉语自然语言处理的发展,极大地推动汉语人工智能的发展,甚至推动超越英语语言计算机处理的发展,因为英语虽然个体词间有间隙自然分词,但是它们有进一步的语块切分的问题。