语料库和ChatGPT两者的用处不同,不是同类型的产品,不是简单替代关系。语料库远不是一个搜索例句的工具那么简单。有ChatGPT之后,啥句子写不出来?可以设定句子长度,可以设定句子语法,可以设定句子难度,让它写多少个句子它都可以写出来。有了chatgpt之后语料库好像没多少用处了
ChatGPT经过训练的语料库都是以亿为单位的,中国的那些专门研究语料库的机构的那些语料数量肯定是低于ChatGPT的训练的语料数量,而且ChatGPT的语言生成能力早就超出了人类的程度。中国大学那些研究语料库的单位研究语料库的那点东西作为OpenAI公司早就研究过了,而且OpenAI早就在这些方面超越了普通研究语料库的那些机构。中国那么多大学开设语料库专业不是也没有研究出多少东西来吗?甚至中国都没有写出一款可以自动分析中文语法的软件来。就算是按照语料库用来编写词典,好像中国在这方面也相当落后,那些书店里的使用语料库技术编写的词典不是绝大多数都是国外编的吗?中国编写外语词典落后这个问题先不说,中国编写中文词典的技术先进吗?好像也没先进到哪里去。中国研究语料库的那些研究好像很多都被拿来用来封网过滤言论了,从来就没有多少用于正道上。语料库和ChatGPT两者的用处不同,不是同类型的产品,不是简单替代关系。语料库远不是一个搜索例句的工具那么简单。
当前语料库语言学领域值得讨论的问题是,AIGC将来是否应该收入语料库?
【若对当前大模型感兴趣的话,眼中不应只有ChatGPT。类似的大语言模型,比较有影响的不下几十个,随时可能爆出超越ChatGPT的新产品。ChatGPT也是借鉴了Google前几年的transformer算法。OpenAI的ChatGPT只是众多类似产品中的一个而已,因为得到金主微软的投资,以Azure云的大算力加持,从而成为普及化应用,直接呈现在普通用户面前。微软可以说是半路上车,先声夺人。中国大学那些研究语料库的单位研究语料库的那点东西作为OpenAI公司早就研究过了,而且OpenAI早就在这些方面超越了普通研究语料库的那些机构。
【语料库语言学专业的设立主要不以开发软件为目标。开发软件的更多是自然语言处理专业,那是另一个行当。汉语自然语言处理这块的成熟工具很多,数不胜数。“所谓自动分析中文语法的软件”这个问题说来话长,如果按现在前沿的语法研究进展来看,英语也没有这样的软件。如果只是词性标注、树库一类的句法剖析,那中英文这方面的进展基本相当。至于标注和分析得准确与否,只能见仁见智。】中国那么多大学开设语料库专业不是也没有研究出多少东西来吗?甚至中国都没有写出一款可以自动分析中文语法的软件来。
【这么说并不公允。在理念和技术上,我们虽没有超越国外,但商务印书馆、外研社、上海辞书等机构的词典编纂理念和实践与国际基本同步。最近几年中国词典学界在融媒体方面的理论建构,其实已经走在了前面。】就算是按照语料库用来编写词典,好像中国在这方面也相当落后,那些书店里的使用语料库技术编写的词典不是绝大多数都是国外编的吗?中国编写外语词典落后这个问题先不说,中国编写中文词典的技术先进吗?好像也没先进到哪里去。
ChatGPT就算是借鉴了Google算法又怎样?Google到现在就拿不出个超越ChatGPT的软件来。在这方面百度好像比OpenAI早,不是照常没弄出个正儿八经的东西来?“汉语自然语言处理这块的成熟工具很多,数不胜数。” 这种工具好像只是用来写几篇没多少学术价值的论文用的吧。自动分析英语语法的软件早就有了,只是你不知道而已。“商务印书馆、外研社、上海辞书等机构的词典编纂理念和实践与国际基本同步”这有点自嗨了,《英汉大词典》(陆谷孙主编)的好像在中国算是评价很高了吧,但是我在处理这词典数据的时候发现里面一堆没啥价值的人名,那里面的人名可不是一般的多,有点怀疑这人名用于全球搞共产主义查户口用的,里面还有不少合成词连重读符号都标不对。对于语料库用于语法研究的作品好像就徐广联的《当代高级英语语法》这本书能拿出手去。其他有些所谓专家写的语法里面有人批A comprehensive Grammar of the English Language的作者Quirk等人在时态里的体的这种提法没多少意义(原话不是这么说的,意思就是这个意思),他们这些专家连Quirk为何在时态里弄出一个“体”都没弄明白。国内语法学家折腾了这么多年一直没有摆脱非谓语动词的框架,还感觉这是一种非常好的体系,殊不知Quirk等人早就有很好的解决方案,只是他们几个语法大师没有在自己作品里深入写下去。【若对当前大模型感兴趣的话,眼中不应只有ChatGPT。类似的大语言模型,比较有影响的不下几十个,随时可能爆出超越ChatGPT的新产品。ChatGPT也是借鉴了Google前几年的transformer算法。OpenAI的ChatGPT只是众多类似产品中的一个而已,因为得到金主微软的投资,以Azure云的大算力加持,从而成为普及化应用,直接呈现在普通用户面前。微软可以说是半路上车,先声夺人。
这些互联网巨头从一开始跟语料库语言学就不是同道中人,更不是竞争关系。两者的目标定位并不相同。】
【语料库语言学专业的设立主要不以开发软件为目标。开发软件的更多是自然语言处理专业,那是另一个行当。汉语自然语言处理这块的成熟工具很多,数不胜数。“所谓自动分析中文语法的软件”这个问题说来话长,如果按现在前沿的语法研究进展来看,英语也没有这样的软件。如果只是词性标注、树库一类的句法剖析,那中英文这方面的进展基本相当。至于标注和分析得准确与否,只能见仁见智。】
【这么说并不公允。在理念和技术上,我们虽没有超越国外,但商务印书馆、外研社、上海辞书等机构的词典编纂理念和实践与国际基本同步。最近几年中国词典学界在融媒体方面的理论建构,其实已经走在了前面。】
【如今中外新编词典基本都会声称借用了语料库。不过到底是收词、义项划分、用法及例句得益于语料库,各家处理方法并不一样。】
你的有些逻辑就像明明电脑能够瞬间计算海量数据而非要坚持使用算盘计算一样。解决一个问题如果有简单的解决方案,为什么非要用麻烦要死的方案?在电脑技术比较落后语料库技术比较落后的时代,不少人嘲笑研究语料库的人,那时候崇尚的好像是语言生成理论,后来Quirk等人写出了基于语料库技术的语法作品,技术发展到现在,又出现了反转,ChatGPT可以大量生成符合要求的海量句子,而且可以根据用户要求的长度难度和要求的语法结构生成句子,这时候又出现有些人又有类似的想法。等将来跟先进的ChatGPT这种翻译数据被集成到一块芯片上实现各种语音相互翻译的时候,那些学外语的人估计就不乐意了,凭什么我学了那么久的语言你就一块小芯片就解决了语言问题?大语言模型值得大家共同探讨,不应急于得出结论。
如前所述,生成性预训练模型跟语料库语言学是两类不同性质的工作,不是简单替代关系。
仅就两者所用语料而言,前者以量取胜,后者以质取胜。
ChatGPT基于大规模语料,但主要是应用导向,它可以实现很好的人机交流,给出流畅的应答,但不负责解释语言的基本运作规律。
如果只是为了学英语、用英语,当然可以拥抱ChatGPT,其他置之不理。对多数人来说,主要关心还是语言应用问题。
我们始终需要有一部分人潜心作基础研究。中国相对不缺应用型人才,更不缺空谈者和键盘侠,最缺的是专注于数理化、文史哲基础研究的人。基础研究是应用研究的先声。大语言模型的理论起点就来自语言学中的“分布假说”。现在采用的预训练模型也是基础数学以及概率论方面的应用,包括神经网络模型、词嵌入技术方面的创新等等。