欢迎光临散文网 会员登陆 & 注册

中文互联网的凋零,正在杀死中国人工智能的未来【为什么我们搞不出ChatGPT】

2023-03-31 13:33 作者:机械天文  | 我要投稿

1、语言鸿沟

案例:以GPT-4为首的自回归大模型

其语言性能在英文和中文上存在较大差异;

对于英文语境下的写作、表达和理解普遍更好;

原因:OpenAI的训练语料中90%都是英文语料,中文语料只占0.1%;


2、ChatGPT的不同语言表现

(1)罗曼语系(包括英文、法语、意大利语、西班牙语)表现最佳;

(2)汉藏语系(包括中文)和阿勒泰语系表现次之;


3、要做中文语言模型的根本原因

中、英文本身的差异,加上数据马太效应,会使得彼此差距越来越大!


4、数据来源问题

(1)中文网站数量减少,优质内容减少

从曾经的1000万,减少到了418万;

四大简体中文论坛只剩两个;

垂直领域的高质量平台(例如,国学数典)也都消失了;

(2)很多现存平台内容质量差,都是在为一点鸡毛蒜皮的小事吵得不可开交

(3)水军、自媒体、营销号和饭圈太多

(4)数据孤岛

互联网行业竞争与垄断,导致大量数据被封闭在各家的APP和平台里;


5、建议

正视问题;

建设语言模型的基础设施;

保留优质的中文数据,输出优质知识;

明确反垄断机制。

中文互联网的凋零,正在杀死中国人工智能的未来【为什么我们搞不出ChatGPT】的评论 (共 条)

分享到微博请遵守国家法律