中文互联网的凋零，正在杀死中国人工智能的未来【为什么我们搞不出ChatGPT】

2023-03-31 13:33 作者:机械天文 0人读过 | 我要投稿

1、语言鸿沟

案例：以GPT-4为首的自回归大模型

其语言性能在英文和中文上存在较大差异；

对于英文语境下的写作、表达和理解普遍更好；

原因：OpenAI的训练语料中90%都是英文语料，中文语料只占0.1%；

2、ChatGPT的不同语言表现

（1）罗曼语系（包括英文、法语、意大利语、西班牙语）表现最佳；

（2）汉藏语系（包括中文）和阿勒泰语系表现次之；

3、要做中文语言模型的根本原因

中、英文本身的差异，加上数据马太效应，会使得彼此差距越来越大！

4、数据来源问题

（1）中文网站数量减少，优质内容减少

从曾经的1000万，减少到了418万；

四大简体中文论坛只剩两个；

垂直领域的高质量平台（例如，国学数典）也都消失了；

（2）很多现存平台内容质量差，都是在为一点鸡毛蒜皮的小事吵得不可开交

（3）水军、自媒体、营销号和饭圈太多

（4）数据孤岛

互联网行业竞争与垄断，导致大量数据被封闭在各家的APP和平台里；

5、建议

正视问题；

建设语言模型的基础设施；

保留优质的中文数据，输出优质知识；

明确反垄断机制。

标签：

中文互联网的凋零，正在杀死中国人工智能的未来【为什么我们搞不出ChatGPT】的评论 (共条)