中文互联网的凋零,正在杀死中国人工智能的未来【为什么我们搞不出ChatGPT】

1、语言鸿沟
案例:以GPT-4为首的自回归大模型
其语言性能在英文和中文上存在较大差异;
对于英文语境下的写作、表达和理解普遍更好;
原因:OpenAI的训练语料中90%都是英文语料,中文语料只占0.1%;
2、ChatGPT的不同语言表现
(1)罗曼语系(包括英文、法语、意大利语、西班牙语)表现最佳;
(2)汉藏语系(包括中文)和阿勒泰语系表现次之;
3、要做中文语言模型的根本原因
中、英文本身的差异,加上数据马太效应,会使得彼此差距越来越大!
4、数据来源问题
(1)中文网站数量减少,优质内容减少
从曾经的1000万,减少到了418万;
四大简体中文论坛只剩两个;
垂直领域的高质量平台(例如,国学数典)也都消失了;
(2)很多现存平台内容质量差,都是在为一点鸡毛蒜皮的小事吵得不可开交
(3)水军、自媒体、营销号和饭圈太多
(4)数据孤岛
互联网行业竞争与垄断,导致大量数据被封闭在各家的APP和平台里;
5、建议
正视问题;
建设语言模型的基础设施;
保留优质的中文数据,输出优质知识;
明确反垄断机制。