中文平台的AI学什么

国内发展ChatGPT这样的AI一大障碍是,没有优质的、系统化的、成体系的中文内容,从百科、新闻到推文,网络发展这么多年所积累的内容都不够专业化精细化,优质内容集中在少数几个平台,更多的是Ctrl C&V和广告。
而有段时间还有平台圈篱笆的倾向,不让百度这种搜索引擎或者爬虫抓取内容,例如微信公众号的内容只能用搜搜,平台各自为营。信息质量不高能用的又少,这样的对话结果是基于关键词百科的走江湖、客套话。如果各个平台不开放,可能出现的局面仍是拼各个平台内容的质量,获得的回答未必能全面。
就这点上很好奇中文Chat GPT是怎么做到如此广普的,或许正如谷歌好用一样,只要内容足够开放且优质,就能通过访问量获得更好的关联脑图,回答的内容自然能更让人觉得靠谱。
这样一个模型,要去学习什么来产出?
学习内容来源:
其一,可以直接搬运、翻译海外内容,包括且不限于繁体中文及非汉语圈的内容。非汉语圈如英文内容自不用说,那里是从0到1,0的源头,优质内容自不用说,但有可能会出现提供方案会”水土不服“缺乏一些必要的背景材料作为支撑。这时就需要从港澳台等这些繁体圈中提供风水让AIGC更接地气。
其二是可从书籍及论文,这些人类的知识结精中获取,如果能获得广泛的版权的著作权,AI的学习和输出能力会有质的提升,它将变得更为博物且有教无类。
其三是平台内比较优质的内容。这种路径,可能有两种路线,A路线,各家平台拆掉自己的篱笆互相提供内容来训练AI,让AI能力变得更均衡。B路线,大家继续扎起篱笆或者建立学习小组找些合作伙伴,保护自己的平台资源,发展自己的有平台属性的AI专才。
相信经由这三种学习内容的投喂,中文圈AIGC的理解和输出能力更会说中国话,也能让平台内容从CV魔咒中解脱出来,用AICG教科书式的回答给各家平台一次洗礼,提供更多题文相符、答对所问的内容。
当然,从某种程度上说,AIGC也是一种随机的CV魔法,在它出现前,有太多的人因为懒得说话而不会好好说话,在这位太会说的机器人出现后,又会有不少人因为没必要说话了而变得不会说了,也就是意味着,一些平台是会消失,还是能不被AI机器人踩着,继续存在下去呢?