前两个月国产类ChatGPT大模型如雨后春笋,为何最近都没声音了?
政策原因。新修订的《网络安全法》把违规内容的处罚标准从50万提升至5000万,简单地说如果发布一条“违法”信息,处罚5000万也合情合理。
这个东西国内做出来,放到国外跟chatgpt比没有竞争力。如果放国内,除了百度360讯飞这几家,其它公司基于监管原因又无法运营。
gpt本质是一个搜索引擎,结果出来的比搜索引擎还完善,如百度、好搜、搜狗搜索引擎平时都屏蔽了海量内容,如果出个类似GPT的必然也要屏蔽内容,可以说屏蔽内容比研发重要得多,想上线必须做到让监管单位确认确实不会有非法内容、以及真的屏蔽到位,但这是不可能完成的任务。
除非每条内容都人工审核,先问问题》人工审核》显示出来,没有容错率,万一有个人问个问题截图发到别的地方,出现一条罚5000万谁受得了。
中文语料缺失严重,几年前网络清查以及严格监管,大量网页被删除、大量网站关闭,里面有很多有价值的资料随之消失。用残存的数据来训练前需要再过滤一遍,录入后还要审核,出来的质量可想而知。
百度的文心一言目前属于基本没法用状态,只能问一些很无聊的问题,如“树上骑个猴,地上7个猴,一共有几只猴”,真的稍微发问,很多词一问就不显示,就这东西就没竞争力了。
补充一个图片类AI,目前国内的公司,图片AI不敢直接生成,先预生成几十万图片和标签后审核,用户要什么就直接调用审核过得,防止出现不可控的局面,如果用户输入一个新的词,图片要先审核后显示,相当于伪图片AI。只能这样啦,监管原因。


