欢迎光临散文网 会员登陆 & 注册

自然语言处理实用教程 | 数据采集 | 2023年版

2023-09-06 00:04 作者:AI日日新  | 我要投稿

        巧妇难为无米之炊。AI应用需要大量的数据支撑,为此,从哪里找来大量的数据就是一个头疼的问题。

        若你的数据库中已经有大量数据,那么就可以从数据库中导出即可,后续进行数据清洗就可以训练模型了,非常简单。但如果你的数据库中只有少量数据,或者说你的项目刚刚启动,完全没有数据支撑又该怎么办?

        那么你可以从开源平台寻找符合你的业务的数据,例如你可以在 huggingface、github、kaggle 和 modelscope 等平台下载大量数据,并将它们进行数据清洗,然后训练模型即可。但这些数据仍然可能不符合你的业务场景,后续需要不断搜集语料然后训练新模型。

        但当你的业务比较特殊,在各大平台无法寻找到合适的数据集,你可以选择爬取数据。但爬虫技术并不是一门简单技术,还需要专业人员,这条数据采集渠道仅适合“大佬们”走。

        最后还有一个渠道就是购买数据,例如可以从淘宝等渠道得到你想要的数据,最终训练得到符合业务场景的模型。总之最终我们需要的是初始的业务数据,训练得到第一版模型,后续项目启动后即可从数据库中导出数据,进而不断迭代模型。

        

自然语言处理实用教程 | 数据采集 | 2023年版的评论 (共 条)

分享到微博请遵守国家法律