欢迎光临散文网会员登陆 & 注册

自然语言处理实用教程 | 数据采集 | 2023年版

2023-09-06 00:04 作者:AI日日新 0人读过 | 我要投稿

巧妇难为无米之炊。AI应用需要大量的数据支撑，为此，从哪里找来大量的数据就是一个头疼的问题。

若你的数据库中已经有大量数据，那么就可以从数据库中导出即可，后续进行数据清洗就可以训练模型了，非常简单。但如果你的数据库中只有少量数据，或者说你的项目刚刚启动，完全没有数据支撑又该怎么办？

那么你可以从开源平台寻找符合你的业务的数据，例如你可以在 huggingface、github、kaggle 和 modelscope 等平台下载大量数据，并将它们进行数据清洗，然后训练模型即可。但这些数据仍然可能不符合你的业务场景，后续需要不断搜集语料然后训练新模型。

但当你的业务比较特殊，在各大平台无法寻找到合适的数据集，你可以选择爬取数据。但爬虫技术并不是一门简单技术，还需要专业人员，这条数据采集渠道仅适合“大佬们”走。

最后还有一个渠道就是购买数据，例如可以从淘宝等渠道得到你想要的数据，最终训练得到符合业务场景的模型。总之最终我们需要的是初始的业务数据，训练得到第一版模型，后续项目启动后即可从数据库中导出数据，进而不断迭代模型。

标签：

自然语言处理实用教程 | 数据采集 | 2023年版的评论 (共条)