欢迎光临散文网 会员登陆 & 注册

习得:和亚麻10年全栈leader的tech茶谈

2023-06-10 02:43 作者:小白熊的白与红  | 我要投稿

大家好啊,B站的粉丝数增多了,我也不好意思再摆了。写一篇帖子分享给大家。

大概一个月前,我和一位Amazon的DS/ML经理来了一场3个半小时的1on1,啥都聊,主要讨论了有关类GPT项目规划、技术问题、业务落地等话题。其中,我们还深入探讨了模型训练的问题,特别是如何降低模型训练的成本,以及如何将数据存入数据库中。

我们都知道,数据是机器学习模型训练的基础,而数据库则是存储和管理数据的重要工具。因此,在聊天中,我们也着重探讨了如何将数据以合适的方式存储到数据库中。正好,我们谈到了一些常用的数据库存储方式。比如,使用关系型数据库(如MySQL等)来存储和链接结构化数据,例如元数据。同时,归功于其事务处理和ACID的特性,DB也能保证数据的一致性和完整性。然后,还可以使用非关系型数据库(如MongoDB、Cassandra等)来存储半结构化和非结构化数据,例如文本。以键值对、文档、列族等形式存储,来实现快速读取和写入大量数据。GraphQL等等,就不一一列出了。

在讨论类GPT模型训练的成本问题时,我们提出了一些自己的解决方案。举例来说,采用模型压缩的方式来减少模型参数,从而减少模型训练的成本。其次我们还可以采用分布式训练的方式,将模型训练任务分配到多个计算节点上进行,并行训练模型。最后,我们还可以使用GPU加速器来提高模型训练的速度和效率。(这个问题已经被我解决完了,写于一个月后)

事实上,选择合适的数据库存储方式对于数据管理和机器学习模型训练都是非常重要的:正确的存储方式可以提高数据的读取和写入效率,同时保证数据的完整性和一致性,从而提高机器学习模型的精度和效率;而在降低模型训练成本方面,采用模型压缩、分布式训练和GPU加速等方式也是非常有效的。

然而,在业务中我们进展并不顺利。大家知道的,机器学习模型需要大量的训练数据来训练和优化,因此,需要从业务和数据角度来考虑如何获取和管理训练数据。另外还需要考虑如何将学习模型应用到实际场景中,例如如何处理I don't know的场景,如何做道德训练等。

其实在和他对话的过程中,我和他侧重点不同,归因于他的身份,他对数据模型和数据训练特别敏感,也有特别优秀的领域/业务见解。而我作为一名软件工程师,我更加注重于工程的实践和工程。比如,他善于从业务和技术逻辑来分析项目,喜欢从宏观把控问题(虽然在面对GPT这样的新技术时,因为反职业经验而犯错)。而我善于从具体的技术细节来验证项目的可行性。

尽管困难重重,但是我还是对我们的项目抱有信心。

#chatGPT#DS#ML#数据库

习得:和亚麻10年全栈leader的tech茶谈的评论 (共 条)

分享到微博请遵守国家法律