欢迎光临散文网 会员登陆 & 注册

Index Ventures ④:机器学习的应用进程类似数据库 【好文译递】第4 期

2023-03-16 11:35 作者:OpenBMB  | 我要投稿



▾   栏目简介 

如果说之前推出的【论文速读】是领读顶会严谨的实证研究论文,那么【好文译递】则想传递观点性、发散性的议论文章,只是静静地完整呈现译文,任您自由地品读和思考。


✍🏻 编者按 

2022年12月13日,Index Ventures 发布了《The AI Platform Shift》系列文章,四篇文章分别从软件价值链、软件应用、基础模型和机器学习四个不同角度,较全面地阐述了 Index 团队对AI未来趋势的洞察和判断,对于业界具有较高的参考价值。我们已经编译了系列文章的前三篇,本期是最后一篇《The Adoption of Machine Learning Will Resemble the Adoption of Databases》的编译,原文作者是 Bryan Offutt。


📖 原文中译 

机器学习的应用进程将类似于数据库


图片来自 Midjourney

和数据库一样,每个工程师都需要知道如何使用模型,但很少有人需要从头开始构建模型。

在过去的 50 年,应用软件的基础是数据库,但在接下来的 50 年,其基础则会变成机器学习模型。因此,对机器学习和模型工作原理的基本理解,将成为每个工程师必不可少的重要技能,而不只是少数专家的领域知识。机器学习工程师会有一席之地,但和构建数据库引擎的人一样,他们往往人数很少,并在少数的大型供应商公司工作。

事实上,人工智能/机器学习在过去十年中的进展已经与20世纪末的数据库领域有着惊人的相似之处。早期数据库的发展有几个特定的阶段,每个阶段都持续了近十年。

① 起始阶段(1960s):第一个数据库横空出世。在当时是一个强大的新生概念,但使用起来十分困难。即使是获取简单的数据也都很复杂,所有高效检索的责任都在开发者身上。

② 计算成本不菲的阶段(1970s):在1970年,Edgar Codd发表了一系列论文,对数据库的关系模型进行概述,并提出了众所周知并被广泛使用的“行和列”模型,这个模型的魅力在于其灵活性。它提供了强大、简单的抽象概念,可以在此基础上拓展以适配各种使用场景(通过自定义模式)。尽管这是数据库历史上一个里程碑的时刻,但它在早期阶段受到了大量的质疑。这些系统更加容易使用和推理,但它们需要更强大的计算能力。

③ 简单易用与爆炸式商业化阶段(1980s):这十年,关系型数据库蓬勃发展。随着计算资源的价格降低,关系型数据库的成本效益大大增加,且其易用性使其一跃成为如今数据库中的巨擘。尤其重要的一点是,关系型数据库通过查询优化,将性能管理的大部分职责从开发者身上转移到数据库中。这让使用这些系统所需的技能要求远远小于先前的网状数据库和层次数据库。SQL(发明于1976年,但在80年代中期才成为标准)成为了数据库的通用语言,诸如甲骨文(Oracle)这样的大型公司则成为了商业巨头。

④ 普及阶段(1990s至今):快近四十年,几乎世界上所有的应用软件都在使用数据库(不管是关系型数据库还是其他类型)。了解它们的工作原理已经成为了程序员需要学习的首要内容之一,围绕着信息数据结构栈发展的开发人员必须至少对它们的工作方式有基本的了解,才能有效地开展工作。此外,没有公司会考虑构建它们自己的数据库——这样做完全不划算。相反,他们使用现成的产品,这些产品允许公司将特定用例的数据模型(模式)放置在数据库上层。一些产品是免费且开源的(Postgres),其他产品则来自价值数十亿的商业组织。这种情况一直存在(早期的数据库是由IBM等人创建的),但我们认为这仍然值得被重申。

有趣的是,数据库的发展进程非常接近于我们所看到的机器学习和AI的商业化过程:

① 大公司垄断阶段(2017年前):最初,训练一个可以做点有用的事情的机器学习模型是一项高度专业化且非常复杂的工作。你需要自己找数据,需要有足够的计算量来对这些数据进行训练,需要选择一种架构,还需要深入了解如何对超参数进行调参来优化训练的输出。所有的这些都成本太高、太困难了,即使你没有使用任何深度学习技术,也是正确的。

② 早期Transfermor阶段(2017-2020):像数据库一样,AI 的未来随着一篇题为 “Attention Is All You Need”的论文展开,这篇论文介绍了一种名为Transformer的算法架构。随后不久,一系列的预训练基础模型(BERT,XLNET,GPT-2)使用这种架构实现了 SOTA 结果,尤其是在语言方面。这些模型随后都被开源,类似于如何将模式添加到关系型数据库中来适配其用例,用户可以根据自己的数据来对这些基础模型进行微调。

③ 十亿级参数和创业公司阶段(2020 至今):当前阶段始于 OpenAI 推出 GPT-3。GPT-3证明了 Transformer 模型可以扩展到数十亿参数,而不会在性能表现上出现渐近线,并且一个非常大的预训练基础模型可以在许多不同的任务中表现良好。通用性与 OpenAI 通过 API 提供 GPT-3 这一事实相结合,带来了Jasper 和 Copy.ai 等公司的爆炸式增长。正如查询优化器将性能的复杂性从应用程序开发人员转移到数据库供应商一样,AI发展的这一阶段也将训练的复杂性从最终用户转移到了模型供应商。

④ 普及阶段(未来):不知不觉中,说一个产品“使用人工智能”似乎和说它“使用数据库”一样显然且愚蠢。今天,普通开发者可能不知道查询计划器是如何工作的,但他们肯定会使用数据库。同样,我们也不指望五年内普通开发人员知道 Transformer的工作原理,但我们保证他们会知道如何使用模型。Cohere 和 Twelve Labs等公司已经在分别为文本和视频创建基础模块,支持用户像使用数据库一样简单地访问强大的模型。

无数公司将人工智能作为核心组件,但无法将其作为关键的差异化优势进行宣传,这已经证明了这些模型的日益普及。我们之前投资的 Gong 在他们的产品中广泛使用语音到文本这一技术,但网站的首页没有提到 ML 或 AI。模型本身是一个实现细节——它很重要,但没有区分度。区分度在于 Gong 围绕语音到文本模型构建了出色的产品体验,就像 Salesforce 和其他竞品的区别在于围绕数据库 构建了出色的产品体验。并不是数据库本身,而正是这种体验让他们成为了价值数十亿美元的企业。

*声明:原文来自 Index Ventures 官网,如有侵权,可提议撤稿



▾   好文征集 

欢迎大家添加 OpenBMB 微信,即可进入大模型社群交流文章,也可分享推荐更多AI领域的好文!文章时效不限,既可以是讨论密集的的热点时文,也可以是历久弥香的经典前文~

➤ 传送门 |官方网站 

🔗 https://www.openbmb.org

➤ 传送门 |GitHub 主页 

🔗  https://github.com/OpenBMB

➤  加社群/ 提建议/ 有疑问 

请找 OpenBMB 万能小助手(上方二维码)


🔍 关注我们

微信搜索关注 “OpenBMB开源社区”

后台回复“CPM-Live” 即可加入CPM-Live加油群

还可获取更多大模型干货知识和前沿资讯! 


Index Ventures ④:机器学习的应用进程类似数据库 【好文译递】第4 期的评论 (共 条)

分享到微博请遵守国家法律