欢迎光临散文网 会员登陆 & 注册

经典Blog | 生成式AI最大的商业机会是文本还是图像?——《永远押注于文本》

2023-02-19 18:57 作者:小野母喵  | 我要投稿

引言:2022年AI领域两个引爆点都在生成式AI中产生,一个是2022年9月发布的文本-图像(text-to-image)生成式AI——Stable Diffusion,一个是2022年11月底发布的文本生成式AI——ChatGPT,后者更是成为史上最快月活达到1亿用户的应用,至今仍广受热议。

热议程度往往与能够激发人们多大的想象力、且这些想象力又能转化为多大的商业价值成正比。

生成式AI中,文本和图像哪个的商业价值更大呢?

就这个问题,2023年1月27日,美国著名计算机科学家吴恩达在推特上发起了一个简单的投票:你认为哪种生成式AI将会产生更大的商业价值:图像生成(例如扩散模型,stable diffusion)还是文本生成(例如:大型语言模型,ChatGPT)?

在约1.3万人的投票中,选择文本生成的占比达到80%。

网友写了一些认为“生成文本”商业价值更大的原因:

更多的人被雇佣来做生成文本的工作,而不是生成图像,所以我猜文本生成将产生更大的商业影响(包括大量的文本生成职业,如法律,医疗账单,会计,学术,编剧,新闻,编程)
两者都是变化的载体,是真正改变世界的输出。 在两者之间,人类似乎更喜欢文本作为更改媒介,它在简易性和压缩性方面更优。
文本。从记笔记到电子邮件,再到在线文章,有更多的用例。图像生成对于为所述文章生成图像是有用的,但图像仍然不是文章的必要组建。但一旦人工智能可以制作视频,再回到这个话题将会很有趣。

2014年,Rust编程语言的创造者——Graydon Hoare在其博客中,在一个更大范围问题的讨论中给出了他的答案。他说他的想法非常绝对:文本才是一切,文本是有史以来最强大、最有用、最高效的通信技术。

虽已过10年之久,但是Graydon Hoare的观点在当下仍具有一定启发性,所以花了些时间把这篇博文翻译了一下。以下是全文:


《永远押注于文本》(Always Bet On Text)

作者:Graydon Hoare(Rust编程语言之父)

发表于 2014年10月13日https://graydon2.dreamwidth.org/193447.html


我想我应该把这个帖子贴在某个地方,这样如果以后有人问起我对视频、3D、游戏或 "动态 "多媒体系统等有什么看法时,我可以拿出来参考。别误会,我喜欢插图、照片、电影和音乐。

但是,文本更胜一筹。文本就是一切。我在这方面的想法很绝对:文本是有史以来最强大、最有用、最高效的通信技术。

文本是最古老、最稳定的交流技术(假设我们将语言/符号视为自然现象,没有它就没有人类社会。而文本能力则必须通过传播、教导、获得),而且它拥有不可思议的持久性。我们可以阅读五千年前(大约是文字诞生时期)的文本。它"坚如磐石" -- 你可以很容易地将它刻在花岗岩上,这很可能会超过人类的寿命。

文本是最灵活的通信技术。当有一张图片与你想表达的内容相匹配时,图片可能胜过千言万语。但是,让我们随机在维基百科上选择一个句子,

看看你是否能画出一张图片来表达它:

“人权是道德原则或规范,是描述人类行为的特定标准,在国家和国际法中经常作为法律权利受到保护。"

你是不可能用一张图片来表达这段话的。文本可以用精确控制的模糊性和精确性、隐含的背景和详尽的内容来传达思想,这是其他东西无法比拟的。所有的文学和诗歌、历史和哲学、数学、逻辑、编程和工程都依靠文本编码来表达它们的想法,这不是一个巧合。

文本是最高效的通信技术。在存储大小方面是如此。这篇博文可能需要5000字节的存储空间,可以压缩到2000字节;相比之下,下面这个20像素的鸟类剪影图片需要4000字节:

在通信技术中,第一步总是文本编码,然后才是其他的。因为在逐符号(一次一个符号)编码/解码的基础上,它的成本大大降低。

1790年法国就有了一个可以运行的光学电报网络。

在试图进行语音传输之前,人们经历了一个世纪的电报、跨洋电缆等通讯方式。在带宽变得足够便宜,可用于图片、声音、视频之前,人们有几十年的时间都是在用电传打字机和纯文本的计算机网络、邮件和新闻来聊天、出版、编辑和诊断。

在苹果手机之前,人们用的是传呼机、SMS、WAP、USSD和黑莓手机。在Web出现之前,人们用的是Teletext、BBS、Netnews和Gopher。

今天,许多最好的、也是Web中最高效的部分仍然是以文本为中心的。我可以下载维基百科的所有内容,可以随身携带在普通的智能手机上。文本是社会上最有用的通信技术。它可以在1:1(1对1)、1:N(1对多)和M:N(多对多)的模式下良好运行。它可以被高效的索引和搜索,甚至通过手动的方式。它可以被翻译,可以以不同的速度进行生产和消费(译注:可按照自己的节奏阅读或者回复信息等)。它是异步的。它可以通过算法进行比较、区分、聚类、修正、总结和过滤。它允许多方编辑。它允许分支对话、“潜水”(译注:在基于文本的讨论中,只关注,不说话)、注释、引用、回顾、总结、结构化问答(译注:例如调查问卷等),可以进行文学解析或创造性写作,如同人小说等。人们使用文本的方式的广度、规模和深度是任何东西都无法比拟的。在社会交往、语言沟通、认知和反思复杂性方面,任何其他通信技术都无法与满是书籍的图书馆或满是帖子的互联网世界相提并论。其他任何东西都无法与之相比。

因此,这是我对“文本”的立场:始终先选择文本。就像我的老上司说的那样:永远押注于文本。如果你可以用文本来做些什么事,那就用吧。它很少会让你失望。


附英文原文:

always bet on text

I figured I should just post this somewhere so I can make future reference to how I feel about the matter, anytime someone asks me about such-and-such video, 3D, game or "dynamic" multimedia system. Don't get me wrong, I like me some illustrations, photos, movies and music.


But text wins by a mile. Text is everything. My thoughts on this are quite absolute: text is the most powerful, useful, effective communication technology ever, period.


Text is the oldest and most stable communication technology (assuming we treat speech/signing as natural phenomenon -- there are no human societies without it -- whereas textual capability has to be transmitted, taught, acquired) and it's incredibly durable. We can read texts from five thousand years ago, almost the moment they started being produced. It's (literally) "rock solid" -- you can readily inscribe it in granite that will likely outlast the human species.


Text is the most flexible communication technology. Pictures may be worth a thousand words, when there's a picture to match what you're trying to say. But let's hit the random button on wikipedia and pick a sentence, see if you can draw a picture to convey it, mm? Here:


"Human rights are moral principles or norms that describe certain standards of human behaviour, and are regularly protected as legal rights in national and international law."


Not a chance. Text can convey ideas with a precisely controlled level of ambiguity and precision, implied context and elaborated content, unmatched by anything else. It is not a coincidence that all of literature and poetry, history and philosophy, mathematics, logic, programming and engineering rely on textual encodings for their ideas.


Text is the most efficient communication technology. By orders of magnitude. This blog post is likely to take perhaps 5000 bytes of storage, and could compress down to maybe 2000; by comparison the following 20-pixel-square image of the silhouette of a tweeting bird takes 4000 bytes:. At every step of communication technology, textual encoding comes first, everything else after. Because it's vastly cheaper on a symbol-by-symbol basis. You have a working optical telegraph network running in 1790 in France. You the better part of a century of electrical telegraphy, trans-oceanic cables and everything, before anyone bothers with trying to carry voice. You have decades of teleprinter and text-only computer networking, mail and news, chat and publishing, editing and diagnostics, before bandwidth gets cheap enough for images, voice and video. You have pagers, SMS, WAP, USSD and blackberries before iPhones. You have Teletext and BBSs, netnews and gopher before the web. And today many of the best, and certainly the most efficient parts of the web remain text-centric. I can download all of wikipedia and carry it around on the average smartphone.


Text is the most socially useful communication technology. It works well in 1:1, 1:N, and M:N modes. It can be indexed and searched efficiently, even by hand. It can be translated. It can be produced and consumed at variable speeds. It is asynchronous. It can be compared, diffed, clustered, corrected, summarized and filtered algorithmically. It permits multiparty editing. It permits branching conversations, lurking, annotation, quoting, reviewing, summarizing, structured responses, exegesis, even fan fic. The breadth, scale and depth of ways people use text is unmatched by anything. There is no equivalent in any other communication technology for the social, communicative, cognitive and reflective complexity of a library full of books or an internet full of postings. Nothing else comes close.


So this is my stance on text: always pick text first. As my old boss might have said: always bet on text. If you can use text for something, use it. It will very seldom let you down.

经典Blog | 生成式AI最大的商业机会是文本还是图像?——《永远押注于文本》的评论 (共 条)

分享到微博请遵守国家法律