新闻资讯
News
舞台设备模型 2023年的人工智能:应用层已经到来
142 作者:拓丰舞台 2023-08-03 09:00:34

神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。

编者按:很多人都预测 2023 年将是 AI 之年。但 AI 显然不是今年才开始爆发或者炒作起来的。但是 2022 年图像生成工具以及聊天工具 ChatGPT 等消费者化是人工智能开始普及应用的标志,2023 年这股趋势只会愈演愈烈。本文剖析了 AI 的用例与商业模式,也许我们将迎来继农业革命、工业革命以来的第三种通用技术的普及。文章来自编译。

现在 AI 令人兴奋的一点是平台层正在固化,这意味着应用层该出现了。换句话说,也就是你我每天都会接触到的东西该出现了。

过去这几个月的时间里,我已经写了好几篇与 AI 正在发生的事情有关的文章。鉴于这是我们进入 2023 年要面对的技术主题,在此我想把那些文章都整合一下,写一篇深度探讨的文章,然后进一步拓展。

其结果是这篇文章的篇幅要长很多,但在关于我们现在处在什么位置的事情上,我希望它能提供一份类似‘国情咨文’的快照舞台设备模型,同时就“我们未来要去哪里”给出一些提示。

让我们开始吧。

每当我思考人工智能领域在发生着什么时,我往往会想到两部电影。一部是 33 年前问世的老片,一部是 10 个月前问世的新片。

1990 年上映的《超国度》(Hyperland)几乎已被人遗忘。这部科幻电影的导演是道格拉斯·亚当斯 (Douglas Adams),他更出名的身份是《银河系搭车客指南》的作者。电影的假设是亚当斯对被动式的线性电视已经厌烦了,电影称就是“那种发生在你身上,而你就像一个沙发土豆一样坐在它面前沙发视。”

为了寻找更具互动性的媒体形式,亚当斯把他的电视带到了一个垃圾场,在那里他遇到了汤姆(由汤姆·贝克饰演)。汤姆是一位软件代理——本质上属于一个数字管家,能够根据你的特定兴趣为你提供个性化的信息和娱乐饮食。汤姆带领我们的主人公穿行于一个超媒体的虚拟世界——一个由链接的文本、声音、图像和视频组成的世界。换句话说,汤姆带着亚当斯踏上了互联网之旅。(或者说得更具体一点,是穿行于一个漫长而曲折的兔子洞,跟维基百科类似——但比维基百科的出现早了 11 年)。

《超国度》,尤其是汤姆这个角色,让我想到了我们目前的现实:人工智能驱动的算法推荐引擎,根据我们独特的兴趣图谱塑造出的一个超个性化的互联网。这就是我所说的“一切都被 TikTok 化”。(David Karpf 提出了一个很有智慧的看法,即超国度与现代之间有一个关键区别:在电影里面,是你在控制算法;当然,现如今的算法已经过优化,可以替开发和部署它们的公司赚钱。)

我想到的第二部电影面世的时间要近得多:2022 年 3 月的《瞬息全宇宙》,在我看来,这有可能是今年奥斯卡最佳影片的潜在竞争者。 在我最近的记忆中,《瞬息全宇宙》属于线索比较混乱的电影之一。这部电影讲述的是伊芙琳(杨紫琼饰)的故事,她是一名中国移民,经营着一家正在接受美国国税局审计的自助洗衣店。伊芙琳很快发现,她生活在无限宇宙里面的一个宇宙,她必须穿越多重宇宙才能拯救她的家人。

从很多方面来说,这部电影都是对互联网之乱的隐喻。在接受 Slashfilm 的采访时,电影导演之一的丹尼尔·谢纳特(Daniel Scheinert)是这么说的:“我们希望这部电影的极简主义能够与没完没了地刷屏的感觉建立关联”。

YouTuber Thomas Flight(对这部电影做出了出色的分析)称《瞬息全宇宙》是第一批“后互联网”电影之一,因为它捕捉到了在线生活的怪异之处。生活在 2023 年的迷人的一点在于,我们的大脑与一个世纪前相比没有什么不同(事实证明,进化需要很长时间),但我们的世界在 100 年内却发生了翻天覆地的变化。正如 Flight 所说的那样:“我们现在生活在这样一个时代,在一次 30 分钟 TikTok 狂欢里,我们体验到的有趣想法、概念、人物以及地方,就要比我们被困在当地目不识丁的祖先一辈子所经历过的东西都要丰富。”快速演变的数字混沌会如何扭曲我们缓慢进化的人类思维呢?

《瞬息全宇宙》里面的宇宙是多种多样的,而且非常非常的奇怪。在一个没有人类生命的宇宙里,每个人都是一动不动的石头。里面还有一个宇宙,这个宇宙里面每个人都是蜡笔画。另一个宇宙里,每个人的手指都变成了热狗(我告诉过你这很奇怪)。

《瞬息全宇宙》这部电影捕捉到了互联网的运动能量与无情的节奏。

不过,这部电影让我想到的不是互联网,而是生成式人工智能正在发生的事情。就像电影让主人公将她想象中的任何东西都转化为有形的现实一样,生成式 AI 也让我们将想法变成了文字、图像和视频。

这是当我输入提示“A person made entirely of fruit”(一个完全由水果组成的人)时 Midjourney 生成的结果:

这是我输入“New York City skyline in the style of Van Gogh”(梵高风格的纽约市天际线)时得到的结果:

我可以花几个小时(而且我已经花了几个小时)去试验这样的提示。

2022 年取得突破的生成式人工智能是自十多年前移动和云计算兴起以来最引人注目的技术。平台层正在钙化,我们正目睹着令人兴奋的应用层的萌芽——这些产品有可能成为数十亿人日常生活的一部分。

这篇文章的目的是研究 AI 这一时刻背后的“为什么是现在”,并探索初创企业可以如何利用 AI来进行开发。本文内容将分为以下几部分:

搭好舞台 算法推荐系统 图像模型 语言模型 生成式人工智能的用例 商业模式 最后思考及待回答的关键问题

好了,让我们开始吧。

搭好舞台

在过去十年里,有两股重要力量推动了技术的发展:分别是移动和云计算。

移动促进了大型消费互联网公司的崛起:Uber 与 Lyft、Instagram 与 Snap、Robinhood 与 Coinbase 。这些公司基本上都成立于 2009 年至 2013 年间。数字广告在 2010 年代迅速转向移动设备,Facebook 等桌面时代的公司不得不争先恐后地重塑业务。

明年移动应用内广告的支出预计将超过桌面广告 - Marketing Charts

云计算则支撑了软件即服务 ( SaaS ) 的爆发式增长,并让数据变成企业最宝贵的资源(“数据就是新的石油”云云)。这一领域的新兴公司基本上也都成立于 2009 年至 2013 年之间,其中包括 Slack 与 Airtable 、Stripe 与 Plaid、Snowflake 与 Databricks 等。

从 2015 年到 2022 年间,存储在云端的企业数据占比翻了一番:

存储在云端的企业数据;资料来源: Statista

这是过去 10 年 AWS 收入情况图,很少有图表比这幅图更令人印象深刻(利润率高达 35%!):

AWS 收入($B);资料来源: Statista

移动和云计算让 2010 年代成为技术领域非常非常好的十年。但在过去的几年里,我们看到很多人都在嚷嚷接下来会发生什么。虚拟现实?增强现实?自动驾驶汽车? 加密货币?Web 3?

这些技术个个都很有趣,原因各不相同,有趣的用例也各异,但都还非常非常早。整个 VR 行业仅相当于苹果 2021 年营收的 2%。(虽然随着苹果即将推出的混合现实头显,情况可能会有所改变。)围绕新技术的炒作太多,而源于对移动和云计算的焦虑的“平台转变”已经……过时了。 AWS 推出时间是 2006 年; iPhone 在 2007 年问世。移动和云计算都还没有饱和,但它们的新机遇并不像以前那样成熟了。与此同时,我们看到前所未有的私有资本开始涌入,去追逐创业公司:

风投资金在 2021 年激增至 3300 亿美元

舞台设备模型_模型舞台设备图片_模型舞台设备厂家

2020 年代最引人注目且最有可能推动技术发展的力量是什么?也许是人工智能。人工智能在过去几年中得到了显著改善。直到最近,Gmail 的自动补充句子功能几乎还没法用;但现在已经好得吓人。Facebook 用户将认识到 AI 在识别照片里面的朋友方面已变得有多么出色;实际上,Facebook 的 DeepFace 引擎现在比人类还要擅长面部识别。就在去年夏天,我们看到了从 Stable Diffusion 到 Midjourney、ChatGPT 到 Lensa 的一切事物的涌现。人工智能正在成为主流。

Facebook 的DeepFace现在比人类还要擅长面部识别

我们正处在人工智能的转折点(原因稍后会详细介绍),这个转折点正在支撑起创新的寒武纪大爆发。2009 年至 2013 年诞生了数十家由移动和云计算技术提供支持的变革型初创公司。未来几年这样的公司将再度涌现,但这次,人工智能将成为催化剂。

前一段时间,有位朋友问了我一个问题:AI 是泡沫,还是下一个大事件?答案可能是两者兼而有之。

现在有很多令人兴奋的事情,其中很多是有理由的,但其中很多可能是非理性的、不成熟的,或者两者兼而有之。但是当你将画面拉远时就能发现,毫无疑问我们正处于一个激动人心的技术新时代的风口浪尖。

算法推荐系统

最近的大部分讨论都围绕着生成式人工智展开,但“传统”的人工智能仍有很大的发展空间。曝光度最高的人工智能应用是什么?也许没有比 TikTok 的For You Page(为你推荐)更高的了,对于《超国度》那个具有先见之明的超个性化的互联网来说,这可以说是它最好的现代类比。

TikTok 沉浸式、算法性的 For You Page 开创了内容策划的新风尚。一开始,每个发布出去的视频都会被推送给一组的初始受众,然后根据他们观看了多长时间、是否喜欢视频、是否对视频发表了评论等等,对这些观众的反应进行评估。如果受众反应良好,视频就会被推送给更多的受众,如此循环往复。

TikTok的算法

我最近跟同事 Martin 讨论了一下移动和云计算之后技术的下一步会是什么。我们聊起了 AI,并回想起十年前那张著名的“解绑 Craigslist”的图表。

就是这张图:

将业务从Craigslist解绑出来诞生了大批初创企业,迄今为止这批企业的融资额达到了88.7亿美元 资料来源:CB Insights

这里还有一张,要表达的概念是一样的,但更清晰:

平台 Vs 垂直领域及下一个大解绑 | Andreessen Horowitz 图片来源:Andrew Parker

这些图有一个基本前提,那就是原先市场的主要品类正在被更专注、更好的产品所重塑。通常,颠覆者会利用某项新技术:比方说,Tinder 是第一批只支持移动设备的约会 app 之一。

AI 应用可能也会带来类似的清算。主要的品类——如约会、房地产、求职等——可能会因为有人能更好地利用人工智能而被彻底颠覆。当 AI 可以把跟你完美匹配的对象呈现出来时,为什么还要上 Tinder 没完没了地刷屏?十年之后,我们可能会看到上图有了一个新版本,里面出现的也许是全新的公司 logo——AI 优先的公司会重塑每一个品类。当然了,生成式人工智能一定会从中发挥作用,但类似 TikTok 的推荐系统也很强大;就数字世界将越来越适合我们的独特品味和偏好而言,我们仍处于早期阶段。

让我们看个例子——交易。

从很多方面来说,SHEIN 都算是 TikTok 的姊妹公司。SHEIN 与字节跳动(TikTok 的母公司)都是中国公司,而且位列全球最有价值的三大初创公司之一(字节跳动排名第一,美国的 SpaceX 排名第二,SHEIN 排名第三)。

就像 TikTok 渗透了美国的媒体一样,SHEIN 也打入到美国的快时尚——

美国快时尚市场Shein占据了最大的份额 - Bloomberg Second Measure

这张图换了个视角,把 SHEIN 与 H&M 和 Zara 的销售额进行比较:

中国快时尚品牌Shein如何征服美国市场 -

SHEIN 的爆发式增长非常引人注目:SHEIN 已经连续八年(!)每年的增长率都超过 100%,其在非公开市场的最新估值已经超过 Zara 和 H&M 市值之和。2022年 6 月,SHEIN 取代亚马逊,成为 iOS 和 Android 应用商店排名第一的购物应用。

SHEIN 的速度令人瞩目:这里每天都要上架 8000 件新商品,而 Zara 每周才新增 500 件。SHEIN 基本上属于互联网原生的 Zara 和 H&M 转世,利用了更好的技术把从设计到生产的时间从三周压缩到了三天。SHEIN 通过梳理竞争对手的网站和 Google Trends,找出流行的款式,然后快速做出自己的设计,预测需求,实时调整库存。

我们再说回 AI,SHEIN 给我留下的其中一个深刻印象是它的推荐。就像字节跳动会预测你想看的内容一样,SHEIN 会预测你想买什么衣服。SHEIN 之于电商就像字节跳动之于内容。

这个周末,为了给朋友即将举行的 30 岁生日聚会准备东西,我打算到网上购物。这个派对以《亢奋》(Euphoria)为主题舞台设备模型,也就是说,基本上你得穿得像 HBO 那部美剧的里 Maddie 、Cassie 或 Nate Jacobs 一样。我之前从来都没上 SHEIN 买过东西,但我输入了“男士黑色网纱上衣”来找衣服。然后我点击了“裤子”品类,结果看到了这个屏幕:

只是搜索了一次网纱上衣,SHEIN 就能够预测出风格和主题非常相似的裤子。这非常令人印象深刻。(还有,请不要以为这些就是我平时穿的衣服。)

从某种程度来说,这是 Stitch Fix 开创的个人造型订阅盒概念的更复杂版本。Stitch Fix 给整个过程引入了人,也利用了数据科学,但其基础是新客户引导冗长的问卷调查。而 SHEIN 只根据我输入的四个词(也许还参考了我点击的内容、鼠标悬停的位置等数据)就做出了准确的推荐。

Stitch Fix 的个人造型市场已被证明相对小众,而且它的股票也已受到重创。活跃客户已降至 390 万,同比下降 20 万人(下降 5%)。该公司正在努力向 Freestyle 产品转型——这是一种更传统的购物体验——但这个细分市场仍然只占该公司业务的一小部分。

Stitch Fix 的订阅盒里面是由造型师和数据科学策划的推荐产品

尽管 Stitch Fix 举步维艰,但它的目标是突破性的——个性化商务。这家公司几年前就提出了这个概念,但当时人工智能还不够成熟,没法取代冗长的问卷调查以及小规模的数据科学家队伍。SHEIN 朝着正确方向迈出了一步,但我们仍站在人工智能驱动推荐的风口浪尖。

舞台设备模型_模型舞台设备厂家_模型舞台设备图片

想象一下,如果有家公司能梳理你的相机胶卷,并以惊人的准确性为你推荐一大批新衣服会怎样?或者,也许这家公司只需要请你将 Instagram 帐户关联一下,然后就能消化你的所有点赞和关注,即可提供极其准确、个性化的时尚推荐。

人工智能的主要消费者应用将大量依赖于娴熟的推荐。这些推荐能预测到连你都不知道的需求与愿望——就像 TikTok 的 For You Page 一样:它能够在人们自己还没意识到之前就向对方表明他们是性少数者。也许上面的示例公司可以在一条 FYP(For You Page)动态消息中重塑商业,让你每次浏览一个精心策划的商品——双击即可购买,向上滑动即可查看下一件东西。

世界正在向着个性化转变,而人工智能是在给这股趋势火上浇油。我的朋友 Alex 说的一席话我很喜欢:

在AI的帮助下,一对一辅导正在成为可能

突然之间,“一对一”体验可以大规模复制了——与我们在未来几年看到的应用相比,今天的 AI 应用仍处在初级阶段。想想看,上面的每一个 Craigslist 类别——教育、书籍、家居装饰等。每一个都即将被重塑。

图像模型

2022 年文本生成图像 AI 爆发了。首先出现的是来自 OpenAI 的 DALL-E (这个名字综合了艺术家萨尔瓦多·达利以及皮克斯的那部动画片,《机器人瓦力》,WALL-E)。当然,不是谁都可以直接用 DALL-E,但这方面的创作已经开始在互联网上火起来了;Twitter 上面我最喜欢的账号是 Weird DALL-E Generations。

互联网上用DALL-E 生成 11 张最奇怪的图像 | Mashable

对于这个世界大部分的地区来说,DALL-E 是 AI 的第一个真正的“哇哦”时刻。在与麻省理工学院交流时,OpenAI 的 Sam Altman 把这一点归功于图像所传递的情感力量:

我想说的是,其实相对于 DALL-E,技术界对 2020 年推出的 GPT-3 要更加认可。 从 GPT-3这里,你第一次真正感受到了系统的智能。它可以做人做的事情。我认为它的出现让以前根本不相信 AGI [通用人工智能] 的人也要认真对待这一话题了。发生在 GPT-3 身上的有些事情是我们大家都没预料到的。

但是图像却有着独特的情感力量。相对于 GPT-3 ,世界其他地方对 DALL-E 的欣赏要高很多。

人往往更喜欢更丰富的媒体格式:Instagram (主要媒体是照片)一直都比 Twitter(以文字为主)更受欢迎;与此同时,TikTok (主要是视频)在使用上一直在蚕食 Instagram 的市场,迫使后者也得向视频转型(通过 Reels )。在我看来,类似的偏好也会发生在生成式人工智能身上:图像 > 文本,很快,视频也会 > 图像,以及最终沉浸式 3D 体验将 > 视频。(消费者偏好的这一事实也是我从长远看继续看好 VR 和 AR 的原因。)

在 DALL-E 起势之后,去年夏天 Stable Diffusion 和 Midjourney 的出现彻底改变了局面。Stable Diffusion 具有开创性,因为它是开源的,这意味着开发者基于它做开发。稍微解释一下,Stable Diffusion 将扩散从像素空间转移到了潜在空间,从而推动了质量的显著提高。(如果你感兴趣的话,可以看看这一篇文章。)与此同时,Midjourney在可访问性方面具有开创性。Discord 上就能使用 Midjourney :任何人都可以注册一个免费账号,并获得 25 个积分,图像则是用公共服务器生成的。用完 25 个积分之后,每月支付 10 美元或 30 美元就可以继续使用(具体多少钱取决于你要创作的图像数量以及你是否希望生成的图像保持私密)。Midjourney 已迅速成为 Discord 上最受欢迎的服务器之一(也许是最受欢迎的服务器?),拥有 740 万会员。

下图是 Midjourney、DALL-E 2 以及 Stable Diffusion 在使用相同的文本提示时生成的图像,各自风格略有不同:

下面这条时间线从更宽泛的角度展示了 AI 图像生成在过去十年是如何得到改进的(请留意近年来提示的复杂性的不断增加,以及输出的保真度在不断提高):

去年是图像模型的转折点,生成的图像质量得到了迅速提高。举个例子:众所周知,AI 很不擅长创作手。除非 AI 具有出色的上下文感知能力,否则很难知道已经弄出了多少根手指。其结果是我们最终会得到很多有四根或六根手指的手。下图是 Midjourney v3(2022 年 7 月)与 Midjourney v4(2022 年 11 月)生成结果的对比,你能看出结果有了明显改进:不再会出现有两只喙或三条腿的企鹅。

当我想到图像生成早期遇到的挑战时,就会回想起一个世纪前动画在早期面临的挑战。米老鼠为什么要戴手套?原因之一是这样制作动画可以更快;手是很难画的。《聪明笨伯》(Fred Flintstone) 和 乔治·杰森(George Jetson)也是如此——你看不见他们的脖子,因为有脖子意味着角色的整个身体都得跟随每个动作和表情而移动。这意味着动画师要做更多的工作。领带和高领让动画师得以投机取巧,加快制作动画的速度。

杰里·邓肯(Jerry Duncan)与聪明笨伯交谈 - Dean Kaner,《幽默时代》

当然了,半个世纪之后,动画已经取得了长足进步。《海底总动员》在某种程度上是皮克斯展示自己可以制作出逼真的水动画的借口。《怪兽电力公司》里面的形象也是如此。皮克斯一直等到第 6 部动画片《超人总动员》才第一次开始描写人类的故事,因为 CGI 技术之前还没有为此做好准备(指玩具总动员)之所以专门讲玩具,部分是因为皮克斯还不能对逼真的人类细节进行渲染——所以在电影中你几乎看不见安迪和他妈妈的影子)。

数字创作的轨迹正在沿着动画的轨迹前进,但技术发展的步伐只会越来越快。比方说,上面 Midjourney 生成的企鹅图像之间的差异只是短短几个月之间的对比结果。

语言模型

《黑镜》第二季的《马上回来》(Be Right Back)讲的是一对夫妻一起搬进了新家。结果第二天,丈夫出车祸身亡了。后来他的遗孀得知有一项新服务可以让她与已故的丈夫聊天;这款工具能够消化短信以及社交媒体的历史记录,从而了解伴侣会如何回应,然后代替他与客户聊天。这一集(2013 年播出)的情节现在已经成为现实。在针对个人数据进行训练的基础,初创企业 HereAfter.ai 就提供了与已故亲属的互动化身聊天的服务。

去年,在图像模型出现飞跃的同时,语言模型也突飞猛进。去年 11 月, OpenAI 推出了 ChatGPT ,刚推出五天,这款聊天工具就收获了 100 万用户。ChatGPT 的表现令人难以置信;使用它的感觉跟你第一次用上 Google Search 一样,都有“魔法时刻”降临的感觉。(每次使用 ChatGPT 时,我都会想起亚瑟·克拉克的名言:“任何足够先进的技术都与魔法无异。”)

下面的一些例子说明了 ChatGPT 能做什么:

提示:“什么是虫洞?把我当作 5 岁小孩给我解释一下。”

让chatgpt用通俗易懂的方式解释虫洞

提示:“提供一个 29 岁生日派对的创意。”

使用 chatGPT提出派对创意

提示:“用伴奏的和弦写一首关于在家工作的歌曲。”

让 chatgpt用和弦写音乐

人工智能现在这种发展和采用的节奏可以追溯到 2017 年当时谷歌发表的一篇开创性论文,《Attention Is All You Need》。这篇论文由 Cohere.ai 创始人 Aidan Gomez 与人合著,从中催生出一个规模呈指数级增长的“transformer”模型时代。

不到三年前的 GPT-3 推出时的参数规模为约 2000 亿,但新的 GPT-4 将有约 1,000,000,000,000(万亿)个参数。

新疆拓丰舞台设备工程有限公司主要从事舞台机械、舞台幕布的生产安装。其中舞台机械包括:台上机械、台下机械、升降舞台、伸缩舞台、旋转舞台、活动假台口、灯光吊笼、灯光吊片、对开幕布系统、电影银幕架、升降系统、电动吊杆机、多层缠绕吊杆机、单点吊杆机、单层缠绕吊杆机、一次排绳卧式、立式滚筒式电动吊杆机、变频调速拉幕机、电动对开拉幕机;阻燃舞台幕布有:大幕、二幕、会幕、纱幕、天幕、横侧条幕等,是国内较早规模较大的舞台设备制造企业。