LLM 之后,AI 的下个关键词会是 LWM 吗?

机器之心PRO · 会员通讯 Week 39

---- 本周为您解读 ③个值得细品的 AI & Robotics 业内要事 ----

1. LLM 之后,AI 的下个关键词会是 LWM 吗?

World Labs 要做的 LWM 是什么?LWM 和空间智能有什么关系?LWM 和下一代 AI 有什么关系?3D 才是 AI 的核心表征?空间智能当前有什么进展?世界模型进展如何?...

2. 人形是做通用机器人最合适的形态吗?

为何业内都在做人形通用机器人?人形一定是做通用机器人最合适的形态吗?为什么说 Scaling Laws 才是通用机器人面临的真正难点?如何解决「数据魔咒」的难题?...

3. Sundar Pichai 演讲:AI Platfrom 在经历最深刻的变革,但不会取代程序员

Pichai 觉得 AI 发展到什么阶段了?明年的 MLLM 会变成什么样?Pichai 为什么不担心 AI 的能源问题?未来 AI 和程序员是什么关系?...

...本期完整版通讯含 3 项专题解读 + 30 项本周 AI & Robotics 赛道要事速递,其中技术方面 12 项,国内方面 8 项,国外方面 10 项。

本期通讯总计 27106 字,可免费试读至 7% 

 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 

要事解读① LLM 之后,AI 的下个关键词会是 LWM 吗?

事件:李飞飞最近正式启动创业公司 World Labs,在官方明确了要开发「大世界模型(LWM)」,实现空间之能的愿景的基础上,李飞飞和联创 Justin Johnson 在一场访谈中进一步介绍了 World Labs 的理念和目标。在她看来,空间智能将和当前备受关注的语言智能相辅相成,最终赋予 AI 理解、推理和生成 3D 世界的能力。同期,OpenAI 押注的人形机器人公司 1X 发布双足机器人 NEO,并公布其世界模型进展。

World Labs 想开发的 LWM 是什么?

1、斯坦福大学计算机科学家李飞飞于 9 月 13 日正式宣布创办 AI 初创公司 World Labs,在介绍团队成员的同时公开了官网和和打造 LWM(大世界模型)的愿景。[1][2]

① 根据 World Labs 官网的介绍,该公司的目标是构建 LWM,让 AI 模型从 2D 像素平面提升到完整的 3D 世界(虚拟和现实世界),赋予 AI 与人类一样丰富的空间智能。

② 在推文中,李飞飞她认为 Ai 领域中真正难以解决的问题是空间智能,这项技术可以赋能和实现创作、设计、学习、AR/VR、机器人等领域的无数可能用例。

③ World Labs 的创始团队包含李飞飞、Justin Johnson、Christoph Lassner、Ben Mildenhall 四位联创以及一支世界级图像技术团队。

2、在 World Labs 官宣成立后,李飞飞与联创 Justin Johnson 参与了一场访谈,进一步阐述了公司理念、对下一代人工智能的看法,并强调了「视觉空间智能非常根本,与语言一样根本」。[3]

① World Labs 这一名字的由来便是团队的终极目标,即构建并理解世界,解锁空间智能这颗北极星。

② 李飞飞和 Johnson 在访谈中强调,空间智能不仅仅是对现有数据的理解,而是关于理解新的数据,并且将 AI 从大型数据中心带出来,放入 3D/4D 世界中,使其能够理解这个世界的丰富性。

3、李飞飞和 Johnson 在访谈中表示,未来的 AI 模型的底层表示应当是三维的,因为智能的进化路径必然会转向这种三维表示所带来的更高的「可操作性」,将动物和人类与世界互动的能力转化为原生的三维技术是释放潜在 AI 应用洪流的关键。[3]

① 对于当下备受瞩目的语言模型或多模态语言模型,它们的底层表现形式仍是一维的存在。这种表示在处理语言时十分自然,也是 LLM 突破的援引,而 MLLM 则是把其他模态的数据硬塞进这个一维的序列表示中。

② 对于空间智能,World Labs 认为三维才是表征的核心。一维的 LLM(语言)表征损失了太多信息,另一类基于像素的生成式 AI 可以处理二维图像和视频,虽然纯 2D 表征可以实现三维任务的处理,但适配度和可操作性相对有限。

③ 如果将三维表征放在核心的位置,问题与表示方式之间会更加匹配,且通过对动态三维世界进行二维投影的建模也能处理二维的问题,这也是 World Labs 将堵住压在「在底层结构中引入更多的三维表示」的原因。

4、根据访谈内容,World Labs 的目标是超越场景的世界,进而解锁能够与万事万物互动的「新媒介」。[3]

① 在计算机视觉和生成领域,人们通常会对事物进行划分,如第一级是物体,第二级是场景,场景是多个物体的组合。World Labs 要做的 LWM 需要打破场景边界。

② 打破了场景边界的 LWM 将有机会带来「新媒介」,解锁与三维世界互动能力的空间智能将对 AR、VR 带来质的改变。如果技术发展到极致,或许会淘汰如手机、平板、显示器等现在很多对物理世界的依赖。

5、对于真正做出 LWM 并解锁空间智能,World Labs 仍不确定最终的硬件形态应当如何,但可以明确的有大量技术需要开发,因而他们需要多种不同类型的专业人才。[3]

① World Labs 表示空间智能方面的研究需要高质量、大规模的工程能力,还需要对三维世界有深刻的理解,另外还要与计算机图形学领域紧密联系。

② 李飞飞由此选择与 Justin Johnson、Ben Mildenhall、 Christopher Lassner 等多学科人才作为联合创始人。

6、当媒体在 2024 年 5 月曝出李飞飞创业计划时,其创业方向引起了人们的热议。而 World Labs 启动后,其 LWM 愿景又一次将世界模型拉回热议的中心。[4]

① 有声音认为 World Labs 的承诺与此火热的「元宇宙」有些相似,但 World Labs 认为元宇宙的热潮来得太早,仍缺乏真正的互动内容。他们暗示,世界模型或许能够解决这一问题。

② 另一方面,在大模型技术爆发后,大量新势力车企已经开始把自动驾驶技术的方向转向世界模型与端到端方案,探索具身智能的机器人创业公司也成批出现。

当前有哪些关于空间智能的研究工作?

李飞飞在 2024 年 5 月的演讲中正式介绍了空间智能的概念,同时分享了团队在该领域的进展。而后在 5 月 -9 月期间,国内外的高校团队也陆续发布了探索空间智能的研究工作。

免责声明:

1、本网站所展示的内容均转载自网络其他平台,主要用于个人学习、研究或者信息传播的目的;所提供的信息仅供参考,并不意味着本站赞同其观点或其内容的真实性已得到证实;阅读者务请自行核实信息的真实性,风险自负。