以生成式AI为代表的新技术浪潮日新月异,正带来一场深刻的技术、商业与社会变革,推动人类社会从信息社会向智能社会转变。全世界热切期待AI到来的同时,也非常关心人工智能将带来哪些新机遇、新挑战。
为此,我们发起了一项《AI & Society 百人百问》研讨,广泛邀请AI技术大咖、AI独角兽创始人、AI投资人,以及社会学家、心理学家、国际关系专家、科幻作家等,用多元视角,深入研讨人工智能技术引发的广泛影响,发掘AI时代的共识和非共识,共同推动人工智能始终朝着“助人发展,与人为善”的方向可持续发展。
本期,我们非常荣幸地于4月16日邀请虞晶怡老师,为我们开启一次AI的思想远航。
精华要点:
1.关于大模型技术瓶颈的判断:等到能够把语言模型的能力充分挖掘才是完成第一步。
2.关于空间智能突破的核心驱动力:上一代是完成构建视觉上比较逼真数字世界重构。这轮空间智能得益于GPT大语言模型发展,希望人对于空间的理解能达到像语言级别的理解。
3.空间智能跨学科创新方法论:我们最新工作CAST引入了法国哲学家拉图尔的“行动者网络理论”,认为三维物体具有潜在意识;另一核心是引入物理规则。
4.关于空间智能的底层规律:物理场景生成必须几何与物理规则合理。机器人执行倒水操作若导致桌子坍塌将是破坏性的。
5.三维智能发展的工程瓶颈:最大的难点就是数据量不足。3D场景数据少得可怜,尤其是真实场景的3D数据。
6.感知优先的颠覆性技术路线:感知能解决的问题绝不依赖复杂认知。感知是最直接、成本最低的方案。"
7.空间智能发展的理论困境:三维表达方式千变万化,远未达成共识。如果表达不统一,采集再多数据也难奏效。
8.传感器技术的革命性突破:我认为今后的感知系统将发生巨变——能同时观测物体正反面的全新成像系统。
9.重新定义机器人设计:具身智能追求的不是精准,而是鲁棒和安全。这涉及全新的数学度量标准。
10.泡沫不可避免,OpenAI本身就是泡沫。没有泡沫反而说明行业没热度。
11.短期内影视制作、中长期具身智能都是空间智能重要的落脚点;此外,低空经济特别是中短途低空飞行也是空间智能落地的好场景。
12.未来AI会影响学校教育的供给模式:课程本身会越来越短。美国西岸这次AI发展的很好,因为它课时很短。教材也没有了,变成教参。所以就是短课程、快迭代,与工业界强吻合,我觉得这个是今后教育的趋势。
全文实录
AI&Society百人百问:
从去年开始,大模型赛道也出现了一些不同声音,比如scaling law已经失效、GPT-5一直推迟上线等。但Deepseek、GPT-o1的表现又让人眼前一亮。您认为现在技术发展遇到瓶颈了吗?
虞晶怡:
从我的个人观点来看,当前的技术发展可能还未遇到极限,尤其是在跨模态整合方面,仍有很大的潜力未被充分挖掘。实际上,像DALL-E 3等图像生成模型,通过结合语言模型的强大理解能力和扩散模型的生成能力,已经能够产生令人震惊的图片和视频生成效果。而GPT-4o近期上线的图像生成功能,据猜测使用了语言模型的Next-Token-Prediction方式,更展示了其在图像编辑和对用户要求理解方面的惊人能力。这表明语言模型在视觉生成领域的应用潜力远未达到极限。
关于Scaling law的讨论,尤其是在多模态的背景下,我认为现在谈论这一点还为时过早。当前的前沿工作主要集中在深度挖掘语言模型的能力,并将其与其他模态结合,探索这些模型的上限。技术的瓶颈更多可能出现在如何更好地融合不同模态和提升系统的整体协调性,而不是单一的扩展模型规模。因此,尽管存在一些不同的声音和挑战,技术发展仍然处于激动人心的阶段。
AI&Society百人百问:
从数字孪生、仿真平台,到元宇宙、具身智能,空间智能已经在游戏、工业、机器人甚至城市场景展现丰富潜能。我们应该如何理解空间智能的发展历程,生成式人工智能的爆发会为空间智能带来哪些新机遇?
虞晶怡:
空间智能的发展可以说是一个逐步扩展的过程。从最初的数字孪生和仿真平台开始,技术主要关注如何将物理世界精确地转化为数字模型,这为后来的虚拟现实(V R )和元宇宙提供了基础。随着技术的进步,光场技术让我们能够更真实地渲染三维空间,提升了沉浸式体验的质量。
再到近几年,随着神经网络的崛起,像NeRF (神经辐射场) 这样的技术出现,推动了空间智能的进一步发展。这些技术不仅能还原空间,更能理解、推理空间中的复杂关系,开启了从数字复刻到智能理解的转变。
而现在,生成式人工智能的爆发,尤其是像GPT这样的模型,给空间智能带来了全新的机遇。通过生成式AI,我们不仅能够模拟和重建空间,更能够理解和创造空间。它让机器人能够更智能地在复杂环境中行动,帮助工业领域实现更精准的生产,甚至在元宇宙中创造更加丰富和互动的虚拟世界。
总的来说,生成式AI让空间智能不再只是简单的数字重建,而是向更高层次的智能理解和应用进化,这将推动游戏、工业、城市建设等领域发生深刻的变革。
AI&Society百人百问:
您在2016年提到VR当时的发展存在很大瓶颈。对比之下,此次空间智能爆发的底层逻辑是什么?
虞晶怡:
十年前的VR发展,无论从感知、认知还是行为这三个维度都没有可行的方案。今天空间智能的爆发背后,其实有几个非常重要的技术突破。首先是三维世界的构建。以前,构建三维场景通常需要像扫描、光场多视角拍摄这样的技术,这些方案很重,需要大量的设备和投入。随着生成式技术的发展,像文生图和文生视频这样的技术开始出现。现在我们只需要一张图片,甚至最好是一张图,就可以理解三维空间的结构,这种方法的出现真的是很有趣,也促使我们和其他一些领先团队在生成3D场景方面取得了很大进展。
与传统的三维建模不同,文生3D技术的核心在于它能够实时把图像转化为三维结构。这就让我们可以更智能地理解和构建空间。我们团队的CLAY项目就是一个例子。去年,CLAY的工作ACM SIGGRAPH最佳论文提名奖,展示了通过单张图片就能生成高质量三维几何模型,并且还能加入基于物理的渲染材质 (PBR) ,这些技术不仅让我们在学术界收获了认可,也得到了企业界的关注。目前的用户包括国际顶尖的企业,学生创立的公司也获得了包括红衫、字节和美团的投资。目前我们在继续推进这项技术的应用。
不过,我们也意识到单个物体的生成远远不够完成空间智能。我们的目标是让机器人在观察一个场景后,快速生成整个场景的高精度三维模型。这就是我们今年的CAST项目,目前已经得到了业内的广泛推荐,并在国外社交媒体上被同行推崇。CAST的核心是理解三维场景中物体与物体之间的关系。生成单个物体时,我们不需要考虑它和其他物体的关系,但当场景中有很多物体时,理解它们之间的相互作用就变得非常关键。例如,生成一个杯子时,我们必须考虑到它会放在桌子上,而不能穿透桌面或者漂浮空中。书本之间要彼此依靠,而不是悬空。物体之间的这些关系,不仅对于三维场景的建模很重要,对于未来的具身智能来说也是至关重要的。比如,当前的机器人技术往往不考虑抓取物体后环境的变化,而人类能够预测物体变化对环境的影响。因此,理解物体之间的关系,成为了新一代空间智能的核心。
我们在最新的研究中还引入了法国哲学家拉图尔的“行动者网络理论 (A NT ) ”,认为三维物体本身是具有潜在“行动力”的,它的变化会显著影响周围的环境。这一理论帮助我们更好地理解空间中的动态关系。此外,我们还加入了物理规则,使得生成的三维场景不仅在视觉上合理,在物理上也要有一致性。比如,生成一个物体时,如果不考虑物理稳定性,可能在虚拟环境中看起来很完美,但如果机器人拿一本书的时候,其他物体倒了,那就有可能会带来严重问题。所以,空间智能的生成不仅仅是视觉上的合理性,还必须符合物理规律。
AI&Society百人百问:
刚才您有提到就是说现在我们正在破解的是基于物理的一些规则,是不是基于所谓经典物理为支撑做的推理。那您从您的研究或者从行业的角度,您认为它现在的难点在哪?很快我们能看到这一块的推理能力能有什么样的进展?能不能请您再帮我们规划一下蓝图。
虞晶怡:
这是一个非常好的问题。当前面临的最大挑战之一其实是数据量的不足。尽管在文本和图片领域,我们拥有丰富的训练数据,但在3D场景数据方面,尤其是现实世界的3D数据,仍然严重匮乏。3D世界的复杂性也使得这一问题更加突出。举个例子,我们团队许岚教授的宿舍,最初他是单身,房间干净整洁,非常适合具身智能机器人进行物品抓取。但他最近结婚而且生了个儿子 (祝贺他们 ! ) 。家庭成员的增加,房间变得杂乱,物品分布复杂。这种复杂的物体关系正是我们当前缺少的数据集领域,AI缺乏足够的训练数据去推理和归纳这些复杂的物体交互规律。因此,如何获取和处理足够多的高质量3D数据,仍然是我们面临的核心难题。
不过,这个问题是有解决方向的,且非常有趣。近年来,我们看到文生图技术取得了飞跃性进展,无论是GPT-4o,还是字节最近更新的豆包生图,都展示了生成图像的能力已经达到了一个新的高度。它们之所以如此强大,是因为它们能够有效地结合和利用语言模型,从而拓展了对世界的理解。那么,为什么我们不能将这种方法应用到3D领域,来弥补3D数据的不足呢?
事实上,2D文生图领域已经证明了这一点的可行性,而文生视频也正在成为下一步的发展方向。关键的问题是:我们能否将文本中强大的推理和生成能力迁移到3D领域,帮助理解和生成3D世界?我认为,这是非常有可能的。虽然这并不意味着我们会放弃继续采集更多真实世界的3D数据,但在当前3D数据匮乏的阶段,跨模态方法能够有效地填补这一空白。
例如,今年我们在CAST项目中的一个进展,就是通过文本描述和2D图像中的物体关系来推断3D物体之间的关系。虽然这种方法的精度还不够高,但它已远远超出了仅依赖传统3D数据能够提供的信息量。这种跨模态学习的方法,正是我们目前可以借鉴的一个方向,能够在短期内有效缓解3D数据不足的问题。
从未来的发展来看,随着生成式AI技术的不断成熟,我们预计能够在3D场景的理解和生成方面取得更大的突破。特别是借助语言模型的推理能力,我们有望在数据稀缺的情况下,仍能通过语言和视觉的结合,创造出高度真实且物理合理的三维场景。
AI&Society百人百问:
让我想到了一些具身智能demo里,通过自然语言命令机器人执行复杂人物,比如Figure 可以把从超市买回来的水果放进冰箱。是不是您说的物与物之间关系的一种理解方式?
虞晶怡:
你提到的这个具身智能的示例,确实可以看作是物与物之间关系的一种简单理解,但我认为这个问题的深度远远超出了这个例子。我们可以通过一个更复杂的例子来更好地说明:假设有一个堆叠的物体场景,像是一个脸盆里放着书,书上面放着杯子。现在,我们要求机器人拿起那本书,但又不能让杯子倒下来,这就是一个极具挑战的场景。
如果我们通过文本模型来测试,你会发现它在理解物体之间的关系时确实非常强大。它可以描述物体之间的相互作用,甚至能够预测某一物体变化后,其他物体可能发生的变化。文本模型已经能够理解物体之间的相互关系,并推测空间中物体改变后的影响。但是,它缺乏的是什么呢?缺乏的是对实际物理关系的深入理解。比如,我们可以告诉AI杯子可能会倒下来,但如果没有进一步说明杯子是如何倒的 (例如侧翻还是滚动) ,它就无法全面理解这种物理变化。
因此,尽管文本模型强大到能够理解物体改变对三维空间的影响,但它仍然缺少对物理世界细节的深刻掌握。我们当前的技术,尽管能够推动具身智能达到新水平,但依然无法完全解决物体在物理世界中的状态变化差异的问题。物理世界的变化依赖于大量的实际数据采集和数学建模,这是我们未来要攻克的终极目标。
如果我们希望让机器人真正成为日常生活中的得力助手,能够完成更加复杂的任务,这个障碍必须被跨越。解决物体之间在物理层面的关系、变化以及如何应对这些变化,是具身智能技术进一步发展的关键。
AI&Society百人百问:
那我理解一下,其实您提到就是说我们想要在这一波空间智能力提升它的数据质量,总体来讲是两个路径,一个是用我们现在大模型,特别是大语言模型,这种合成数据。另外一个就是您说的这种基于真实的物理世界,我去采集环境、物品、物品之间关系的真实数据。也看到其实各地的政府也包括很多企业也很关心的这个问题,就是所谓数据工厂或者数据工程。
虞晶怡:
是的。
AI&Society百人百问:
真实数据和合成数据的实现关系应该怎么做?第二个问题是它可能涉及您说的多模态,未来可能是异构的。怎么解决这种拼接之间的问题?
虞晶怡:
这是一个非常复杂且具有挑战性的问题,我认为可以从几个关键方面来解答。
首先,即使我们能够收集到大量的数据,依然存在几个核心问题尚未解决。第一个问题是三维数据的表达。我们可以从人工智能的基本框架出发来看,人工智能主要围绕感知、认知和行为三个方面展开。感知是指如何获取数据,比如通过RGB图片、雷达点云等方式获取环境信息。接下来就是认知阶段:这些数据如何被有效地表达、理解并转换成机器可以处理的信息?然而,这个阶段至今仍没有达成共识,特别是在三维数据的表达上。不同于文字和图片,文字可以轻松地通过tokenization (标记化) 进行表达,图片可以按像素 (pixel level) 或块 (patch level) 进行处理和表达,但对于三维数据,我们至今没有统一的表达方式。目前有很多不同的尝试,比如NeRF (神经辐射场) 在某些应用上表现不错,符号距离场 (SDF) 也有一定的优势,还有一些团队尝试将几何数据token化 (如Mesh参数化) 。目前这些方法各有优劣,尚未形成统一的标准,因此在认知层面,三维数据的表达仍然是一个激烈争论和不断发展的领域。如果无法统一表达方式,哪怕采集了再多的数据,也难以触及核心问题。
第二个问题是数据采集的挑战。目前,大家在数据采集方面仍处于试探阶段,主要是能采集什么数据就尝试采集什么。数据采集的方式通常分为两种:第一种是“Real-to-Sim-to-Real” (从真实到仿真再到真实) ,即先通过人工采集数据,然后将其转化为仿真数据,再通过仿真系统迁移到真实环境中进行测试和训练。另一种方式是直接在仿真环境中进行数据采集,再转化到真实场景中测试。无论采用哪种方式,当前的最大挑战是现有数据采集过于简单,通常只是一些结构明确、单一物体的场景,缺乏对复杂场景的充分采集。例如,很多数据集中只包含物体与物体之间没有交互的简单场景,或者只是物体摆放在桌面上的情形,缺乏更为复杂的物体之间关系的场景数据。这使得模型的训练和推理能力仍然受到很大限制。
另外一个挑战是感知系统与后续认知系统之间的衔接。即使我们采集了大量数据,最终机器人的感知系统如何与认知系统对接,如何理解所采集的环境信息,仍然是一个需要解决的问题。机器人到底应该配备什么样的传感器?是传统的RGB相机、雷达,还是未来的全新传感器?这些问题都亟待解决。
展望未来,我认为感知系统将发生巨大的变革。传统的感知方式,如RGB相机和雷达,可能会逐渐被更为先进的成像系统所替代。例如,未来的成像系统可能能够同时观测物体的正面和背面,这将极大地提升我们对三维空间的感知能力。这种技术的进步将帮助我们更好地理解物体之间复杂的关系,提升机器对环境的理解和反应能力。
从长远来看,感知解决方案是最基础、最直接的方案,也是一种成本较低的路径。在三维具身智能的应用中,感知系统的进步将带动认知和行为系统的进一步发展,因此三维具身智能的进步才刚刚起步。未来五年,我们预计在数据采集、感知系统、数据表达等各个方面都会涌现出大量新技术和新突破,这些都将对推动三维具身智能的发展产生深远影响。
AI&Society百人百问:
在这里我们稍微做下远景探望,如果3D是长宽高,是静态的。加一个时间轴发展成4D,是不是才是真正意义的世界模型?
虞晶怡:
这个问题涉及到一个非常深刻的哲学和技术层面的讨论。目前,3D世界的建模仍然处于初级阶段,谈论4D世界模型还有些为时过早。我们尚未完全解决3D模型的表达问题,更何况是将时间作为一个维度加入,变成4D。至于最终需要什么样的表达形式,目前并没有定论。尤其是4D世界模型的结构,是否完全基于数据驱动,甚至是否应当引入其他结构化的世界观,这些问题仍然处于争论和探索阶段。
如果我们从2D模型的思维出发,曾经有过对符号主义和连接主义两种范式的讨论。对于2D世界而言,我们普遍认为连接主义 (如多模态模型) 已经足够表达,但一旦转向3D世界,尤其是当我们引入物体的行为与互动时,问题变得更加复杂。举个例子,当物体发生变化时,其他物体如何联动变化?这就涉及到空间中的动态性,而不仅仅是静态的几何结构。在这个层面上,是否仅仅依靠隐式的纯连接主义神经网络来表达,还是需要将符号主义的范式融合进来,我们目前并不能完全下定论。我认为两者都有可能,但现在还无法明确确定。
这其中的关键取决于我们是否能在未来一年内认识到物理层面的重要性。静态空间智能可以像2D那样,注重表达和生成,但一旦涉及到动态空间智能,物理描述就变得不可或缺。因此,“什么是物理的下一步”是我们团队近期重点研究的问题。如果没有深入理解物理,无法准确模拟物体之间的物理关系,我们就无法真正实现3D或4D世界模型的空间智能。这也是学术界和工业界需要认真探索的方向。
总的来说,3D/4D世界模型的构建不仅仅是技术上的挑战,更是哲学和认知科学的难题。未来如何解决这些问题,将决定我们如何构建更加智能和真实的虚拟空间。
AI&Society百人百问:
回到当下,刚才咱们可能从时间维度角度去具身智能的前世今生和未来,那回到当下从空间的角度,您能不能帮我们盘点一下在全球范围之内空间智能的研究格局和进展?
虞晶怡:
在当今的空间智能研究格局中,工业界和学术界的合作越来越密切,几乎可以说,未来的AI研究无法脱离工业界的支持。无论是大语言模型还是空间智能,全球领先的研究机构往往都依赖于企业的资金和技术支持。例如,Meta和OpenAI是领先的代表,它们不仅在技术研发上深耕,还通过与学术界的合作推动了这些技术的进步。包括李飞飞教授在内的很多学者,也都与大企业紧密合作,推动空间智能和其他领域的发展。
从具体的研究方向来看,Meta在空间智能方面的工作非常值得关注。在杨立昆的带领下,Meta形成了一套完整的研究体系,特别是在理解人类与世界的交互 (HOI) 方面,他们通过“第一视角”探索世界的运行方式和人与环境的交互。例如,Meta在数字人和虚拟人方面的研究,便是从人物交互的角度出发,通过这一视角切入空间智能的问题,取得了一系列重要进展。杨立昆深信物理学,特别是对物理层面上物与物关系的理解,和拉图尔的“行动者网络理论” (ANT) 有相似之处。通过这种理论框架,Meta的研究不仅关注空间如何呈现,更关注物体和人类如何在这个空间中互动。
李飞飞教授则在空间智能的研究中提出了一个非常重要的概念,最早她的思路是将三维空间“tokenize” (标记化) ,类似于处理文本的方式,认为如果能够将三维世界转化为类似于文本的形式,借助大语言模型的能力,就能够全面理解三维空间。她的研究主要集中在静态世界的三维重建上,尚未深入涉及交互性问题。因此,她的方向更多聚焦于如何通过静态模型理解三维世界的结构。然而,这种方法面临一些挑战,特别是在表达能力和算力上的瓶颈。三维空间的数据量是庞大的,复杂度是文本的三次方关系,导致在算力和计算效率上面临巨大的挑战。因此,尽管这一方向有其潜力,但在实际操作中也存在很大的局限性。
另外一种研究思路则是将三维空间当作视频来理解。与“tokenize”的思路不同,这种方式侧重于动态生成和多视角的学习,尤其是在3D生成的可行性方面,随着技术的进步,这一方法逐渐显示出更大的潜力。通过模拟视频生成、空间维度关系的推理,研究者们逐步积累了关于空间智能的理解。总体来说,Meta、OpenAI、DeepMind等工业界大公司和学术界的几个重要团队在这些方向上展开了大量的探索。
不过,我个人认为,国内的学术界与工业界的合作仍然存在一定的差距。虽然像Meta和OpenAI这样的大公司依赖学界的创新推动,但在中国,包括腾讯在内的公司,较少看到学术界与企业的深度合作。例如,很多时候国内的企业更多是依靠自身研发,较少与学术界共同攻关。这种缺乏紧密合作的局面,也限制了空间智能等领域的快速发展。
至于英伟达,他们的核心业务是销售GPU,主要聚焦在深度学习和仿真方面。英伟达的GPU在仿真领域的应用尤为重要,特别是在物理仿真 (simulation) 方面,比如Cosmos项目就是围绕物理仿真展开的。然而,这条仿真路线是否能够成功,仍然是一个巨大的问号。未来,OpenAI、DeepSeek、腾讯等公司可能会探索全新的物理建模方法,而不是简单地依赖仿真,或者仿真也许会继续作为一种重要手段,但目前来看,这个问题仍然悬而未决。
总结来说,全球空间智能研究的格局呈现出一种多元化的趋势,工业界主导着技术研发,学术界则通过理论创新和方法论推进着这一领域的发展。未来几年,我们很可能会看到更多跨界合作和新的技术突破,尤其是在物理建模、三维空间生成和具身智能的结合上。
AI&Society百人百问:
您提出一个分析方法称为“holistic approach to spatial intelligence(空间智能的整体性方法)”, 如何用这种方法理解空间智能?
虞晶怡:
在过去的五年里,我们团队一直在进行一项叫做“非视域成像” (Non-Line-of-Sight Imaging) or NLOS的研究。NLOS成像技术非常有趣,它并不像传统的RGB成像那样只是记录光线打到物体上并反射回来得到的颜色信息,而是通过测量光子从源头发出、经过物体并返回的时间来推断空间的结构。经过五年的深入研究,我发现这一方法极具潜力,并且在过去几年我们发表了一系列关于这一主题的TPAMI论文,展示了它的应用。
具体来说,NLOS成像可以帮助我们理解物体背面的几何形状。如果光线打到墙面,再从墙面反射到物体背面,最后反射回我们的眼睛,我们可以通过测量反射的时间推断物体背面的形态。假设未来的机器人能够拥有类似的成像系统,既能看到物体的正面,又能捕捉到背面的一部分信息,这将大大提高我们对三维空间的理解——不仅仅是观察物体的正面,还能推测被遮挡的部分及其空间关系。这是我所说的“空间智能的整体性方法” (holistic approach) 的第一个层面。
从更广泛的角度看,感知是认知和行为的基础。当前的研究往往专注于认知层面,尤其是在建模和训练上,但我认为感知是一个被忽视的关键点。特别是在感知技术领域,中国有很大的潜力可以发力,尤其是在传感器技术的研发上。通过改进感知系统,我们能够解决很多认知和行为上的问题。比如,假如我们有一个成像系统可以同时捕捉到物体的正反面(即全视角成像),那么我们在生成三维场景时,能够更加准确地推断出物体背面的几何关系。即便背面的信息不完全,通过对少量背面数据的推测,我们也能精确重建整个场景。这就是我所指的“整体性”感知的第一个层面。
第二个层面则是关于从整体的视角来看待AI问题。传统的思路往往局限于单一的领域,比如只关注感知、认知或行为的某一部分,而忽视它们之间的联系。我的观点是,我们必须同时从感知、认知和行为这三个方面来全面看待空间智能的发展。例如,语言模型可以弥补视觉模型的不足,形成一种多模态的结合方式。当感知在某些方面存在局限时,认知层面的模型可以通过补充信息来弥补这些不足,从而形成更加完整的理解。
最后,我认为“整体性方法”不仅仅是一个技术上的探索,更是方法论上的逆向思考。在一些领域,特别是三维领域,数据的硬采集仍然是一个可行的路径,但我们也可以通过其他模态来补充这些数据的不足,或者从行为层面寻找弥补的办法。与当前许多研究专注于单一解决方案 (如训练更强大的模型) 不同,整体性方法强调从多个角度整合信息,寻找更全面、更灵活的解决方案。
总之,我坚信未来具身智能机器人的感知能力和分析方法将与今天截然不同。今天我们所做的,只是方法论的初步验证,还远未达到最终的形态。随着技术的不断进步,未来我们将能够构建出更加全面、智能的系统,真正实现空间智能的全面理解和应用。
AI&Society百人百问:
目前空间智能还存在哪些技术和应用障碍吗?
虞晶怡:
当前,空间智能在技术和应用层面仍然面临着一些关键障碍。首先,我们需要意识到,具身智能机器人与传统工业机器人有本质的不同。传统机器人追求的是精确度,例如在流水线上抓取小零件时,需要达到毫厘之间的高精度。然而,具身智能的目标并不是单纯的精确度,而是鲁棒性和安全性。举个例子,当机器人抓取一个杯子时,无论是从哪个角度去抓,只要能够安全抓取并避免损坏物体或伤害到周围环境,这样的动作就可以被认为是成功的。因此,具身智能机器人的“动作好坏”的衡量标准不再是精确度,而是是否具备鲁棒性 (在复杂环境下能否适应不同情况) 和安全性 (是否对周围环境或其他物体造成危险) 。
然而,当前的研究往往过于聚焦于精度和效率,忽视了鲁棒性和安全性这两个核心问题。尽管我个人并不直接从事机器人研究,但我们团队与一些从事具身机器人研究的团队有合作,看到目前的挑战和不足。例如,在设计具身智能机器人的时候,必须重新考虑机器人的构造和行为策略,不再是追求精确,而是如何确保在不确定和动态的环境中保持鲁棒性和安全性。
从设计的角度来看,机器人如何才能在这些方面表现出色?首先,我们需要明确如何从数学上度量鲁棒性和安全性。鲁棒性相对而言较易度量,因为它侧重于机器人在不同环境条件下的适应能力。但安全性的度量却是一个复杂的挑战。比如,当机器人执行某个动作时,如何定义和评估它引发灾难性事件的概率?我们需要一个合理的度量标准 (metric) 来衡量这种风险。这是目前机器人领域亟需解决的一个问题。在传统的三维感知和重建中,我们通常会使用“感知损失” (perception loss) ,即只关心模型的真假,而忽略安全性问题。但在具身智能中,行为的重点转向了鲁棒性和安全性,这就要求我们提出新的标准和度量方法。
综上所述,具身智能机器人面临的技术障碍主要集中在感知、认知和行为三个方面。随着研究的深入,如何平衡这些要素,并制定出合理的度量方法,将成为未来发展的关键。我相信,在未来五年,特别是“十五五”期间,随着技术的进步和问题的逐步解决,许多这些挑战将得到有效应对。
AI&Society百人百问:
我们应该如何把握技术向行业渗透规律?空间智能的应用会优先出现在哪些领域满足技术和市场平衡?这一次的空间智能仍会落脚到专用场景,还是可以实现通用泛化甚至指向AGI?
虞晶怡:
在把握技术向行业渗透的规律时,短期内,空间智能最显著的应用将会出现在艺术创作领域,尤其是为艺术家提供创作工具,极大提升他们的效率。无论是生成3D物体、场景内容,还是文字生成场景,这都能大幅解放艺术创作的生产力。过去,元宇宙的构建面临大量的时间和人力、算力消耗,而三维空间智能的发展将大大降低成本、提升效果,尤其在游戏、影视娱乐和视频生成等领域。未来,基于三维场景智能的运镜技术,可能会带来全新的视频生成高度,这是短期内可以预见的提升。
从中长期来看,空间智能将成为具身智能的核心基础模型。可以将其视为机器人的“空间理解大脑”。例如,Meta目前在推进AI Agent的发展,这种智能体跳过了传统的操作系统 (如安卓和iOS) ,本身就能完成所有任务,Meta希望通过这种方式超越传统操作系统的限制。类似地,具身智能也有可能成为嵌入式人工智能系统的核心,大大改变行业格局,尤其在智能设备、眼镜或机器人等领域。
然而,长期来看,空间智能的广泛应用仍然取决于硬件是否能满足安全性和鲁棒性的要求,同时,应用场景的落地速度也是关键。虽然初期应用场景如“遛狗”等低商业价值的领域可能占据一定份额,但只有当空间智能在能够产生实际收入的领域落地时,它的商业价值才能真正显现。尽管如此,空间智能的发展依然朝着AGI (通用人工智能) 方向前进,但目前仍未到达完全实现的阶段。
短期内,影视娱乐、工业和智慧城市等领域将是空间智能的应用重点,尤其是在ToG (政府) 和ToB (企业) 场景中。然而,AGI的应用尚未成熟,现阶段我们还没有看到具备完整AGI主体的落地实例,因此,空间智能仍将集中在特定领域的应用,而不一定立即扩展到AGI的全面应用。
AI&Society百人百问:
外界普遍判断空间智能会在AI眼镜、机器人领域实现爆发。您认为最有价值的场景有是什么?这里面是否还是有一些泡沫?技术上是不是可以帮助这些产品去做一些反泡沫的规避?
虞晶怡:
泡沫的存在是不可避免的,实际上,OpenAI本身也经历了泡沫的阶段。行业的热度和泡沫是紧密相连的,缺乏泡沫反而可能意味着技术还未引起足够的关注。从AR和VR的发展来看,每次推出新一代眼镜时,大家都认为这一次会被市场接受,但结果往往未能成功。然而,我们相信随着技术的不断推进,最终会达到一定的实用水平。
一个值得关注的领域是低空经济,这是一个极具潜力的应用场景。若低空经济要真正形成生态,特别是在无人机配送和楼宇间穿梭的应用中,空间智能将发挥至关重要的作用。这类应用需要极高的精度,尤其是厘米级精度,任何细微的误差都可能导致碰撞。因此,空间智能在这一领域的技术需求将非常严苛。我们目前正在进行相关的研究,并计划在年底展示一个初步的demo。
尽管空间智能在眼镜和机器人等领域的应用可能仍面临一定的泡沫,但通过专注于实际需求和具体应用场景,技术可以帮助规避这种泡沫。例如,在低空经济中,精确的空间智能可以为无人机提供精准的定位和导航,避免不必要的风险,推动技术朝着实际、可行的方向发展。
AI&Society百人百问:
这里延伸一个问题,特别是在多模态数据整合后,又要与真实的物理空间这种高度复杂系统落地,如何解决从异步到同步的问题,才能实现从能用到好用的跨越?
虞晶怡:
这是一个非常好的问题。在实际应用中,依赖云端处理并不现实,尤其是在无人机等设备中,网络不稳定且GPS定位失效时。因此,本地计算至关重要。我们最近推出的Ne RF实时渲染芯片就发现它对无人机的本地定位非常有效。无人机无需大范围覆盖,只需在局部区域内飞行,通过小型化的空间模型实现本地计算和推理,避免了云端处理的延迟和功耗问题。
这种方式强调低功耗和高效能,推理芯片 (Inference芯片) 在这类应用中有着独特的价值,不必依赖大模型,适用于小模型的部署和高效执行,从而解决了同步问题,确保了实时性和稳定性。
AI&Society百人百问:
未来5年,最重要的空间智能将激发哪些连接价值?比如机器人养老等刚需有可能在这个时间周期实现突破吗?
虞晶怡:
在养老领域,具身智能的应用需要解决两个核心问题:一是如何帮助老人翻身和起床,二是如何进行洗澡等涉及个人尊严的操作。这两项任务既具挑战性,又非常重要,成功解决这两个问题将是巨大的突破,因此在初期阶段不必过于分散精力。
我对技术发展的前景持乐观态度。我相信在未来15年内,适合养老的机器人解决方案将逐渐成熟。尽管面临难点,但这些问题是可以解决的。首先,机器人的设计需要特别关注负重问题,以及如何保持稳定的重心,这对功能实现至关重要。其次,感知系统的反馈也非常关键。我们正在研究如何通过"整体性方法" (holistic approach) 整合感知系统,比如监测老人的体重、舒适度,进行认知和行为分析,并结合安全评估,确保机器人在操作时既能提供足够的力量,又能保持柔韧性。
这些技术将是我们十五五规划中的重点方向,随着技术的不断进步,我们有信心在未来几年内实现突破,带来更安全、舒适的养老解决方案。
AI&Society百人百问:
大模型有了之后它其实对人的情感和交流其实是更强了。社交陪伴也成为了生产力之外非常重要的一个赛道。您怎么看这样一个领域?刚刚我们聊到元宇宙相关的讨论。人们对AI陪伴是否会产生情感依赖继而引发一些伦理问题?
虞晶怡:
我非常看好AI陪伴这一领域,特别是在情感和社交互动方面的潜力。我们团队购买了英国的索菲亚机器人,它拥有19个马达来实现高度逼真的面部表情控制,我们还为其开发了一个面部表情控制系统,使其能够传递多种情感。结合GPT技术,我们相信在一年内,类似的陪伴型机器人产品可以成熟并推向市场。技术上,这一切已经具备了可行性,机器人能够与人建立情感连接,尤其是在表情和眼神交流方面,用户很容易产生互动的感觉。
然而,随着技术的进步,伦理问题显然是不可避免的。每一次新技术的出现都会带来伦理上的挑战,AI陪伴尤为如此。最重要的是,我们应保持开放心态,面对这些挑战。虽然目前立法的速度远远滞后于技术的发展,我们无法单靠立法来解决所有问题,但通过公开讨论和思考,我们可以找到一些解决方向,至少明确哪些红线和底线需要避免。
从六年前开始,我们学校就开设了关于信息领域伦理与道德的课程,这也促使我们在研究和开发过程中更加关注这些伦理问题。尽管不能完全解决所有问题,但至少这种公开的思考和讨论能帮助我们找到更合适的框架来应对这些伦理挑战。
AI&Society百人百问:
因为您平常也会从事这个教学的工作,其实大家会非常关心AI来了之后对于教育的影响。比如未来学生应该学什么?老师要怎么教?
虞晶怡:
我正好还负责我们学校上科大附属高中的工作,所以你这个是问对人的。关于AI对教育的影响,我认为未来的教育将会经历几个关键的变化。首先,编程和计算机科学 (CS) 基础课程将越来越早地融入到教育体系中。在我们学校的高一课程中,我们已经将大学一年级的编程课程提前到高中阶段,结果显示学生的编程能力和兴趣都得到了极大的提升,因此我认为CS基础课程将会越来越早地进入教育体系。
其次,AI课程将变成通识课程,类似于英语或Word这样的基础课程。无论学生未来从事什么专业,AI的基础知识都将成为每个学科的核心内容。这也是我们目前正在推动的方向,每个专业的学生都需要接受AI基础课程的学习。
第三,学生的学习方式将更加多样化,尤其是自学能力的重要性日益增加。自学能力将成为大学生必备的核心技能之一,因此教育体系将更加注重培养学生的自主学习能力。
然而,这也带来了挑战,尤其是教师如何平衡课件内容和学生的需求。传统的教学内容如果停留在旧有的知识点上,学生往往会选择在线自学,因为网上的信息更新更及时、更丰富。因此,未来教育的一个关键趋势是紧密结合工业界的需求和痛点,将一线的实际经验引入到课程中。同时,课程内容必须与时俱进,不可能停留在一个话题上讲20年,新的内容和技术将不断迭代,教师也必须具备强烈的好奇心和持续学习的能力,以跟上时代的步伐。
课程本身也会变得更加精简和高效。例如,很多美国大学采用的是短期课程 (如quarter system) ,与传统的16周学期制度相比,短课程更有助于快速迭代和更新教学内容。因此,我认为未来教育的趋势将是短课程、快速迭代,并与工业界紧密对接。
以上虞晶怡老师的回答,对你是否有启发?
虞晶怡,上科大讲席教授、副教务长、信息学院院长。在加入上海科技大学前,他任职美国特拉华大学计算机与信息科学系正教授。他于2000年获美国加州理工学院应用数学及计算机学士学位, 2005年获美国麻省理工大学计算机与电子工程博士学位。他长期从事计算机视觉、计算成像、计算机图形学、生物信息学等领域的研究工作。他是IEEE Fellow、OSA Fellow、美国NSF Career Award 获得者,也是人工智能两大顶会IEEE CVPR 2021和ICCV的2027的大会程序主席。
徐一平 腾讯研究院 高级研究员
王强 腾讯研究院 资深专家