【进展】王选计算机研究所王勇涛团队在智能驾驶技术领域取得多项新进展

来源：集微网 4 天前

1.王选计算机研究所王勇涛团队在智能驾驶技术领域取得多项新进展

2.纳米尺度“拧”转自旋：中国科大发展应变工程调控自旋极化新方法

3.北京大学电子学院彭超团队在内禀手性激光器研究中取得进展

4.美国出台首个州AI反歧视法马斯克公司不满发起诉讼

1.王选计算机研究所王勇涛团队在智能驾驶技术领域取得多项新进展

近期，王选计算机研究所王勇涛团队针对智能驾驶场景下的多模态融合、开放世界感知、高阶端到端VLA智能驾驶系统、驾驶场景数据合成与重建等多个关键问题，先后提出了R4Det、VL-SAM v2、AutoOcc、OpenAD、KnowVal、DrivingGaussian++等系列工作，被人工智能领域顶级国际会议ICCV 2025、NeurIPS 2025、CVPR 2026和顶级国际期刊TPAMI发表/录用，同时申请了多项发明专利。

当前，新能源汽车成为了我国的支柱产业，而智能驾驶技术是发展新能源汽车产业的关键技术之一。然而，智能驾驶技术正面临着多个挑战，包括：

1. 多模态融合问题：智能驾驶车辆通常融合多种传感器以提升安全性与鲁棒性。其中，4D毫米波雷达-环视相机方案兼具高性能与高性价比，但对应的多模态数据差异较大，如何高效地进行融合是技术难点之一。

2. 开放世界感知问题：传统基于闭集范式的感知模型只能识别预设类别，无法处理未知类别物体进而导致事故。开集（open-set）、开放词汇（open-vocabulary）感知方法能感知任意对象，但需要用户持续输入提示词。开放式（open-ended）感知无需任何提示词即可感知所有物体，是智能驾驶领域的前沿挑战问题之一。

3. 高阶端到端VLA系统瓶颈：现有端到端、VLA智能驾驶系统系统存在三大缺陷：隐式规则学习导致罕见场景泛化差、可解释性差；模态推理割裂，VLA模型仅限语言推理，无法深度融合视觉感知与语言规则；价值对齐缺失，只优化轨迹误差，忽略交通法规、道德、防御性驾驶原则等人类偏好。

4. 场景数据合成与重建难题：高质量、多样化的驾驶场景数据对智能驾驶系统训练测试至关重要。常规方法（NeRF、3DGS）在动态大范围场景中重建精度低、成本高、编辑能力弱，难以高效合成复杂或稀有场景。

针对上述关键问题，王勇涛团队与合作者取得了如下多项智能驾驶技术新进展。

一、4D毫米波雷达-环视相机多模态感知架构R4Det（CVPR 2026）

R4Det针对绝对深度估计模块精度有限的问题，摒弃了稀疏的度量回归，引入序数排序损失；针对缺乏自车位姿时的时序融合问题，提出可变形门控时序融合模块，以对齐非刚性运动；针对小体积物体召回率和准确率低的问题，提出了实例引导的动态优化模块；取得了大幅领先的3D多模态检测结果。

图1 R4Det架构图

图2 R4Det取得了领先的3D目标检测结果

二、开放式目标检测和实例分割框架VL-SAM v2（NeurIPS 2025）

VL-SAM（NeurIPS 2024）是王勇涛团队提出的首个开放式目标检测和实例分割框架，无需提示词即可对任意类别物体进行检测和分割。VL-SAM v2进一步通过通专融合对稀有类别和常见类别目标均实现了优越的感知性能，在多个基准数据集上取得了领先的开放式感知结果。

图3 VL-SAM v2框架示意图

三、开放世界占据栅格自动标注系统AutoOcc（ICCV 2025）

AutoOcc是一个高效、高质量的开放式三维语义占据栅格（Occupancy）真值生成框架；基于视觉语言模型和视觉基础模型，进行多视图场景重建，无需任何人类标注即可超越现有占据栅格标注和预测管线，并展现良好的通用性和泛化能力，在多个评测基准及长安汽车等车企的业务数据上取得了媲美人类标注的结果。

图4 AutoOcc方法示意图

表1 在Occ3D-nuScenes基准上，AutoOcc取得了领先的占据栅格真值标注结果

表2 在SemanticKITTI基准上，AutoOcc取得了领先的跨数据集与未知类别的零样本泛化结果

四、开放世界驾驶场景感知评测基准及开放式3D目标检测算法OpenAD（NeurIPS 2025）

OpenAD是首个面向开放世界的驾驶场景感知评测基准，并同时提出了一个以视觉为中心的3D开放世界目标检测基线。OpenAD挑战赛长期公开开放（https://github.com/VDIGPKU/OpenAD），欢迎目标检测/3D感知/多模态大模型的研究者参与。

图5 OpenAD评测集长尾物体示意图

图6 OpenAD所提出的开放式3D目标检测基线示意图

五、检索增强与价值引导的智能驾驶VLA系统KnowVal (CVPR 2026)

KnowVal是首个对齐交通法规、道德、防御性驾驶原则等人类偏好的端到端智能驾驶VLA（视觉-语言-动作）系统。它通过通专融合的开放世界感知，进行实例特征抽取、场景特征抽取和检索引导的抽象元素理解；并对一个构建的包含了法律法规、道德原则、防御性驾驶原则的知识图谱进行感知引导的检索，得到相关性由高到低排列的知识条目及其特征词元；最后通过规划模块、隐式世界模型模块和价值模型，进行价值评估，选定规划轨迹。在多个国际基准上，KnowVal均取得了领先的自动驾驶结果。

图7 KnowVal系统示意图

表3 KnowVal在nuScenes（上方）、NAVSIM（左下）、Bench2Drive（右下）基准上取得领先的自动驾驶结果

六、面向动态驾驶场景的高质量重建与可控编辑框架DrivingGaussian++（TPAMI 2026）

DrivingGaussian++是一个面向大规模动态驾驶场景的高效重建与编辑框架，通过复合高斯重建将场景分解为静态背景与动态前景，分别进行增量式重建，支持免训练的三维场景可控编辑，包括纹理修改、天气模拟和物体操控等任务，显著提升了驾驶场景数据合成的真实感与多样性。

图8 DrivingGaussian++框架示意图

表4 DrivingGaussian++取得了领先的重建结果（上表）和场景编辑效果（下方四表）

图9 DrivingGaussian++编辑结果示例

图10 DrivingGaussian++动态场景模拟示例（在自车前方添加行驶的汽车与挖掘机）

秉承王选所“顶天立地”的优良传统，王勇涛团队在智能驾驶技术方向进行了不懈的探索，获得了国家科技创新2030重大项目课题、国家自然科学基金、华为、长安汽车等科研项目支持经费逾千万元，取得的多项成果得到了学术界和工业界的广泛关注、使用和好评。

2.纳米尺度“拧”转自旋：中国科大发展应变工程调控自旋极化新方法

中国科学技术大学自旋磁共振实验室王亚、王孟祺团队在高压物理与量子传感的交叉前沿领域取得重要进展。团队针对极端压力下金刚石氮空位（NV）色心量子探针的失效机理开展研究，首次通过实验揭示了应变对自旋-光学动力学的调控机制，并基于该机制在纳米尺度实现了自旋极化反转。研究成果于4月6日以“Strain-engineered nanoscale spin polarization reversal in diamond nitrogen-vacancy centers”为题在线发表于国际学术期刊《物理评论快报》。

极端压力是调控物质状态的关键热力学手段，在发现新物态、揭示新物理规律方面发挥着重要作用。然而，高压环境下原位微观磁学表征技术的匮乏，长期制约着研究者对材料磁性相变、超导转变等量子行为的微观理解。

金刚石NV色心因其与金刚石对顶砧（产生极端压力的核心装置）的高度兼容性，以及纳米尺度的磁探测能力，成为近年来高压原位表征的重要工具。中国科大团队长期致力于高性能量子传感器的技术研发与高压科学前沿交叉应用，于2024年发展晶向应力调控关键技术，首次将该类量子传感器的稳定工作压力提升至百万大气压（100GPa）以上，同时发展高灵敏磁成像技术，揭示了矿物在高压下的磁性转变[Nature Communications 15, 8843 (2024)]。

随着压力提升，金刚石对顶砧砧面应力环境更为复杂。在复杂应力下理解NV色心量子探针磁探测性能退化乃至失效的微观机制，成为发展下一代高压量子传感器的核心基础，也有望将应变工程发展为突破传统光学调控方法的局限的普适性手段。

为此，研究团队创新发展了光探测磁共振局域应力场测量与皮秒精度荧光动力学测量的协同表征技术，系统阐明了应变对NV色心自旋-光学动力学的调控机制。研究发现，强对称性破缺应变像一双“无形的手”，从两个方向协同“拧动” 自旋极化的方向：1）激发态自旋混合：应变抑制激发态上系间窜越（ISC）过程的自旋选择性，相当于松开了自旋极化的“原有固定”；2）单重态跃迁分支改变：应变显著改变单重态回到基态的下ISC跃迁分支比，使系统更倾向于向极化反转状态布居，相当于为自旋极化“重新定向”。两个效应协同作用，最终使NV色心光泵浦后实现自旋极化的反转。

基于这一全新的物理机制，团队通过精准构筑局域应变梯度场，在突破光学衍射极限的纳米尺度区域内，成功实现了应力梯度诱导的可控自旋极化“拧转”。

图：(a) 金刚石对顶砧高压装置。(b)破坏对称性的应力梯度下的自旋极化反转现象示意图。(c)-(f) 不同应力区域NV色心的ODMR光谱。

这一成果突破了传统光子学调控方案(如Purcell微腔、光子晶体腔等)仅能调控量子光源自发辐射通道、无法对局域非辐射跃迁过程实现精准操控的技术瓶颈，为自旋系统的局域量子操控与纳米尺度量子相干调控提供了全新的实验方法与技术路径，也为极端压力下设计应力调控的高性能量子探测手段奠定了关键基础。

我校博士研究生刘志贤、孙家豪、徐甘雨为论文共同第一作者，王亚教授、王孟祺副教授为论文共同通讯作者。研究工作得到了国家自然科学基金、科技部等项目的支持。

3.北京大学电子学院彭超团队在内禀手性激光器研究中取得进展

从高精度传感、量子信息到光学微操控，这些前沿领域都迫切需要一种关键光场——手性涡旋光。手性涡旋光具有确定的旋转方向且无法与其镜像重合，能够与蛋白质等手性物质发生特异性相互作用等特点，因此成为高灵敏度检测、量子态操控和光致旋转的关键技术。然而，传统方案产生手性激光往往依赖复杂的螺旋谐振腔、手性液晶材料或非对称光泵浦，这种方式不仅加工难度大、集成度低，而且由于手性通常源自外部引入的扰动，稳定性和模式纯度难以兼得。近日，北京大学彭超教授团队联合中国科学院半导体研究所郑婉华院士团队与澳大利亚国立大学Yuri Kivshar院士团队在《自然·通讯》发表了一项创新性成果：利用两个原本“无手性”的超表面结构，通过扭转堆叠构造出一种具有内禀手性的双层超表面结构，进而在通信波段实现了稳定的手性激光发射。

图1 内禀手性

该研究设计了一种具有莫尔超晶格的双层超表面结构，并采用增益引导机制实现光场局域化。两层超表面以一定角度扭转，如图2所示。扭转后的结构不仅打破了镜像对称性，而且引入了非厄米的层间耦合，使得原本无手性的两层结构通过非厄米相互作用产生了内禀手性。具体而言，在该系统中，各向同性几何形状和色散效应使体导波共振发生杂化，导致每层超表面中出现一组二重简并的集体导波共振（CGR）模式，分别沿顺时针（CW）和逆时针（CCW）方向旋转。在扭曲超表面结构固有的手性和非厄米物理的辅助下，层内和层间的CW和CCW模式相互作用，产生非厄米简并，最终使一个轨道手性模式在激射时占主导地位。

图2 内禀手性半导体激光器结构

研究团队通过晶圆键合工艺成功制备了样品，并在室温光泵浦下实现了单模激光出射。其阈值低至73 kW/cm²，且可在250 nm的宽谱范围内稳定单模工作。该激光的输出模式在实空间呈现甜甜圈形光斑，通过偏振分析和自干涉测量，研究团队清晰观察到了叉状干涉条纹，证实了相位涡旋的存在，其拓扑荷为1。这一轨道手性完全源于结构自身，不依赖于泵浦光的位置或形状，表现出极高的稳定性和内禀确定性。

该成果以“Chiral orbital lasing in a twisted bilayer metasurface”为题，发表于《自然·通讯》。中国科学院半导体所青年研究员王明金、北京大学博士生吕念远和北京大学特聘副研究员张子璇为论文共同第一作者，中国科学院半导体所郑婉华院士、澳大利亚国立大学Yuri Kivshar院士、北京大学彭超教授为论文共同通讯作者。

《自然·通讯》官网撰写“Twist-induced orbital chirality in a photonic laser”专题评论文章对文章进行了评述：“更广泛地说，这表明莫尔工程不仅可用于裁剪色散，还能调控光学运动本身的拓扑结构，为手性光源与集体光子态开辟了新方向。”

该项工作得到了国家重点研发计划、国家自然科学基金等项目的资助。

4.美国出台首个州AI反歧视法马斯克公司不满发起诉讼

据《金融时报》报道，埃隆·马斯克(Elon Musk)旗下xAI公司已提起诉讼，挑战科罗拉多州具有里程碑意义的AI法案。当前，特朗普政府及行业主要参与者正试图阻止美国各州对该技术进行监管。

科罗拉多州的这项法案将于今年夏季生效，是美国首个在州一级通过、旨在对AI系统中的“算法歧视”施加保护措施的立法。

xAI在诉讼中表示，该法案将迫使其“在诸多议题上推广该州的意识形态观点，尤其是种族正义方面”，而不是坚持自身“对真相的无私追求”。

xA称，科罗拉多州的这项法案违反了宪法第一修正案对言论自由的保护。“该法案禁止AI系统开发者发表科罗拉多州不喜欢的言论，同时强迫他们在引发公众广泛关注的有争议话题上，遵从州强制推行的正统观点。”xA在周四提交给联邦法院的诉讼中称。

xAI还在文件中称，这项法律“严重加重了AI的开发和使用负担”，并将“把州政府偏好的观点嵌入到AI系统的底层结构之中”。

2024年，科罗拉多州成为全美首个通过全面监管AI法案的州，以防止AI在教育、就业、贷款、医疗和住房等领域出现歧视行为。该法案要求开发者避免“算法歧视”，向州总检察长通报“可预见的风险”，并向消费者提供机会以“更正任何不准确的个人数据”，并“对不利的重大决定提出申诉”。

截至发稿，科罗拉多州总检察长办公室拒绝对此诉讼发表评论。