斯坦福大学年度报告:企业AI运用水平创下纪录
22 小时前 / 阅读约7分钟
来源:36kr
去年近八成组织在使用AI

有的时候你可能会有这样的迷惑:怎么新闻里的AI又写科研论文,又能自动驾驶,但是我们手里的AI工具总是时灵时不灵呢?或许这份斯坦福大学最新的《2025年人工智能指数报告》能够解答你的困惑。

这份400多页的年度报告,包括了对不断演变的AI硬件格局的深入分析、对推理成本的全新估算,以及对AI领域学术发表和专利申请趋势的新分析。同时还引入了有关企业采用尽责AI实践的新数据。我们编译了报告的部分重要成果,希望能够帮助大家更好地理解AI技术的发展,充分利用它获得先发优势。

人工智能日益融入日常生活

从医疗保健到交通运输的诸多领域,人工智能正迅速从实验室走向日常生活。2023年,美国食品药品监督管理局(FDA)批准了223种配备人工智能的医疗器械,而2015年这一数字仅为6种。在道路上,自动驾驶汽车已不再处于试验阶段,某自动驾驶汽车运营公司已每周提供超过15万次自动驾驶出行服务。

在这波人工智能大热潮中,科学和医学领域涌现了令人惊喜的新气象。多个新发布的基础模型,它们将助力材料科学、天气预报和量子计算等方面的研究。许多公司正尝试将AI的预测与生成能力转化为有利可图的药物发现。但总体而言,人类远未将AI潜力转化为现实影响,因为大家似乎还没完全搞懂怎么用AI技术。2024年一项研究显示:医生使用GPT-4辅助诊断后,并未因此提升诊断的准确率或速度。另一方面,独自做事的GPT-4反而强于独自做事的医生,也强于医生+AI的组合。

企业全面进军人工智能领域,应用水平创下纪录

AI在商业领域的应用正在加速:2024年,78%的组织表示在使用AI,高于上一年的55%。与此同时,越来越多的研究证实,人工智能能够提高生产力,并且在大多数情况下,有助于缩小劳动力队伍中的技能差距。

但客观来说,企业尚未看到能带来显著成本节约或新增利润的实质改变。这份源于麦肯锡调研的图表显示:在报告降本的企业中,多数都只省下不足10%的钱;而在实现增收的企业中,大部分的增幅都低于5%。

尽责AI生态系统在不均衡地发展

与AI相关的事件急剧增加,但在主要的工业模型开发者中,标准化的尽责AI评估仍然少见。不过,像HELM Safety、AIR-Bench和FACTS等新的基准测试为评估真实性和安全性提供了有前景的工具。在企业方面,虽然认识到了负责任人工智能的风险,但在采取有意义的行动方面仍存在差距。

对人工智能的乐观情绪在上升

关于“AI何时取代你的工作”的公共讨论早已甚嚣尘上。但有趣的是,一项最新的全球AI态度调查显示,多数人并没感受到威胁。受访者来自32个国家,其中60%的人认为人工智能将改变自己的工作方式,但只有36%的人觉得自己会被取代。

AI在更高要求的基准测试中的表现持续提升,但复杂推理仍然是一项挑战

2023年,研究人员引入了新的基准测试——MMMU(大规模多学科多模态理解和推理基准测试,用于评估多模态AI模型在专家级任务上表现的基准测试。它包含30个学科和183个子领域的11.5K多模态问题)、GPQA(纽约大学等机构的研究团队推出的一个基准测试数据集,包含448道由生物学、物理学和化学领域的专家编写的多选题,问题质量高且难度极大。这些题目需要对相应学科有深入的理解和多步推理能力才能解答)和SWE-bench(是由普林斯顿大学和芝加哥大学的研究者提出的一种评测基准,旨在评估大型语言模型在解决真实世界GitHub软件问题方面的能力),以测试先进AI系统的极限。仅仅一年后,AI的性能大幅提高:在MMMU、GPQA和SWE-bench测试中,得分分别提高了18.8、48.9和67.3个百分点。此外,AI系统在生成高质量视频方面也取得了重大进展,并且在某些情况下,语言模型智能体在时间有限的编程任务中甚至比人类表现得更出色。

此外,报告中还强调了一个无可争议的事实:许多用于评估人工智能系统能力的基准测试已趋于“饱和”——AI系统得分过高,以致测试不再有意义。这种现象已出现于常识、图像推理、数学、编程等多个领域。鉴于此,科学家正努力创制新的基准测试,以期挑战AI系统。其中有一套名为“人类终极测验”(Humanity’s Last Exam)的大杀招,汇集了来自全球五百所机构的学科专家提供的极限难题,成功难倒了现阶段最顶尖的AI系统。

此外,AI模型在解决国际数学奥林匹克竞赛的题目等任务中表现出色,但在像PlanBench这样的复杂推理基准测试中仍面临困难。即使存在可证明正确的解决方案,它们也常常无法可靠地解决逻辑任务,这限制了它们在对精度要求极高的高风险场景中的有效性。

AI变得更高效、更经济实惠且更易于使用

在性能日益强大的小型模型的推动下,达到GPT-3.5水平的系统的推理成本在2022年11月至2024年10月期间下降了超过280倍。在硬件层面,成本每年下降30%,而能源效率每年提高40%。开源权重模型也在缩小与闭源模型的差距,在某些基准测试中,一年内性能差距从8%缩小到了仅1.7%。总体而言,这些趋势正迅速降低先进AI的应用门槛。

AI和计算机科学教育正在普及,但在获取教育资源和做好学习准备的方面仍存在差距

现在,三分之二的国家已提供或计划提供从幼儿园到12年级(K-12)的计算机科学(CS)教育,这一比例是2019年的两倍,其中非洲和拉丁美洲进步最大。

行业在AI领域迅速发展,但前沿竞争愈发激烈

2024年,近90%的知名AI模型来自行业,高于2023年的60%,而学术界仍然是高引用率研究的主要来源。模型规模继续迅速增长——训练所需的计算量每五个月翻一番,数据集规模每八个月翻一番,能源使用量则逐年增加。然而,性能差距正在缩小:排名第一和第十的模型之间的得分差距在一年内从11.9%降至5.4%,排名前两位的模型现在仅相差0.7%。AI前沿领域的竞争日益激烈,且参与者越来越多。

AI因其对科学的影响而获得最高荣誉

AI日益重要的地位体现在一些重大科学奖项中:两项诺贝尔奖分别表彰了对深度学习(物理学领域)以及将其应用于蛋白质折叠(化学领域)做出贡献的研究成果,图灵奖则授予了对强化学习做出开创性贡献的人。