ChatGPT实时视频功能正式上线,距OpenAI首次展示已逾半年
2024-12-12 / 阅读约3分钟
来源:TechCrunch
OpenAI推出了ChatGPT的实时视频功能——高级语音模式(带有视觉功能)。订阅ChatGPT Plus、Team或Pro的用户可以通过手机对准物体,获得ChatGPT的实时回应。该功能已逐步推出,但部分用户和地区需等待。

图片来源:Bryce Durbin / TechCrunch

经过近七个月的等待,OpenAI终于推出了ChatGPT的实时视频功能。

周四,在一次直播活动中,该公司宣布,其ChatGPT的人类对话功能——高级语音模式(Advanced Voice Mode)将新增视觉功能。订阅了ChatGPT Plus、Team或Pro服务的用户,只需通过手机摄像头对准物体,ChatGPT即可近乎实时地给出回应。

配备视觉功能的高级语音模式还能通过屏幕共享功能,理解用户设备屏幕上的内容。例如,它可以解读各种设置菜单,或为用户提供数学问题的建议。

要使用这一新功能,用户只需点击ChatGPT聊天栏旁的语音图标,随后点击左下角的视频图标即可开启视频。若要进行屏幕共享,点击三点菜单并选择“共享屏幕”即可。

OpenAI表示,视觉功能的高级语音模式将从周四起逐步推出,预计在下周内全面上线。但并非所有用户都能立即访问此功能。ChatGPT Enterprise和Edu订阅者需等到1月才能享用此功能,而对于欧盟、瑞士、冰岛、挪威或列支敦士登的ChatGPT用户,目前尚无明确的时间表。

在最近CNN“60分钟”节目的演示中,OpenAI总裁Greg Brockman利用配备视觉功能的高级语音模式对Anderson Cooper进行了解剖技能测试。当Cooper在黑板上画出身体部位时,ChatGPT能够准确“识别”他所画的内容。

图片来源:OpenAI

“位置非常准确,”ChatGPT评价道,“大脑就位于头部。至于形状,这只是一个开始。大脑更像是一个椭圆形。”

然而,在同一场演示中,配备视觉功能的高级语音模式在解答一个几何问题时出现了错误,显示出其可能存在的幻觉倾向。

视觉功能的高级语音模式曾多次推迟发布,部分原因据称是OpenAI过早地宣布了这一功能,而当时该功能尚未准备好投入生产。今年4月,OpenAI曾承诺高级语音模式将在“几周内”向用户推出。但几个月后,该公司表示需要更多时间。

当高级语音模式终于在秋季早些时候面向部分ChatGPT用户推出时,它尚不具备视觉分析功能。在周四正式发布之前,OpenAI一直致力于将仅支持语音的高级语音模式推广到更多平台和欧盟用户。

与此同时,竞争对手如谷歌和Meta也在为其各自的聊天机器人产品开发类似功能。本周,谷歌已将其具备实时视频分析功能的对话AI——Project Astra提供给Android平台上的一组“可信测试者”。

除了视觉功能的高级语音模式外,OpenAI还于周四推出了节日特别版——“圣诞老人模式”,该模式在ChatGPT中预设了圣诞老人的声音。用户只需点击ChatGPT应用中提示栏旁的雪花图标即可体验。