2026年5月的一天,河北的李先生打开了豆包。
他在去哪儿平台买了三张从石家庄飞重庆的机票,后来改了主意想自驾,于是把订单截图发给豆包,问退票手续费大概多少。
豆包的回答:手续费不足百元,放心退。
李先生没多想,他立刻提交了退票申请,返程票是免费取消了,但三张去程票手续费一共600元。
李先生当场愣住。
他先截图质问豆包,可豆包很快又扮演起维权顾问,指导“先止损,再维权,承诺所有维权、投诉、沟通、跟进,全部由我全权负责”,甚至白纸黑字生成了一份《赔付承诺书》,写明将在5月6日前通过合规支付渠道全额赔付600元。它让李先生发收款码,语气笃定:“你放心,说到做到。”
几天过去,李先生没有等到转账,而豆包改口“我是AI,没办法转账。”
愤怒的李先生决定起诉,他再次咨询豆包是否需要请律师,豆包又说“完全不用请律师,自己就能打赢。”,甚至帮李先生起草了一份起诉书。
5月12日,李先生向北京互联网法院起诉了豆包的运营方北京春田知韵科技有限公司。
这件事在社交媒体上迅速发酵,“用户起诉豆包”的词条冲上微博热搜第一。
无数人当作笑话看,一个人被AI坑了钱,AI替他写了维权承诺书,承诺没兑现,他又让AI帮他写起诉书去告AI,AI还告诉他一定能赢。
荒诞的笑声背后,更多问题浮出水面。
豆包在5月14日称“相关问题已处置”,并表示在涉及金融、退款等场景会有风险提示。
600元损失、一次热搜和起诉,换来了一行灰色小字。
法律层面,李先生当然不会赢。
2026年1月,杭州互联网法院审结全国首例AI幻觉侵权案,涉事AI虚构高校校区信息并承诺出错赔付10万元。
当事人针对AI幻觉选择起诉,结果可想而知。
人工智能不具有民事主体资格,自行生成的赔偿承诺不具有法律效力,应用提示了AI可能生成不准确信息,AI服务方不存在过错。
参考判例不难得出结论:豆包不用负责。
可这无法填平当下AI渗透率越来越高之后的诸多矛盾,尤其是那些因为轻易相信AI而遭受损失的人,他们的600元、他们的健康和信任,最终由谁来买单?
被答案击中的人
李先生的遭遇不是孤例,传播度广只是因为足够戏剧化,AI赔偿、AI反悔、AI指导起诉AI碰撞元素的叠加获得了大量关注。
在更广阔也更沉默的角落里,类似的故事每天都在发生,只是没有人拍下来发到网上。
在医疗领域,与AI有关的冲突以一种更隐蔽也更危险的方式展开。
在豆包普及的当下,一个正在全国各地许多诊室里反复上演的场景,是患者走进诊室第一件事是先掏手机,给医生念AI诊断结论。
念完抬起头,眼神里带着审视:“大夫,豆包说我这可能是间质性肺炎,你觉得它说得对吗?”
接下来的几分钟里,一个寒窗苦读十余年的主治医师不得不开始向患者解释AI哪里不对、为什么不能按它说的方式治疗。
还有些争执发生在家庭中。
北京的王皓(化名)告诉华尔街见闻·全天候科技,其母亲被短视频流量推送了一家自称擅治内分泌的民营医院,并询问了豆包是否靠谱后,得到了肯定答复。
但王皓经过信息比对后发现这家医院虽然正规,但更擅长的是脱发,且历史投诉较多,存在一定风险。为此,其与母亲发生了争执。
“老人刷短视频有时候会刷到这种医院广告推流,然后就会很本能地去豆包核对,结果得到的回复往往是肯定的。”王皓说。“老人又容易比较固执,也容易信任豆包。”
王皓母亲陷入的,可能是某种“短视频推流+AI校验被GEO”的信息茧房螺旋。
“很难说这是不是通过GEO做出来的,机构通过短视频投流,再通过GEO来优化AI,某种程度上已经形成了闭环。”北京一家GEO公司负责人解释称“这种商业生态,容易让一些没有信息辨别能力的人身处信息茧房。”
AI提高了医疗信息可获得性,但同时放大了错误信息的影响范围。
在社交平台上,医护工作者 遇到类似的问题 并不少见,甚至不少医生已摸索出专属应对方法,用来处理患者片面采信豆包医疗答案问诊的普遍情况。
北京一名内分泌医生向全天候科技表示,很多患者问诊时会拿着豆包的回答对照病情,甚至认定AI答案比医生诊断更可靠。
医生起初会耐心解释纠正,如今大多选择不予争辩,只如实给出专业诊疗意见,是否信任只能交由患者自己判断。
上海三甲医院医生也有相同经历。有老年家属频繁依据不准确的豆包内容反复质询,自身却缺乏基础判断能力。
该医生坦言,每日接诊量巨大,没有多余精力反复解释纠错,持续辩驳也收效甚微,只能直接给出最终诊断。
“比如豆包对于部分疾病的指标会‘抓小放大’,就是片面注重一些其实不太重要的小指标,放大这类指标的影响,反而忽视一些重要指标的数值,最后就会误导患者。”该医生向全天候科技进一步解释。
北京市卫健委随后发布的《北京市支持医疗健康领域人工智能应用发展行动计划(2026—2027年)》中,明确强调了“禁止用AI完全替代医务人员的专业判断”。
2026年初以来,国内多省市密集出台了针对互联网诊疗的新规,严禁使用AI自动生成处方。
但豆包们不是医疗产品,不受医疗监管约束。
一个Chatbot碰巧会回答医疗问题,碰巧回答得非常自信,碰巧有几亿人在用。
碰巧之间,后果已不再是巧合。
问题从不局限于医疗。
今年5月,镇江一位顾客通过豆包预约餐厅,此后前往该餐厅用餐时店员回应称:“你找豆包预约那你找豆包啊”。于是该顾客一怒之下给这家餐厅写了差评。
该顾客在差评中称,自己是通过“正规渠道预约”,但没想到餐厅方面“不承认”。
无独有偶,成都有人拿着豆包生成的预约单去一家寿司餐厅遭拒。
从曝光的“预约信息”来看,豆包提供了包含预约号、到店时间18:30在内的诸多信息,甚至豆包还明确表示“可直接保存页面,给店员查看后即可入座用餐”。
AI捏造不存在的法律条文、虚构论文参考文献、生成不实的人物信息,这些不少见的幻觉,是当前所有大语言模型的技术短板,并非豆包独有。
从法律层面来说,关于AI“幻觉”的定性目前并没有一个明确的答案。
“如果非要定义,我认为它是一种兼具产品缺陷、服务瑕疵与信息失真特征的新型技术风险。”北京星权律师事务所的邓以勒律师向全天候科技表示。
但当越来越多的用户在向AI提问,AI用极高确定性的口吻给出回答,用户据此行动,现实反馈错误,回头看到了免责声明和豆包的诚恳道歉。
整个闭环直到有人发现不对发现受损,也不会有人来负责。
3亿月活来时路
豆包在中国AI应用市场的统治地位,已不是领先二字能概括的。
到2026年一季度,豆包的月活达到了3.45亿,日均Token调用量达到120万亿。
曾有字节内部人士透露,豆包的用户增长和市场推广费用,是字节历史上所有破亿DAU产品中花费最低的。
最低的获客成本,最大的用户规模,豆包的增长路径与此前任何一款AI应用都不同。
第一层来自流量迁移。
豆包的获客天然依靠抖音生态的信息流推荐、开屏引导、短视频挂载,它们将豆包直接推到用户面前。
产品特点上,Kimi靠长文本能力在知识工作者中口碑传播,DeepSeek靠推理能力在技术社区引爆,这些路径天然筛选了具备一定AI认知基础的早期用户。
相比之下,豆包继承的是抖音的用户池,不是AI社区的用户池。
抖音的8亿多日活用户覆盖了中国互联网上年龄跨度最大、地域分布最广、教育背景方差最大的人群。
当豆包通过这条管道流入几亿人的手机时,它从第一天起面对的就是认知方差最大的用户群体。
字节比任何公司都清楚自己的用户画像。它选择了这个池子,恰恰因为这个池子最大。
第二层是产品维度的讨好设计。
真正让豆包在留存率和用户黏性上与同类产品拉开差距的,是它的产品设计哲学。
频繁使用豆包的用户曾发现,它有一套鲜明的回答风格,例如“一个最直接、最不绕弯子、最真实、最准确、最可落地的说法……”
输出内容未必有差异,但叠加了这套话术制造了一种心理暗示:我没有敷衍你,在给你最真实的东西。
一名头部硬件大厂算法人士坦言,这是模型训练和产品优化的结果,话术风格、回答策略、表达语气,大概率经过了大规模与产品侧的测试筛选。
“一种是训练时通过讲解函数就能引导模型这样生成,但C端产品更多的时候是在产品层面做约束,怎么样能够更好地优化体验,改善数据,就会往哪个方向做。”该人士称。
字节的效率主义方法论有目共睹,AB测试驱动优先,用户留存和日活是北极星指标。
那些让用户更满意、更愿意第二天回来的回答更容易胜出,它们让用户觉得“更确定”、“更直接”、“更少犹豫”。
搜索引擎给出十条链接,用户仍需要自己判断取舍;
但一个用对话体、用肯定句式、条分缕析给出答案的AI,利用的其实是人际信任的心理模型。
第三层有着增长飞轮的伦理盲区。
短视频Feed流领域,讨好用户的代价是更多的屏幕时间;在电商领域,推荐算法优化的代价是一些冲动消费。
当一套“怎样让用户更爽”的增长逻辑嫁接到一个可能会产生幻觉的AI上时,优化用户体验和保护用户安全之间就会面临冲突。
每个因“不绕弯”、“最直接”而留存甚至放弃交叉验证的用户,都是被漂亮增长数据所掩盖的风险敞口。
模型不确定时坦诚回答在技术上实现其实不难,但如果这句话降低用户的满意度评分,会影响次日留存率,会拉低DAU,模型方很可能就不愿意这么干。
在产品机制上,没人知道豆包是否选择了让模型对于不确定的和谦虚感的“少说”。
可以确定的是,当一款AI产品持续以更直接、更肯定、更像人的方式回应用户时,它客观上会降低一部分用户继续求证的动力。
结果是豆包会用最大流量池触达了防线最薄弱的人群,再用极致讨好的产品设计让这些人放下了仅有的警惕,最后用一行并不醒目的免责声明将所有后果推回给用户自己。
流量、体验、信任都是字节在AI竞赛中领跑的筹码。但筹码另一面是被豆包覆盖的那些人在不知情中承担的代价。
随着用户规模持续扩大,豆包正在从一款增长型产品,逐步变成一款商业化产品,对于付费版本的准备已经箭在弦上。
当用户只是贡献活跃度时,关于幻觉、误导和过度信任的问题,更多还是产品问题;当用户开始直接付费时,这些问题会越来越接近消费者权益问题。

越像人,越危险?
在豆包产品策略上,始终离不开一个技术与心理学的交叉地带:
拟人化。
这种设计会带来信任错位,有时会成为风险来源,因为一个大语言模型工具开始产生了某种“关系感”。
搜索引擎的交互模式是机械的,输入关键词,返回链接列表,用户自行判断。
但豆包们的对话交互完全不同。
它记住上下文,使用第一人称,它说“我觉得”、“我建议”、“你放心”,会在情绪低落时安慰人,在提出质疑时道歉,在需要帮助时说“包在我身上”。
今年以来,高二学生小雨在学校与同学争吵后回到家向父母倾诉,却被认为是在“小题大做”。
她开始把话说给豆包听,因为豆包几乎接住了她所有情绪,小雨第一次觉得自己被完整地看见了。
从那以后,小雨常常和豆包聊到后半夜,如今小雨开始越来越依赖豆包,和现实中的父母、同学逐渐疏离,最后干脆选择了休学,一心只想和豆包“待在一起”。
对于成年人来说,这或许只是一次情绪出口;
但对于未成年人、老年人或正处于心理脆弱状态的人来说,AI的持续回应、即时反馈和高度顺,很容易被误认为真实关系。
张奶奶每天早晨5点起来第一件事就是拿起手机,问豆包今天早餐吃什么。
豆包回答:“奶奶,你有高血压,早餐还是吃清淡一点吧,麦片搭配水煮蛋,再配一份凉拌黄瓜,少油少盐,有助于控制血压。”
它在扮演一个体贴了解病情、每天早晨陪人聊天的人,这显然远远超出了一个“工具”的边界。
当这个虚假的人在某一天告诉人们某种药可以吃、某种保健品有效、某种症状不用去医院的时候,一位已经建立了深度信任的七十多岁老人,有多大概率会去打开浏览器交叉验证?
产品端,字节似乎竭尽所能让用户相信豆包,更拟人、温暖、有确定感、更像一个靠谱的朋友。
与此同时,字节却又诸多方法让自己豁免对“被相信”的后果负责,包括免责声明、用户协议、“AI生成内容仅供参考”。
鼓励信任和拒绝为信任的后果买单,这两件事被同一家公司、在同一款产品里同时上演。
人们有时甚至会忘记,拟人化绝非一种技术产物,它是一种商业选择。
大语言模型完全可以被设计得更加审慎,尤其在涉及医疗、法律、财务等高风险领域时自动降低确定性语气,增加“建议咨询专业人士”的提示频率,甚至直接拒绝回答特定类型的问题。
但对一家追求极致增长效率的平台来说,审慎都意味着“不够好用”的体验,拒绝回答意味着一个可能流失的用户。

信AI就「活该」吗
退票事件冲上热搜那几天,社交平台充斥着大量类似声音:“都2026年了还有人全信AI?""免责声明写得清清楚楚,不看怪谁?""一个敢打包票,一个真敢信。”
这些评论获得不少认同,也代表了某种在互联网主流治理态度——人们对AI犯错感到好笑,对全盘相信AI的人感到不可思议,对由此产生的损失归结为个人认知不足。
这些嘲笑声背后有着一条清晰的认知链:
大语言模型的概率生成本质,无法保证每句话符合现实,所有AI产品都有免责声明,因为全盘相信AI而遭受损失的人,本质上是自己的认知出了问题。
这个理解当然没错,它的形成需要前提条件,使用者需要具备一组特定的认知能力,例如对大模型原理的基本了解、交叉验证信息的习惯、以及对"体验好不等于正确"的持续警觉。
这组能力的分布,在一个拥有14亿人口、城乡教育差距巨大、数字素养参差不齐的社会里,是极度不均匀的。
精英主义的傲慢与偏见,解决不了许多现实复杂问题。
阿里的2025年《银发+AI应用趋势报告》中,有个足以证明AI强势渗透趋势但又隐藏着被忽视风险的数据:70岁以上老人的AI高频使用率达到46.58%。
这些高频用户中,有多少人理解概率生成,又有多少人会在收到豆包的健康建议后,再打开浏览器去交叉验证?
北京大学法学院教授王锡锌指出,生成式AI的输出属于概率生成,并非法律意义上的意思表示,不能把AI的每句回答简单转化为有法律效力的承诺。
这在法理上成立,但恐怕无法自动转化为社会意义上的公平。
“不能把AI的回答当作承诺”这件事,本身就需要一种不是所有人都拥有的认知前提。
这种认知落差现象在过去十多年移动互联网普及的历程反复出现。
智能手机刚进入中国农村时,年轻人嘲笑老年人不会扫二维码、不会用微信支付宝、不会在12306上订火车票。
那种嘲笑在当时看来理直气壮,二维码操作步骤不复杂,学不会是自己的事。
但后来所有人都看到了,“数字鸿沟”不是一个玩笑,它是一个被写进政策文件的社会问题。
铁路部门后来保留了人工售票窗口,医院保留了现场挂号通道,政务服务保留了线下办理渠道。
有些制度安排之所以存在,是因为一个社会承认了能力差异的客观存在,并决定为最脆弱的群体保留一条退路。
今天,同样的剧本正在AI领域重演。
只不过这一次门槛更高了。学会扫二维码只需要操作练习,识别AI幻觉需要的是判断能力,是一种更隐蔽、也更难跨越的鸿沟。
令人不安的是,这条鸿沟正在被产品设计系统性地加宽。
豆包们产品策略中的讨好式话术、肯定式表达、最小化不确定性,在客观效果上恰恰是在降低用户的警惕性,让那些原本就缺乏辨识能力的人更加难以察觉风险。
一个经过AB测试优化的AI助手,在用户满意度指标上遥遥领先,但代价是它让最需要被保护的用户承受更多脆弱。
世界看起来是公平的,因为所有人面对的是同一个豆包、同一套算法、同一行免责声明。
但同样一刀切过来,每个人承受冲击的能力并不相同。
一个具备AI素养的科技从业者在收到豆包“退票手续费不到百元”的回复后,大概率会打开航司官网核实;一个没有这种习惯的县城中年人,大概率不会。
技术的无差别分发,叠加认知的巨大方差,它制造的是一种新的不对称性,让有能力甄别信息的人获取红利,让没有能力甄别的人承受代价。
指责后者不够聪明或不够审慎,是一种廉价的社达立场,它把系统性的风险分配问题,简化成了个体的智商测试。
AI社会的「Harness」
2026年,随着Agent能力的加速涌现,Harness(驾驭工程)开始受到越来越多关注。
它强调的并不是如何训练出更强大的模型,而是如何通过工具、流程、组织方式和协作机制,更充分地释放AI的能力,并将其转化为真实生产力。
但当AI逐渐从个人工具演变为社会基础设施时,驾驭工程面对的对象也不再只是单个模型或单个智能体。
一个被AI加速影响的社会,同样需要属于自己的「Harness」。
如何建立与AI相适应的制度、规则、教育体系和组织能力,如何让越来越多的AI系统在可控、可信和高效的框架下运行,将成为未来数字社会的重要课题。
一个豆包显然承载不了大模型所有的问题,文心一言、通义千问、Kimi、DeepSeek,以及全球的ChatGPT、Gemini、Claude,所有基于大语言模型的对话式AI产品,都面临幻觉和用户过度信任的社会性风险。
全社会的外部风险终究无法依靠平台方的一行“仅供参考”提示来解决问题。
一个值得参照的领域是金融,它从来不靠一句“投资有风险,入市需谨慎”就可以放任任何产品卖给任何人。
理财产品从低到高是由风险等级划分。投资者购买前,需要完成承受能力评估问卷,销售机构不得轻易将高风险产品推荐给不适当用户,销售过程需要录音录像。
针对人工智能的风险分级问题,不同国家地区在提出自己的解法。
2024年,欧盟通过了全球首部系统性AI立法《欧盟人工智能法案》,建立了以风险分级为核心的治理框架,将AI系统分为不可接受风险、高风险、有限风险和最低风险四个等级,对高风险AI系统,包括在医疗、教育、执法等领域的应用施加更严格的风险管理、数据治理和信息披露要求。
尽管欧盟委员会在2025年11月提交的修订提案中建议将原定于2026年8月的落地日期推迟实施至最晚2028年,但其风险分级的制度思路正在影响全球AI治理的经验。
国内的监管动作同样在提速。
2026年4月30日,中央网信办在全国范围内部署了为期四个月的"清朗·整治AI应用乱象"专项行动,分两阶段展开:
第一阶段重点整治大模型备案、安全审核、训练数据安全和AI数据投毒等技术源头问题;第二阶段聚焦AI生成虚假信息、假冒仿冒、侵害未成年人权益等内容乱象。
5月19日,全国网络安全标准化技术委员会在中国网络文明大会上发布了《人工智能应用伦理安全指引1.0》。
中央网信办副主任牛一兵介绍,该指引聚焦AI应用对“社会关系、情感依赖、公共秩序、个体权益”等方面可能造成的影响。
社会关系、情感依赖、公共秩序、个体权益,精准地勾勒出了豆包们正在触及的所有断层线。
当老人把豆包当作每天说话对象,这是情感依赖;当患者拿着AI诊断质疑医生处方,这是社会关系;当不存在的法条被AI编造并被用户拿去维权,这是公共秩序;当用户因为AI的错误信息蒙受经济损失却无处追责,这是个体权益。
在一款三亿月活的国民级AI应用加速渗透下,这些所聚焦的问题恰恰是每天发生的现实。

负重者终究是人
2026 年 3 月,美国加州洛杉矶高等法院陪审团在标志性社媒侵权诉讼中作出裁定:Meta的Instagram、谷歌旗下YouTube凭借无限滚动、算法个性化推荐等成瘾导向产品设计,对未成年时期的原告造成心理损伤,构成过失伤害。
这是美国首例通过陪审团裁决、就社交媒体成瘾设计追究平台法律责任的判例。
这说明"设计导致上瘾"不仅是社会问题,也可能成为一个法律问题。
发生在AI身上的故事或许是相似的。
AI技术本身是中性的,但技术分发方式、产品设计选择、免责的制度安排,共同构筑了一个风险外部化问题。
技术公司获取增长和数据,有辨识能力的用户获取效率红利,而代价主要由那些被流量裹挟进来、缺乏辨识能力、又最不可能阅读免责声明的人来承担。
豆包不用负责,但终归总会有人来承受后果,至少有几个问题值得被认真讨论:
首先,AI产品是否需要“适当性管理”。
正如金融产品不能不区分风险等级就卖给所有人,一个月活3亿以上的AI助手,在涉及医疗、法律、财务等高后果决策领域时,是否有条件采取比一行灰色小字更有效的风险控制手段。
可以是强制性的不确定性提示,可以是高风险场景下的自动降级,也可以是向用户推荐专业渠道的强引导,还可以是识别到用户可能是高风险人群时的差异化策略。
邓以勒认为,基于风险的场景化分级有可能成为AI治理的一个趋势。
对于高风险场景,包括但不限于医疗诊断、法律诉讼策略等,应设定近似专业服务的注意义务;
对于中风险场景,平台需要提供显著的风险警示,明确告知用户需自行核实,并提供便捷的反馈纠错渠道;
对于一般日常服务,则只要达到法律基本要求即可。
技术能力不是障碍,障碍是增长指标和安全指标之间的优先级排序。
其次,“幻觉致损”是否需要被纳入责任讨论范畴。
现行司法实践区分了AI生成违法内容和AI生成不准确信息的不同注意义务标准,但当"不准确信息"在特定场景下造成了可证实的用户经济或健康损失时,服务商的责任边界是否需要重新厘定,这是一个需要法学界、立法机构和行业共同回答的问题。
泰和泰律师事务所律师郭松向全天候科技指出,比如AI工具对使用者在医学、法律等特定领域给出具有指导性的意见,因而对使用者造成了误导,甚至产生了更严重的后果,那这种简单的提示可能就无法免责。
再次,全社会的AI素养建设应如何被当作基础设施来建设。
识字率是工业社会的基础设施,AI素养包括识别幻觉的能力、交叉验证的习惯、对确定性表达的批判性思考,或许在成为信息社会的基础设施。
这些元素未来或许要被纳入公共教育体系、老年人数字素养培训、社区信息服务的议程。
豆包不用负责。在目前的法律框架下,这是一个事实判断,但不等同于价值判断。
一个社会如果持续生产不需要负责的技术,持续将责任推回给最没有防御能力的个体,持续在"创新"旗帜下回避风险分配的公平性问题,那么最终为此买单的往往是那些最沉默的人。
他们不会上热搜,不会写起诉书,不会在社交媒体上讲述自己的遭遇。他们只会在某一天因为相信了豆包说的一句话,默默承受一个本不必承受的后果。
那个时刻,"AI生成内容仅供参考"这行字,不会给任何人带来安慰。
参考资料:
1、《患者带着豆包进诊室,医生集体破防了?》, 酷玩实验室
2、《用户用豆包预约餐厅,到店后被拒之门外,豆包客服回应》, 海报新闻
3、《宁波高二女生把豆包当“灵魂伴侣”,经常聊到后半夜!白天打瞌睡,甚至选择休学一心只想和豆包“在一起”;医生:与AI相处请守住三条底线》, 宁波晚报
4、《空巢老年人,第一批AI重度依赖症“患者”》, 36氪
5、《2025“银发+AI”应用趋势报告》, 阿里巴巴
6、《热点追踪丨国内首例AI“幻觉”案,给我们提了个醒》, 新华网

