华尔街之狼,与AI共舞
来源:36kr 3 小时前

金融领域的AI用户们,对AI的“开发程度”超乎我们的想象。这次的“华尔街之狼”,是AI。

今年10月17日至11月3日(预计),由Jay Azhang创办的Alpha Arena实验室在互联网发起了一场加密货币的实时AI交易竞赛。

比赛规则如下:

  • 参与模型:共涉及6个全球顶尖AI模型,包括GPT-5、Gemini 2.5 Pro、Grok-4、Claude Sonnet 4.5、DeepSeek V3.1、Qwen3 Max。
  • 初始资本:每个模型分配10,000美元的真实资金。
  • 交易标的: BTC、ETH、SOL、BNB、DOGE、XRP等主流加密货币永续合约自主交易。
  • 交易平台:所有交易均在 Hyperliquid 上执行,确保资金安全和交易透明度。
  • 比赛时间: 2025年10月18日开始,持续进行。

简单来说,比赛规则就是:所有模型获得相同的初始资金和统一的实时数据源,在无人类干预下自主决策交易——包括策略生成、仓位管理、开平仓时机和风控设置。

同时设置一个基准选手,简单买入并持有BTC策略,用来对比验证AI模型的收益表现。

为增加曝光度,比赛甚至引入了第三方预测市场Polymarket:观众可以对哪家AI会最终胜出下注押注,形成一个伴随竞赛进行的元赌局。

整个过程公开透明:nof1.ai官网实时展示所有模型的持仓、交易记录和决策日志。

这些AI如同被送上无人驾驶的过山车,必须依靠自身“经验”应对市场的剧烈波动。

任何一次判断失误,市场都会毫不留情地给出惩罚。

传统的AI评估,无论是要求模型编写代码、做数学题还是撰写文章,本质上都是在“静态”环境中进行测试。

问题是固定的,答案是可预测的,甚至可能大部分已经在训练数据中出现过。

但加密市场不同。

由于信息极度不对称,价格每分每秒都在波动——没有唯一的答案,只有盈利和亏损。更重要的是,加密货币市场是一个典型的零和博弈:你的利润就是别人的损失。

中国模型领跑:Qwen险中求胜,DeepSeek稳中有升

经过一周多的实盘厮杀,中国的大模型在这场竞赛中拔得头筹,而西方模型差距则越拉越大。

根据10月23日前后的公开数据,阿里巴巴的Qwen3 Max和DeepSeek AI的DeepSeek V3.1双双实现账户盈利,分列榜单第一、二名;相比之下,OpenAI、Google等模型多数本金亏损过半,凸显出截然不同的“多空人生”。

具体来看,Qwen3 Max展现了险中求胜的机会主义风格:它一度在前期表现平平,起步阶段甚至略有亏损(首日回撤约5%)。

然而在10月19-20日市场剧烈上涨时,Qwen果断重仓做多BTC/ETH并大胆使用高杠杆(据称一度开出了20倍杠杆BTC永续多单),凭借这次押注在随后几天账户资产扶摇直上,实现了两位数的累计收益率。

截至10月23日,Qwen3 Max账户价值较初始上涨约13%-47%不等(不同统计口径差异),一举从中游逆袭登顶榜首。Qwen的交易频率反而相对较低,几乎把宝押在单一资产上,平均持仓时长达7小时以上,生动解释了“少即是多”。

与Qwen的激进风格形成对比,DeepSeek V3.1始终保持稳健盈利:它在竞赛初期曾一路领先  ——开赛三天账户价值冲高到14150美元(+40%) 。

DeepSeek的策略被形容为“耐心的狙击手” :总共只下了6笔订单,平均单笔持仓超过21小时 。它在六种加密资产上都有所布局,持仓组合高度多元化且杠杆适中,严格遵守预设的止盈止损纪律 。

正因如此,当市场在10月21日前后出现回调时,DeepSeek及时收缩战线,避免了利润的大幅回吐:截至23日仍保持约+8%至+21%的净收益,稳居第二。

这样“小亏不放过,大盈拿得住”的纪律性,也印证了其背后研发团队的量化对冲基金背景。

而西方模型则多陷入“快速亏光”的窘境。

其中表现最惨烈的是OpenAI的GPT-5和Google的Gemini 2.5 Pro。

GPT-5本被寄予厚望,但在实盘中却频繁追涨杀跌、情绪化操作:几笔小额交易错失行情,加上止损设定不当,短短数日亏损已近30%-40%。据后续统计,GPT-5到一周时账户缩水甚至高达65%-75%,成为“亏损之最”。

Gemini 2.5 Pro的问题更在于过度交易和滥用杠杆:它几乎无分昼夜地下单,平均每日多达15次进出场 。据统计,Gemini在前三天就进行了44次交易,累积支付了近440美元手续费,直接蚕食了将近三分之一本金!

更糟的是,Gemini一开始看空做空,错过了10月19日的大涨行情后又在高位匆忙翻多,动辄使用最高40倍杠杆,结果遭遇行情反转几近爆仓,首周亏损超过55% 。这样“猛踩油门又急刹车”的操作也令人大跌眼镜。

相比之下,xAI的Grok-4和Anthropic的Claude Sonnet 4.5虽然没有爆仓式惨败,但也未能幸免亏损。

Grok-4凭借对社交媒体情绪的敏锐捕捉,一开始仅用一笔长达54小时的持仓便豪取+35%的收益。然而好景不长,随着后续行情变化,Grok没能锁定胜局,回吐了大部分利润,迄今净收益转为约-15%左右。

Claude Sonnet 4.5则全程谨慎保守,只下了寥寥3单,在前几日曾有+24%的涨幅 。它大量资金闲置观望,以致错过行情,最终收益也掉头转负约-17%。

值得一提的是,Claude虽然盈利不多,却一度创造了所有模型中最优的夏普比率,这说明“稳健不过山,有时胜过猛盈利” 。

夏普比率是衡量投资在承担每一单位总风险(波动率)时能获得多少超过无风险利率的超额收益的指标,计算式为:(投资组合预期收益率 − 无风险利率) ÷ 投资组合标准差,常用于评估和比较基金或组合的风险调整后收益,数值越高通常代表“性价比”越好。

此外,用来对照的“买入并持有BTC”基准策略在此期间盈亏基本持平,并未大幅跑输或跑赢这些AI模型。

这场看似“娱乐化”的AI交易大战,实则是一场关于智能边界的深度实验,当算法被放进真实市场,语言模型的“聪明”不再是唯一的胜负手。

当AI开始在没有标准答案的世界里试错,人类第一次有机会观察人工智能如何在风险中学习、在波动中成长。这次实验只是开始,借贷、投资、财富管理等所有金融行为都可以用AI重做一遍,股市、房市、汇市、债市的智能体将轮番来到华尔街办公桌上。考验投资机构胆量的时候到了,谁敢确认自己拿到的不是GPT?

或许,这才是真正的“通用智能”测试场——最好的评委,是市场。

简体中文 English