华尔街之狼，与AI共舞

来源：36kr 3 小时前

金融领域的AI用户们，对AI的“开发程度”超乎我们的想象。这次的“华尔街之狼”，是AI。

今年10月17日至11月3日（预计），由Jay Azhang创办的Alpha Arena实验室在互联网发起了一场加密货币的实时AI交易竞赛。

比赛规则如下：

参与模型：共涉及6个全球顶尖AI模型，包括GPT-5、Gemini 2.5 Pro、Grok-4、Claude Sonnet 4.5、DeepSeek V3.1、Qwen3 Max。
初始资本：每个模型分配10,000美元的真实资金。
交易标的： BTC、ETH、SOL、BNB、DOGE、XRP等主流加密货币永续合约自主交易。
交易平台：所有交易均在 Hyperliquid 上执行，确保资金安全和交易透明度。
比赛时间： 2025年10月18日开始，持续进行。

简单来说，比赛规则就是：所有模型获得相同的初始资金和统一的实时数据源，在无人类干预下自主决策交易——包括策略生成、仓位管理、开平仓时机和风控设置。

同时设置一个基准选手，简单买入并持有BTC策略，用来对比验证AI模型的收益表现。

为增加曝光度，比赛甚至引入了第三方预测市场Polymarket：观众可以对哪家AI会最终胜出下注押注，形成一个伴随竞赛进行的元赌局。

整个过程公开透明：nof1.ai官网实时展示所有模型的持仓、交易记录和决策日志。

这些AI如同被送上无人驾驶的过山车，必须依靠自身“经验”应对市场的剧烈波动。

任何一次判断失误，市场都会毫不留情地给出惩罚。

传统的AI评估，无论是要求模型编写代码、做数学题还是撰写文章，本质上都是在“静态”环境中进行测试。

问题是固定的，答案是可预测的，甚至可能大部分已经在训练数据中出现过。

但加密市场不同。

由于信息极度不对称，价格每分每秒都在波动——没有唯一的答案，只有盈利和亏损。更重要的是，加密货币市场是一个典型的零和博弈：你的利润就是别人的损失。

中国模型领跑：Qwen险中求胜，DeepSeek稳中有升

经过一周多的实盘厮杀，中国的大模型在这场竞赛中拔得头筹，而西方模型差距则越拉越大。

根据10月23日前后的公开数据，阿里巴巴的Qwen3 Max和DeepSeek AI的DeepSeek V3.1双双实现账户盈利，分列榜单第一、二名；相比之下，OpenAI、Google等模型多数本金亏损过半，凸显出截然不同的“多空人生”。

具体来看，Qwen3 Max展现了险中求胜的机会主义风格：它一度在前期表现平平，起步阶段甚至略有亏损（首日回撤约5%）。

然而在10月19-20日市场剧烈上涨时，Qwen果断重仓做多BTC/ETH并大胆使用高杠杆（据称一度开出了20倍杠杆BTC永续多单），凭借这次押注在随后几天账户资产扶摇直上，实现了两位数的累计收益率。

截至10月23日，Qwen3 Max账户价值较初始上涨约13%-47%不等（不同统计口径差异），一举从中游逆袭登顶榜首。Qwen的交易频率反而相对较低，几乎把宝押在单一资产上，平均持仓时长达7小时以上，生动解释了“少即是多”。

与Qwen的激进风格形成对比，DeepSeek V3.1始终保持稳健盈利：它在竞赛初期曾一路领先 ——开赛三天账户价值冲高到14150美元（+40%）。

DeepSeek的策略被形容为“耐心的狙击手” ：总共只下了6笔订单，平均单笔持仓超过21小时。它在六种加密资产上都有所布局，持仓组合高度多元化且杠杆适中，严格遵守预设的止盈止损纪律。

正因如此，当市场在10月21日前后出现回调时，DeepSeek及时收缩战线，避免了利润的大幅回吐：截至23日仍保持约+8%至+21%的净收益，稳居第二。

这样“小亏不放过，大盈拿得住”的纪律性，也印证了其背后研发团队的量化对冲基金背景。

而西方模型则多陷入“快速亏光”的窘境。

其中表现最惨烈的是OpenAI的GPT-5和Google的Gemini 2.5 Pro。

GPT-5本被寄予厚望，但在实盘中却频繁追涨杀跌、情绪化操作：几笔小额交易错失行情，加上止损设定不当，短短数日亏损已近30%-40%。据后续统计，GPT-5到一周时账户缩水甚至高达65%-75%，成为“亏损之最”。

Gemini 2.5 Pro的问题更在于过度交易和滥用杠杆：它几乎无分昼夜地下单，平均每日多达15次进出场。据统计，Gemini在前三天就进行了44次交易，累积支付了近440美元手续费，直接蚕食了将近三分之一本金！

更糟的是，Gemini一开始看空做空，错过了10月19日的大涨行情后又在高位匆忙翻多，动辄使用最高40倍杠杆，结果遭遇行情反转几近爆仓，首周亏损超过55% 。这样“猛踩油门又急刹车”的操作也令人大跌眼镜。

相比之下，xAI的Grok-4和Anthropic的Claude Sonnet 4.5虽然没有爆仓式惨败，但也未能幸免亏损。

Grok-4凭借对社交媒体情绪的敏锐捕捉，一开始仅用一笔长达54小时的持仓便豪取+35%的收益。然而好景不长，随着后续行情变化，Grok没能锁定胜局，回吐了大部分利润，迄今净收益转为约-15%左右。

Claude Sonnet 4.5则全程谨慎保守，只下了寥寥3单，在前几日曾有+24%的涨幅。它大量资金闲置观望，以致错过行情，最终收益也掉头转负约-17%。

值得一提的是，Claude虽然盈利不多，却一度创造了所有模型中最优的夏普比率，这说明“稳健不过山，有时胜过猛盈利” 。

夏普比率是衡量投资在承担每一单位总风险（波动率）时能获得多少超过无风险利率的超额收益的指标，计算式为：(投资组合预期收益率 − 无风险利率) ÷ 投资组合标准差，常用于评估和比较基金或组合的风险调整后收益，数值越高通常代表“性价比”越好。

此外，用来对照的“买入并持有BTC”基准策略在此期间盈亏基本持平，并未大幅跑输或跑赢这些AI模型。

这场看似“娱乐化”的AI交易大战，实则是一场关于智能边界的深度实验，当算法被放进真实市场，语言模型的“聪明”不再是唯一的胜负手。

当AI开始在没有标准答案的世界里试错，人类第一次有机会观察人工智能如何在风险中学习、在波动中成长。这次实验只是开始，借贷、投资、财富管理等所有金融行为都可以用AI重做一遍，股市、房市、汇市、债市的智能体将轮番来到华尔街办公桌上。考验投资机构胆量的时候到了，谁敢确认自己拿到的不是GPT？

或许，这才是真正的“通用智能”测试场——最好的评委，是市场。