美团推出LongCat-Flash系列模型并开源两大版本后,LongCat团队又宣布推出新成员LongCat-Flash-Omni。该模型基于高效架构,采用ScMoE技术,集成了多模态感知和语音重建模块。尽管参数规模庞大,高达5600亿(激活参数270亿),但仍能实现低延迟的实时音视频交互。在全模态基准测试中,该模型达到了开源领域的最先进水平,实现了“全模态不降智”。它采用了一体化全模态架构和端到端设计,并引入了渐进式早期多模融合训练策略。性能测试表明,该模型在多领域表现出色,尤其在文本和图像理解方面能力显著提升,音视频处理能力也处于领先地位。用户可通过官网体验部分功能,官方App已发布,支持联网搜索和语音通话,未来还将推出视频通话功能。相关代码可在Hugging Face和Github上获取。