LongCat-Flash-Omni 正式发布，开启全模态实时交互新时代

2 天前

美团推出LongCat-Flash系列模型并开源两大版本后，LongCat团队又宣布推出新成员LongCat-Flash-Omni。该模型基于高效架构，采用ScMoE技术，集成了多模态感知和语音重建模块。尽管参数规模庞大，高达5600亿（激活参数270亿），但仍能实现低延迟的实时音视频交互。在全模态基准测试中，该模型达到了开源领域的最先进水平，实现了“全模态不降智”。它采用了一体化全模态架构和端到端设计，并引入了渐进式早期多模融合训练策略。性能测试表明，该模型在多领域表现出色，尤其在文本和图像理解方面能力显著提升，音视频处理能力也处于领先地位。用户可通过官网体验部分功能，官方App已发布，支持联网搜索和语音通话，未来还将推出视频通话功能。相关代码可在Hugging Face和Github上获取。