美团开源5600亿MoE模型！ | 阶跃星辰发布端到端语音模型 | 上海AI实验室推多模态新标杆

作者 left

发布于 2 9 月, 2025

共计 0 个讨论

AI模型军备竞赛升级：美团、上海AI实验室等巨头密集开源，多模态技术迎来爆发期

本期看点：
🚀 美团开源LongCat-Flash-Chat混合专家模型
🎵 阶跃星辰发布Step-Audio 2 mini端到端语音模型
👁️ 上海AI实验室开源InternVL3.5多模态模型
💻 NVIDIA推出Nemotron-Nano-9B-v2可切换推理模型
📱 开源多模态模型MiniCPM-V 4.5发布
🖥️ 阿里巴巴Qwen团队发布GUI自动化框架
🎧 腾讯ARC开源AudioStory长音频生成模型
🌕 中科院发布月球科学多模态大模型V2.0

中国的AI领域最近真是热闹非凡！美团、上海AI实验室、阿里巴巴、腾讯这些科技巨头像约好了似的，短短时间内接连开源多款重磅模型。从规模高达5600亿参数的混合专家架构，到能听会说的端到端语音模型，甚至还有能分析月球科学数据的多模态系统——一场围绕多模态技术的竞赛正愈演愈烈。

美团技术团队这次放了个大招。他们推出的LongCat-Flash-Chat混合专家模型，别看总参数量高达5600亿，但实际运行时只需要激活186亿到313亿参数。这种设计巧妙地在计算效率和性能之间找到了平衡点，特别适合智能体应用的开发场景。动态计算机制的引入，让推理过程既高效又省资源，比起传统方法确实聪明了不少。

美团LongCat架构图
图为美团LongCat混合专家架构示意图 | 图片来源：CSDN

上海AI实验室也不甘示弱。他们的书生·万象InternVL3.5多模态模型玩出了新花样，采用级联式强化学习和动态视觉分辨率路由技术，一口气开源了从1B到241B的全系列版本。这个模型包含数据预处理、动态高分辨率多模态处理等多个模块，在处理复杂任务时既精准又高效，可以说是给开源多模态领域立了新的标杆。

InternVL3.5架构图
图为InternVL3.5整体架构示意图 | 图片来源：CSDN

阶跃星辰的Step-Audio 2 mini端到端语音模型也挺让人惊艳。它在OpenCompass评测中拿到了77.2的高分，最厉害的是实现了音频理解与生成的统一建模。这意味着它不仅能听懂你的话，还能直接执行语音指令，让语音交互有了全新的可能。语音AI这下可是从单纯的“听写员”升级成能理解会办事的“智能助手”了。

其他厂商也各显神通：NVIDIA专门为A10 GPU优化了Nemotron-Nano-9B-v2小型语言模型，支持可切换推理；MiniCPM-V 4.5虽然只有8亿参数，却在移动端表现出色；阿里巴巴的Qwen团队推出了专门操作图形界面的多模态代理模型；腾讯ARC则开源了能生成长篇叙事音频的AudioStory模型。

最让人意想不到的是，中科院居然把AI用到了月球科学上！他们推出的月球科学多模态专业大模型V2.0，为数字月球云平台提供AI分析能力，让地质研究搭上了AI快车。这说明AI技术正在向更专业、更垂直的领域深入发展。

这一波开源浪潮来得又猛又快，让我们看到中国AI产业正在迈入新阶段。从美团的技术创新到上海AI实验室的突破，再到各个细分领域的专业深耕，一个完整的技术生态正在形成。这些开源模型不仅降低了AI的使用门槛，更重要的是为整个行业提供了坚实的技术基础。

随着这些技术越来越成熟，AI必将在更多领域大显身手，推动数字化变革走向深入。在全球AI竞赛越来越激烈的当下，中国科技企业的这波集体开源，不仅会加剧技术竞争，更为全球开发者带来了更多优质选择和可能性。

作者：程序员Left（全网同名）
职位：后端工程师
创作方向：AI前沿科技内容

如果你对AI模型的技术细节或应用场景有独到见解，欢迎在评论区畅所欲言！

想和大家聊聊：在多模态AI模型快速发展的当下，你觉得哪个技术方向最具颠覆性？是混合专家架构带来的效率提升，端到端语音理解的重大突破，还是其他让你眼前一亮的新技术？

Categories:

AI科技日报

Tags:

No Tag

美团开源5600亿MoE模型！ | 阶跃星辰发布端到端语音模型 | 上海AI实验室推多模态新标杆

AI模型军备竞赛升级：美团、上海AI实验室等巨头密集开源，多模态技术迎来爆发期

还没发表评论，快来发表第一个评论吧~

发表回复取消回复

近期文章

美团开源5600亿MoE模型！ | 阶跃星辰发布端到端语音模型 | 上海AI实验室推多模态新标杆

AI模型军备竞赛升级：美团、上海AI实验室等巨头密集开源，多模态技术迎来爆发期

还没发表评论，快来发表第一个评论吧~

发表回复 取消回复

近期文章

发表回复取消回复