🚀 Cursor重构Blackwell内核,MoE计算提速3.5倍
💨 Kimi K2高速版每秒100 tokens输出刷新纪录
🧠 InternLM推出8B科学多模态推理模型
🎬 可灵AI视频首尾帧效果提升235%
🔄 VAST Tripo 3.0服务300万开发者
👤 清华0.1秒3D化身技术入选ICCV
📉 EI-BERT模型压缩框架获KDD大奖


Cursor重构MXFP8内核,Blackwell架构MoE性能大爆发

Cursor团队针对NVIDIA Blackwell架构,对MXFP8内核进行了彻底重构,实现了混合专家(MoE)层3.5倍的性能提升,端到端训练整体提速1.5倍。这不仅意味着AI大模型训练更快,成本也更低了。

MXFP8与FP8格式对比图
MXFP8与标准FP8格式的数据编码和缩放因子对比 | 图源:NVIDIA Developer Blogs

MXFP8(混合精度8位浮点)是NVIDIA专为AI计算设计的新格式,在控制精度的同时,极大节省了内存和算力。尤其对于Blackwell这类面向超大规模训练的架构,这种优化直接带来更短的训练周期和更经济的成本。

Cursor团队没有在原有基础上修修补补,而是选择从零构建MXFP8内核,采用全新的内核级重构策略。相比传统FP8,MXFP8在数据表达和缩放机制上做了深度适配,特别擅长Transformer中的矩阵运算。

Transformer层量化过程
Transformer层MXFP8量化过程示意图 | 图源:51CTO

MoE层是这次优化的最大赢家,速度整整提高了3.5倍。要知道,MoE可是当前大语言模型中的关键角色,它的效率直接决定了整个模型的训练表现。MXFP8借助更优的数据表达方式,在MoE的稀疏激活场景中表现尤其亮眼。

更难得的是,端到端的训练流程也实现了1.5倍的整体加速。这说明优化不只停留在某一层,而是系统性地覆盖了前向计算、反向传播、参数更新等所有环节。想象一下,训练一个千亿参数的模型,时间大幅缩短,云上开支自然省下一大笔。


Kimi K2高速版:每秒100 tokens,对话无需等待

月之暗面推出的Kimi K2 turbo-preview模型真正做到了“飞速响应”:稳定输出每秒60个token,峰值甚至冲上每秒100!它采用MoE架构,不仅数据处理高效,交互体验也流畅得让人惊喜。

Kimi K2速度对比图
Kimi K2 turbo-preview相比前代模型速度提升对比 | 图源:AI分享圈

这个速度是什么概念?基本上,你的问题刚问完,回复就一行行冒出来了,完全告别了以往那种“等AI慢慢想”的尴尬。背后是MoE架构在动态分配计算资源,既保质量,又拼速度。


多模态+3D,AI正在全面开花

InternLM推出的Intern-S1-mini多模态模型只有8B参数,却塞进了Qwen3-8B语言模型和0.3B视觉编码器InternViT。它用了超5万亿token做训练,其中一半还是科学领域数据——难怪理科推理这么强。

快手的可灵AI也没闲着,基于2.1模型的首尾帧功能效果直接飙升235%,解决了AI视频长镜头的老大难问题。现在做视频,你可以更精准地控制生成过程,创意空间更大了。

3D方面,VAST的Tripo 3.0已经服务了全球300万开发者,背后是4000万规模的数据集在支撑。更夸张的是清华和湾区数研院合作的GUAVA框架,一张照片、0.1秒,就能生成你的3D化身——这项技术已经敲开了ICCV2025的大门。


模型越做越小,能力越压越强

EI-BERT靠着知识蒸馏和参数共享这两把“利器”,把模型压缩玩出了新高度,刚拿了KDD 2025最佳论文Runner-Up。以后在手机、IoT设备上跑大模型,可能就靠它了。


这一波技术爆发,不只是算法理论的胜利,更是工程实践的大步前进。从底层计算架构到顶端应用体验,从训练效率到推理速度,AI正在以前所未有的节奏重塑我们的数字世界。


我是程序员Left,一名后端工程师,持续关注AI前沿与产业落地。全网同名,欢迎一起聊聊技术、聊聊未来。

本期话题:
当AI回复速度突破每秒100个token,人机交互会不会就像真人聊天一样自然?你会用它来做什么?在评论区放飞你的想象!

Categories:

Tags:

还没发表评论,快来发表第一个评论吧~

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注