本期看点:
🧠 抖音SAIL-VL2多模态模型:2B参数“小钢炮”全面超越闭源竞品
🎬 潞晨科技Open-Sora 2.0入选全球权威《State of AI Report 2025》,中国AI视频生成实现\"并跑\"突破


抖音SAIL-VL2多模态模型:2B参数“小钢炮”全面超越闭源竞品

别被“2B”这个数字骗了——抖音SAIL团队联合新加坡国立大学LV-NUS实验室推出的SAIL-VL2,是个不折不扣的“小钢炮”。参数不多,火力全开,在MMMU、MathVista等106项基准测试里,愣是把Gemini Nano、Claude Haiku这些闭源巨头打得满地找牙。

SAIL-VL2模型架构图
SAIL-VL2模型架构与工作流程示意图 | 图源:知乎

它的秘密武器叫“动态视觉Token压缩”——听着像学术黑话,其实就是给图像信息做“智能瘦身”,砍掉40%计算开销,语义却一点没丢。更狠的是“视觉思维链”模块:AI像人一样思考——先看图表走势,再结合文字描述,最后给出结论。多跳推理准确率直接起飞。

这玩意儿已经在抖音内部上岗了,干的是AIGC审核和电商图文理解的活儿。以后你发个带货视频,AI不仅能认出画面里的口红是哪个色号,还能读懂你文案里“买一送三”的套路,甚至能揪出那些靠滤镜把土豆拍成牛油果的“诈骗现场”。火山引擎下一步要开放API,中小商家估计得连夜重做营销方案了。


潞晨科技Open-Sora 2.0入选全球权威《State of AI Report 2025》,中国AI视频生成实现\"并跑\"突破

当硅谷还在为Sora 2的版权官司吵得鸡飞狗跳,北京的潞晨科技已经悄悄把Open-Sora 2.0送进了《State of AI Report 2025》的名人堂。这份由Nathan Benaich和Ian Hogarth操刀的报告,堪称AI界的“奥斯卡提名名单”,能上榜的,都是狠角色。

State of AI Report 2025封面
图为《State of AI Report 2025》报告封面 | 图源:The Gradient

Open-Sora 2.0的杀手锏是“时空解耦扩散架构”——简单说,就是把视频生成拆成“单帧画质”和“帧间连贯性”两个维度,分别打磨。结果?1080p/60帧丝滑长视频,物理规律比某些好莱坞大片还靠谱。最绝的是,训练数据全用公开版权素材,法律雷区直接绕开,让OpenAI的“选择加入”策略显得像临时打补丁。

报告里那句“从追赶进入并跑阶段”,真不是场面话。Runway Gen-3 Alpha和Pika 1.0背后是硅谷烧不完的钱,而潞晨作为中国团队,靠开源策略硬生生撕开一条口子。现在全球开发者都能免费调用这个接近商业级水准的模型——VC们突然意识到:AI军备竞赛的胜负手,可能不在闭源黑箱里,而在GitHub的星标数上。


这里是程序员Left,后端工程师,专注分析AI前沿技术和产业动态。全网同名,持续为开发者提供深度行业洞察!

本期讨论:当开源模型开始吊打闭源产品,你会把下一个项目押注在哪个阵营?来聊聊你的技术选型逻辑!

Categories:

Tags:

还没发表评论,快来发表第一个评论吧~

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注