GLM-4.1V开源碾压72亿模型！ | 百度MuseSteamer登顶SOTA | 富士康FoxBrain提效37%

作者 left

发布于 3 7 月, 2025

共计 0 个讨论

本期看点：
🚀 智谱AI开源了GLM-4.1V-Thinking多模态推理模型，小身材大智慧！
🎬 百度发布全球首个中文音视频生成模型MuseSteamer，画面音效一键搞定！
🧠 周志华团队证明大语言模型自带\"内在奖励\"，省了90%人工标注！
🏭 富士康推出繁体中文推理大模型FoxBrain，工业AI的新宠儿！
🏥 微软医疗AI系统MAI-DxO诊断准确率98.4%，医生都得竖大拇指！
💰 智谱AI获10亿元投资，加速冲向AGI！
🎤 开源语音大模型Step-Audio-AQAA发布，说话如真人般流畅！
🤖 京东JoyInside布局具身智能，意图识别92%准，机器人越来越懂你！

智谱AI开源GLM-4.1V-Thinking多模态推理模型：小体积大智慧

智谱AI最近开源了新一代视觉模型GLM-4.1V-Thinking，这家伙基于GLM-4V架构，新加了思维链推理机制。别看它参数只有9亿，轻巧得很，但在28项权威测试中，23项直接碾压了72亿参数的对手！它能处理图像、视频、文档等各种输入，尤其在长视频理解、学科解题和GUI Agent这些场景，表现简直亮眼。

图为GLM-4.1V-Thinking架构图 | 图源：AI智库导航

核心创新在哪儿？就是那个思维链推理机制，能让模型像人一样逐步推理复杂任务。AI工具集透露，它在长视频理解中的准确率冲到87.3%。这次开源一放出来，立马在医疗、教育圈炸开锅，大家直呼\"小模型大能量\"，未来应用遍地开花！

百度发布MuseSteamer视频生成模型：全球首个中文音视频协同生成AI

百度商业研发团队搞了个大新闻——全球首个中文音视频生成模型MuseSteamer，还配套上线了\"绘想\"创作平台。它在VBench I2V榜单上直接登顶SOTA，Turbo版本的速度更是快得离谱，每秒1.2帧响应，行业记录说破就破！

MuseSteamer演示视频
图为MuseSteamer生成的视频片段 | 图片来源：百度

最牛的地方？画面、音效和人声一键协同生成！扔张图片或一段文字进去，立马出高质量视频。百度大方宣布，Turbo版免费公测中，未来商业应用指日可待。想象一下，你的创意瞬间变大片，爽不爽？

南京大学周志华团队首次证明大语言模型内禀奖励模型存在

南京大学周志华团队最近甩出一篇论文，首次从理论上证明了大语言模型（LLM）自带\"内在奖励机制\"。这一发现给强化学习AI反馈（RLAIF）开了新路，比传统人类反馈（RLHF）省下90%人工标注！在数学推理任务中，模型准确率直接飙升18.7%，你说牛不牛？

周志华团队论文截图
图为相关论文截图 | 图片来源：南京大学

研究一出，学界和产业界都炸锅了。华为云CEO张平安公开点赞，说这技术已经在Pangu模型里小试牛刀，复杂推理任务表现蹭蹭上涨。看来，AI的\"内在驱动力\"真不是吹的！

富士康推出FoxBrain推理大模型：工业AI新标杆

富士康旗下鸿海研究院亮出首款繁体中文AI推理大模型FoxBrain，基于Meta Llama3.1优化，专攻数学推演和代码生成。工业仿真测试中，它的运算效率比老方法猛提37%，工业圈直呼\"黑科技来了\"！

图为FoxBrain模型结构图 | 图片来源：鸿海研究院

富士康放话，未来一年内开源FoxBrain，推动全球制造业普及。分析师们乐了，说这不仅提升富士康的科技范儿，还给工业AI落地立了新标杆。制造业的春天，要来了吗？

微软发布医疗AI系统MAI-DxO：诊断准确率98.4%，远超人类专家

微软推出模型无关的医疗诊断系统MAI-DxO，在《新英格兰医学杂志》病例测试中，准确率飙到98.4%，碾压人类专家82%的平均水平。更绝的是，单次诊断成本砍到传统方法的1/20，省钱又高效！

图为MAI-DxO诊断界面 | 图片来源：微软

微软赶紧澄清：这是辅助医生，不是取代医生！未来目标是整合进全球医疗体系，帮医生搞定疑难杂症。想象一下，AI当助手，医生省心又省力，完美搭档！

智谱AI获10亿元战略投资，加速AGI领域布局

浦东创投联手张江集团砸10亿投资智谱AI，全力冲刺通用人工智能（AGI）。这笔钱主要烧在GLM-4.1V等基础设施研发上，这模型在GitHub已攒了3万多星标，人气爆棚！

图为智谱AI团队合照 | 图片来源：智谱AI

这次融资被看作中国企业AGI路上的里程碑。GLM-4.1V再优化优化，智谱AI全球地位稳了。AGI梦想，离现实又近一步！

开源语音大模型Step-Audio-AQAA发布：端到端语音生成新标杆

Step-Audio团队开源了端到端语音模型Step-Audio-AQAA，词错率压到2.3%，推理延迟控制在300毫秒内，说话流畅得像真人聊天！

图为Step-Audio-AQAA架构图 | 图片来源：Step-Audio团队

端到端设计省掉多阶段流程，语音自然度飙升。团队下一步野心更大：推多语言版，搞跨模态语音生成。未来打电话，你可能分不清是AI还是真人！

京东JoyInside加速布局具身智能，意图识别准确率92%

京东旗下AI品牌JoyInside在具身智能上火力全开，大模型驱动的交互系统在服务机器人场景中，意图识别准确率冲到92%，比上一代猛提40%。机器人越来越懂你心思！

图为JoyInside机器人展示 | 图片来源：京东

JoyInside已牵手十余家机器人企业，覆盖清洁、物流、家庭陪护等场景。目标？2025年底前准确率突破95%。机器人管家时代，真要来了！

作者：程序员Left（全网同名）
职位：后端工程师
创作方向：AI前沿科技内容

本期讨论：AI技术的突破里，你最看好哪一项落地应用？赶紧在评论区聊聊你的神预测吧！

Categories:

AI科技日报

Tags:

No Tag

GLM-4.1V开源碾压72亿模型！ | 百度MuseSteamer登顶SOTA | 富士康FoxBrain提效37%

智谱AI开源GLM-4.1V-Thinking多模态推理模型：小体积大智慧

百度发布MuseSteamer视频生成模型：全球首个中文音视频协同生成AI

南京大学周志华团队首次证明大语言模型内禀奖励模型存在

富士康推出FoxBrain推理大模型：工业AI新标杆

微软发布医疗AI系统MAI-DxO：诊断准确率98.4%，远超人类专家

智谱AI获10亿元战略投资，加速AGI领域布局

开源语音大模型Step-Audio-AQAA发布：端到端语音生成新标杆

京东JoyInside加速布局具身智能，意图识别准确率92%

还没发表评论，快来发表第一个评论吧~

发表回复取消回复

近期文章

GLM-4.1V开源碾压72亿模型！ | 百度MuseSteamer登顶SOTA | 富士康FoxBrain提效37%

智谱AI开源GLM-4.1V-Thinking多模态推理模型：小体积大智慧

百度发布MuseSteamer视频生成模型：全球首个中文音视频协同生成AI

南京大学周志华团队首次证明大语言模型内禀奖励模型存在

富士康推出FoxBrain推理大模型：工业AI新标杆

微软发布医疗AI系统MAI-DxO：诊断准确率98.4%，远超人类专家

智谱AI获10亿元战略投资，加速AGI领域布局

开源语音大模型Step-Audio-AQAA发布：端到端语音生成新标杆

京东JoyInside加速布局具身智能，意图识别准确率92%

还没发表评论，快来发表第一个评论吧~

发表回复 取消回复

近期文章

发表回复取消回复