本期看点:
🚀 智谱AI开源了GLM-4.1V-Thinking多模态推理模型,小身材大智慧!
🎬 百度发布全球首个中文音视频生成模型MuseSteamer,画面音效一键搞定!
🧠 周志华团队证明大语言模型自带\"内在奖励\",省了90%人工标注!
🏭 富士康推出繁体中文推理大模型FoxBrain,工业AI的新宠儿!
🏥 微软医疗AI系统MAI-DxO诊断准确率98.4%,医生都得竖大拇指!
💰 智谱AI获10亿元投资,加速冲向AGI!
🎤 开源语音大模型Step-Audio-AQAA发布,说话如真人般流畅!
🤖 京东JoyInside布局具身智能,意图识别92%准,机器人越来越懂你!


智谱AI开源GLM-4.1V-Thinking多模态推理模型:小体积大智慧

智谱AI最近开源了新一代视觉模型GLM-4.1V-Thinking,这家伙基于GLM-4V架构,新加了思维链推理机制。别看它参数只有9亿,轻巧得很,但在28项权威测试中,23项直接碾压了72亿参数的对手!它能处理图像、视频、文档等各种输入,尤其在长视频理解、学科解题和GUI Agent这些场景,表现简直亮眼。

GLM-4.1V-Thinking架构图
图为GLM-4.1V-Thinking架构图 | 图源:AI智库导航

核心创新在哪儿?就是那个思维链推理机制,能让模型像人一样逐步推理复杂任务。AI工具集透露,它在长视频理解中的准确率冲到87.3%。这次开源一放出来,立马在医疗、教育圈炸开锅,大家直呼\"小模型大能量\",未来应用遍地开花!


百度发布MuseSteamer视频生成模型:全球首个中文音视频协同生成AI

百度商业研发团队搞了个大新闻——全球首个中文音视频生成模型MuseSteamer,还配套上线了\"绘想\"创作平台。它在VBench I2V榜单上直接登顶SOTA,Turbo版本的速度更是快得离谱,每秒1.2帧响应,行业记录说破就破!

MuseSteamer演示视频
图为MuseSteamer生成的视频片段 | 图片来源:百度

最牛的地方?画面、音效和人声一键协同生成!扔张图片或一段文字进去,立马出高质量视频。百度大方宣布,Turbo版免费公测中,未来商业应用指日可待。想象一下,你的创意瞬间变大片,爽不爽?


南京大学周志华团队首次证明大语言模型内禀奖励模型存在

南京大学周志华团队最近甩出一篇论文,首次从理论上证明了大语言模型(LLM)自带\"内在奖励机制\"。这一发现给强化学习AI反馈(RLAIF)开了新路,比传统人类反馈(RLHF)省下90%人工标注!在数学推理任务中,模型准确率直接飙升18.7%,你说牛不牛?

周志华团队论文截图
图为相关论文截图 | 图片来源:南京大学

研究一出,学界和产业界都炸锅了。华为云CEO张平安公开点赞,说这技术已经在Pangu模型里小试牛刀,复杂推理任务表现蹭蹭上涨。看来,AI的\"内在驱动力\"真不是吹的!


富士康推出FoxBrain推理大模型:工业AI新标杆

富士康旗下鸿海研究院亮出首款繁体中文AI推理大模型FoxBrain,基于Meta Llama3.1优化,专攻数学推演和代码生成。工业仿真测试中,它的运算效率比老方法猛提37%,工业圈直呼\"黑科技来了\"!

FoxBrain模型结构图
图为FoxBrain模型结构图 | 图片来源:鸿海研究院

富士康放话,未来一年内开源FoxBrain,推动全球制造业普及。分析师们乐了,说这不仅提升富士康的科技范儿,还给工业AI落地立了新标杆。制造业的春天,要来了吗?


微软发布医疗AI系统MAI-DxO:诊断准确率98.4%,远超人类专家

微软推出模型无关的医疗诊断系统MAI-DxO,在《新英格兰医学杂志》病例测试中,准确率飙到98.4%,碾压人类专家82%的平均水平。更绝的是,单次诊断成本砍到传统方法的1/20,省钱又高效!

MAI-DxO诊断界面
图为MAI-DxO诊断界面 | 图片来源:微软

微软赶紧澄清:这是辅助医生,不是取代医生!未来目标是整合进全球医疗体系,帮医生搞定疑难杂症。想象一下,AI当助手,医生省心又省力,完美搭档!


智谱AI获10亿元战略投资,加速AGI领域布局

浦东创投联手张江集团砸10亿投资智谱AI,全力冲刺通用人工智能(AGI)。这笔钱主要烧在GLM-4.1V等基础设施研发上,这模型在GitHub已攒了3万多星标,人气爆棚!

智谱AI团队合照
图为智谱AI团队合照 | 图片来源:智谱AI

这次融资被看作中国企业AGI路上的里程碑。GLM-4.1V再优化优化,智谱AI全球地位稳了。AGI梦想,离现实又近一步!


开源语音大模型Step-Audio-AQAA发布:端到端语音生成新标杆

Step-Audio团队开源了端到端语音模型Step-Audio-AQAA,词错率压到2.3%,推理延迟控制在300毫秒内,说话流畅得像真人聊天!

Step-Audio-AQAA架构图
图为Step-Audio-AQAA架构图 | 图片来源:Step-Audio团队

端到端设计省掉多阶段流程,语音自然度飙升。团队下一步野心更大:推多语言版,搞跨模态语音生成。未来打电话,你可能分不清是AI还是真人!


京东JoyInside加速布局具身智能,意图识别准确率92%

京东旗下AI品牌JoyInside在具身智能上火力全开,大模型驱动的交互系统在服务机器人场景中,意图识别准确率冲到92%,比上一代猛提40%。机器人越来越懂你心思!

JoyInside机器人展示
图为JoyInside机器人展示 | 图片来源:京东

JoyInside已牵手十余家机器人企业,覆盖清洁、物流、家庭陪护等场景。目标?2025年底前准确率突破95%。机器人管家时代,真要来了!


作者:程序员Left(全网同名)
职位:后端工程师
创作方向:AI前沿科技内容

本期讨论:AI技术的突破里,你最看好哪一项落地应用?赶紧在评论区聊聊你的神预测吧!

Categories:

Tags:

还没发表评论,快来发表第一个评论吧~

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注