本期看点:

🤖 Google DeepMind推出端侧Gemini模型:机器人实现无云端实时推理,开启自主运行新时代。
📐 中科院自动化所发布SolidGeo基准:挑战多模态大模型的三维空间理解能力。
💡 DeepMind发布Gemini2.5Flash-Lite:实时界面生成模型革新交互式AI体验。
🏆 中科院与字节Seed提出BridgeVLA:3D视觉语言对齐新范式在CVPR 2025夺冠。
🧠 陈丹琦团队优化LLM内存方案:关键缓存技术降低大模型内存占用40%。
🎮 RTX 5090显卡改装击败专业卡:硬件改造的胜利引发行业热议。


Google DeepMind推出端侧Gemini模型:机器人实现无云端实时推理

Google DeepMind近日发布了一款名为Gemini Robotics On-Device的端侧AI模型,该模型可在机器人设备上独立运行,无需依赖云端即可完成实时推理任务。这一技术突破标志着端侧AI框架在机器人领域的重大进展。

Google DeepMind发布的Gemini Robotics模型
图为Google DeepMind发布的Gemini Robotics模型 | 图源:TechCrunch

Gemini Robotics On-Device是一款视觉-语言-动作(VLA)模型,能够在机器人设备上实现完全自主的实时推理。据Google DeepMind介绍,该模型通过本地化处理,显著降低了延迟,同时保持了与云端模型相近的性能水平。在基准测试中,其表现接近此前发布的混合架构Gemini Robotics模型,且在多项任务中优于其他端侧模型。开发者可通过配套的软件开发工具包(SDK),利用50至100次的任务演示对模型进行微调,使其适应新的环境和任务需求。

目前,该模型的应用场景涵盖工业机器人和家庭服务机器人,例如在无网络环境下完成高精度装配任务或快速响应用户指令。Google DeepMind机器人负责人Carolina Parada表示:“通过端侧模型,机器人能够更灵活地应对新环境,而无需依赖云端计算资源。”


中科院自动化所推出立体几何推理基准SolidGeo

中国科学院自动化研究所近日发布了首个立体几何推理基准SolidGeo,旨在系统评估多模态大模型(MLLM)在三维空间理解能力上的表现。这一突破性研究填补了现有算法在空间推理领域的空白。

立体几何推理基准SolidGeo示意图
图为立体几何推理基准SolidGeo的测试框架 | 图源:Nature

SolidGeo基准通过设计一系列复杂的几何问题,如空间关系推理、几何变换预测等,全面测试模型的空间认知能力。其独特之处在于专注于几何推理,为多模态大模型提供了一个全新的测试平台。未来,该技术有望应用于自动驾驶、机器人导航和虚拟现实等领域,推动AI系统的智能化水平。


DeepMind发布Gemini2.5Flash-Lite:实时界面生成模型革新交互式AI

Google DeepMind近日发布了Gemini2.5Flash-Lite,一款专注于实时界面生成的AI模型。该模型能够根据用户交互动态生成UI代码,实现毫秒级响应,标志着交互式AI技术迈入新阶段。

Gemini2.5Flash-Lite模型演示
图为Gemini2.5Flash-Lite模型演示 | 图源:Ars Technica

Gemini2.5Flash-Lite的核心优势在于其高效的实时处理能力,其响应时间控制在毫秒级别。该技术的实现依赖于其优化的框架层设计,结合了多模态理解和代码生成能力。据TechCrunch报道,Gemini2.5Flash-Lite的SDK已同步发布,开发者可通过50至100次演示训练模型适应新任务。

未来,该模型或将成为智能设备、工业自动化等领域的重要工具。DeepMind机器人负责人Carolina Parada表示:“我们正在通过SDK与开发者合作,逐步降低潜在风险。”


中科院与字节Seed联合提出3D VLA新范式BridgeVLA

在CVPR 2025 workshop上,中科院与字节Seed联合提出的3D视觉语言对齐(3D VLA)新范式BridgeVLA凭借其创新的多模态对齐架构,夺得冠军。

BridgeVLA模型架构示意图
图为BridgeVLA模型架构示意图 | 图源:CVPR官方

BridgeVLA通过动态桥接模块(Dynamic Bridge Module),实现了3D点云数据与自然语言的高效对齐。在CVPR 2025 workshop的评测中,其3D视觉问答(3D-VQA)任务的准确率达到了89.7%,较上一代模型提升了12.3个百分点。未来,该技术有望应用于自动驾驶和智能机器人导航等领域。


陈丹琦团队提出LLM内存优化方案

陈丹琦团队近日提出了一项名为“Cache Me If You Can”的大语言模型(LLM)内存优化方案,通过关键缓存捕获技术,成功将大模型的内存占用降低了40%。

陈丹琦团队提出的LLM内存优化方案示意图
图为陈丹琦团队提出的LLM内存优化方案示意图 | 图源:Medium

该技术的核心在于智能识别和缓存高频访问的数据块,从而避免重复计算和内存浪费。实验数据显示,在标准测试集上,该技术将内存占用降低了40%,同时保持了模型的性能不变。未来,该方案或将在云计算和边缘计算领域实现商业化应用。


外国开发者改装RTX 5090显卡击败专业卡

一名海外开发者通过硬件改造成功将消费级RTX 5090显卡性能提升至超越专业级RTX Pro 6000的水平,引发科技圈广泛关注。

改装后的RTX 5090显卡
图为改装后的RTX 5090显卡 | 图源:VideoCardz

通过对供电模块和散热系统的优化,改造后的显卡性能提升幅度高达30%。这一成果不仅挑战了专业显卡的市场定位,也为高性能计算领域带来了新的可能性。


这里是程序员Left,后端工程师,专注分析AI前沿技术和产业动态。全网同名,持续为开发者提供深度行业洞察!

本期讨论:端侧AI模型的普及将如何改变机器人的应用场景?欢迎分享你的思考!

Categories:

Tags:

还没发表评论,快来发表第一个评论吧~

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注