而绝影在智驾领域多年的探索,也形成了一系列工程化的量产方案;
尤为值得关注的是,这次发布的世界模型「开悟」。
目前,各大头部主机厂和Tier 1都在探索和研发世界模型,但还并没有特别成熟的产品问世。世界模型通过生成高质量仿真数据,推动端到端智能驾驶的发展。
「开悟」可以说是第一个产品化的,并且将向汽车行业开放的世界模型。
商汤绝影CEO、商汤科技联合创始人、首席科学家王晓刚表示,基于世界模型,绝影打造出了真实数据和仿真数据的「双轮驱动」闭环,构建了车云一体的新范式。
目前绝影的智驾方案,已量产交付广汽埃安、一汽红旗等3家车企6款车型。
发布会上,商汤绝影还正式宣布与大卓智能、东风汽车等合作伙伴签订战略合作协议,在高阶智驾量产、端到端量产、AI云服务、AI大模型等领域开展全方位的深度合作。
商汤绝影的AI大模型与端到端方案量产,正式拉开序幕。
一、让座舱拥有「有趣的灵魂」在智能座舱领域,商汤绝影一直是量产的领跑者。
据第三方数据,绝影座舱视觉AI软件市场份额连续5年位列行业第一,市面上你能看到的绝大部分智能车大概率都搭载了商汤绝影的座舱技术,比如蔚来、乐道、极氪、智己、小米等等。
座舱大模型从单模态走向多模态也是必然趋势。而在这次发布会上,绝影抛出了一个有趣的产品化新思路:汽车是否可以拥有「灵魂」,并最终融入用户家庭,成为一位「新成员」。
以往的车机交互,主要是工具导向,为用户提供基础的信息查询和问题解答服务;但在智能化时代,它应该能学习、进化,提供更主动,更懂用户的服务。
沿着这种思路,商汤绝影打造了「A New Member For U」(你的家庭新成员),让智能汽车能够察言观色,时刻准备着主动提供专属服务,就像车主身边的家庭新成员。
例如,在旅途中后排孩子睡着了,智能座舱会主动调高空调温度、降低音乐音量,同时把底盘和驾驶模式调整为舒适模式,给小朋友一个舒适安心的休憩环境。
更重要的是,整个过程不需要用户挨个下指令,而是它观察、思考和推理之后提供主动的服务。
王晓刚介绍,这位「家庭新成员」背后,商汤绝影研发了三大核心框架:
- 原生流式多模态大模型;
- 类人记忆框架;
- Always-on持续运行框架;
原生流式多模态大模型能够综合理解文本、图像、音频、视频、3D等信息模态,包括人的表情、语气等,做到全场景的多模态感知。
商汤绝影还针对车载场景进行定制,融合车端感知数据、车端场景,进行针对性训练。
在全面感知的基础上,模型可以进行深度理解和推理思考,具备理解世界、理解人类的能力。
要让汽车拥有「灵魂」,就必须要有「记忆」,这是人类认知能力的基础。
王晓刚表示,有了「记忆」,车辆才能与你会产生默契,不断成长,直到与用户心有灵犀。类人记忆框架,也是商汤绝影这一座舱解决方案重要的差异化技术。
它与人类的记忆机制相似,拥有临时记忆、长期记忆和场景记忆,三者结合让系统实现类人的记忆能力。
临时记忆,能记得一些瞬时信息,比如车里的物品、人的搭配、有没有系安全带等。
长期记忆,就像是一个档案库,存储着用户的基本信息、行为模式和偏好等,并且能自我迭代,能从用户长期使用中总结规律并不断优化。
场景记忆可以从临时记忆和长期记忆中提取重要信息,对这些信息实时处理和分析,作出决策或者解决问题。
最后是持续运行框架,它能够将多模态感知到的信息与各种记忆相结合,进行高效的处理和反馈,做到时刻感知需求,主动为用户服务。
据介绍,「家庭新成员」的系统数据延迟控制在1毫秒以内,端侧也能快速响应,目前首包耗时最短仅需60毫秒,推理速度40 Tokens/秒。它的反应速度可能比人还要快。
这次「家庭新成员」产品的发布,不仅是商汤绝影AI大模型算法的一次集中展示,也展现了它对AI产品化的深度思考。
二、端到端智驾量产大潮继无图城市NOA之后,端到端智驾已经成为智驾领域确定性的技术趋势,也是当前车企在智驾传播上的热点。
作为AI领域的龙头公司,商汤绝影也是当仁不让。
绝影AI Day全面展示其多阶的量产方案,包括基于地平线J6E/J6M、英伟达Orin/Thor等不同算力平台打造的基础智驾方案、全场景高阶智驾、端到端智驾等绝影量产智驾产品体系,并正式发布基于UniAD打造的绝影量产端到端智驾方案AD Ultra。
基于地平线J6E和J6M两个平台,商汤绝影已经打造了AD Pro和AD Max两个量产智驾方案,其中AD Max能够实现城区无图NOP。J6平台的智驾方案,预计明年2季度就会量产交付。
王晓刚介绍,绝影的UniAD纯视觉端到端方案,无图、无激光雷达,仅需1个毫米波雷达和11个摄像头,跑在200T算力平台上,就能够实现一段式端到端智驾,实现「类人」驾驶体验。
早在2022年,商汤及联合实验室提出行业首个感知决策一体化的自动驾驶通用模型UniAD,并荣获CVPR 2023最佳论文。
UniAD将感知、决策、规划等模块都整合到一个全栈Transformer端到端模型,实现感知决策一体化的端到端智能驾驶。2024年北京车展,商汤绝影也展出了这一方案的阶段性成果。
据HiEV了解,目前该方案已经在上海城区demo运行。
基于前述的高阶智驾方案,商汤绝影已经与大卓智能、东风汽车等达成战略合作,推进量产交付。
凭借在大模型技术上的积累,商汤绝影正在向智驾第一梯队发起冲击。但如果只是拿出又一个端到端方案,可能无法满足市场的期待。所以,面对端到端智驾长期持续的技术提升,商汤绝影还祭出了另一项绝招——世界模型。
三、汽车大模型之战,决战在云端本次发布会上,商汤绝影亮相的最为重磅的产品,是「开悟」世界模型。
如果说,座舱和智驾因为用户感知最明显,很多车企希望将其掌握在自己手中,那世界模型,就是商汤绝影给车企发出的最无法拒绝的邀请。
端到端大模型方案,能够直接从原始传感器数据中学习驾驶策略,减少了对传统模块化系统的依赖。但这种方案对高质量数据的需求极高,而且数据需要随着模型的更新,不断训练迭代,其中的技术和成本要求都非常高。