由于参数规模和功耗的原因,所有重量级的大模型必然部署在云端,但是,在本地部署参数较小的轻量级大模型的需求同样相当迫切。因为,在智能电动汽车这么一个移动智能空间里,多模态交互的需求正在日益上升,而基于小模型开发的人车交互方式在理解和感知能力上存在明显的不足。
在2023年的华为开发者大会上, 华为的技术专家介绍了大模型带来的两个关键能力的根本性提升-超强的理解能力和超强的生成能力。
人车交互体验的关键恰恰取决于理解和生成能力,依靠多模态的理解和生成,可以处理和生成多种类型数据的大模型,可以提供更丰富、更真实的体验和应用,实现更接近于人类的自然感知和交互方式。
OpenAI首席运营官Brad Lightcap也曾经表达过类似的观点:“为了更好地模仿人类的感知和交互方式,AI模型需要能够处理和生成多种类型的数据。整合多种模态的大模型可以提供更丰富和更真实的体验和应用,以及更接近于人类的自然感知和交互方式。”
图片来源:华为
大模型时代来了,有必要通过大模型技术重新部署多模态交互。不过,出于实时性的要求以及对用户隐私数据的保护,用于多模态感知的大模型必须部署在端侧,换言之,端侧部署的多模态感知大模型将成为已经内卷到冒火星子的智能电动车企下一阶段的重量级战场。
但是,由于多模态感知的复杂性以及功耗、推理速度、内存资源、芯片算力的限制,在端侧部署大模型绝非易事。
第一步,需要面向车端多模态交互的场景和需求,在具备多模态感知能力的云端大模型的基础上进行微调训练,比如开源方案中的Llama便具备多模态能力,作为模型家族的盘古大模型或文心一言,也可以通过训练不同模态的数据微调出满足人车交互应用场景的多模态感知大模型。
第二步,需要根据车端的算力,通过量化、剪枝和蒸馏的方式,将参数量在几百亿级别云端大模型压缩成参数量在几十亿级别的轻量级大模型。
真正的挑战在第二步。决定芯片能否运行大模型的因素有很多,包括模型的大小、终端的运算能力、内存大小和内存带宽等,但主要因素是计算芯片的NPU算力。
目前算力最强的座舱芯片是高通骁龙8295,旗舰版NPU算力为30TOPS,运行几十亿参数的轻量级大模型会很吃力,高性能版采用双NPU,算力可达60TOPS,初步具备运行几十亿参数级别的轻量级大模型的能力。
不过,在车端运行大模型进行多模态感知,还有一个非常重要的指标:实时性或反应速度,这会进一步提高对芯片算力的需求。这种硬性限制,使得目前国内部署端侧多模态感知大模型的车企寥寥无几,透露过相关消息的只有蔚来汽车。
在发布2024款车型时,蔚来汽车宣布,基于中央计算平台的超强算力和跨域共享能力,即将上线的NOMI GPT将部署“全球首个汽车端侧多模态感知大模型”。
下一个部署端侧多模态感知大模型的可能是华为系车企和理想汽车,在2023年的华为开发者大会上,华为的技术专家就展示过在眼手交互、手势交互上的造诣和实力。
图片来源:华为
经常被调侃以“冰箱、彩电、大沙发”打天下的理想汽车是首批提出“智能空间”概念的车企之一,它在视觉感知,语音感知、和多模态上也有很深的造诣。理想MEGA和2024款L系车型Ultra版本采用算力高达60TOPS的高性能版高通骁龙8295,并搭载两组IR传感器和六组双麦阵列式麦克风,也透露了理想汽车将在多模态感知上发力的蛛丝马迹。