还有一个信息,理想汽车将在7月内为用户推送全自动AES和全方位低速AEB功能。
什么是AES功能?理想汽车解释为“自动紧急转向功能”。
在车辆行驶速度较快时,主动安全系统的反应时间极短,在部分情况下即使触发AEB,车辆全力制动仍无法及时刹停。此时,AES功能将被及时触发,无需人为参与转向操作,自动紧急转向,避让前方目标,有效避免极端场景下的事故发生。
而低速AEB功能则主要针对泊车和低速行车场景。在复杂的地库停车环境中,立柱、行人和其他车辆等都会增加剐蹭风险,该低速AEB能够识别前向、后向和侧向的碰撞风险,并及时紧急制动。
诺贝尔奖得主丹尼尔·卡尼曼有一套快慢系统理论,人的思考分为快系统、慢系统。
快系统,即系统1,善于处理简单任务,是人类基于经验和习惯形成的直觉,足以应对驾驶车辆时95%的常规场景。
慢系统,即系统2,是人类通过更深入的理解与学习,形成的逻辑推理、复杂分析和计算能力,在驾驶车辆时用于解决复杂甚至未知的交通场景,占日常驾驶的约5%。
理想汽车自动驾驶算法架构,就是基于快慢系统理论形成的:系统1由端到端模型实现,特点是高效、快速,由端到端模型接收传感器输入,并直接输出行驶轨迹用于控制车辆;系统2由VLM视觉语言模型实现,在接收传感器输入后,经过逻辑思考,输出决策信息给到系统1。
这就形成了快与慢的配合,智驾系统更接近于人的思考习惯。
先说什么是端到端模型?
端到端模型的输入,主要由摄像头和激光雷达构成。这相当于是多传感器的配合,那么,该信息特征经过CNN主干网络的提取、融合后,再投影至BEV空间。为提升模型的表征能力,理想汽车设计了记忆模块,兼具时间和空间维度的记忆能力。
另外,在模型的输入中,理想汽车还加入了车辆状态信息和导航信息,经过Transformer模型的编码,与BEV特征共同解码出动态障碍物、道路结构和通用障碍物,并规划出行车轨迹。
同时,由于中间没有规则介入,因此端到端模型在信息传递、推理计算、模型迭代上均具有显著优势。
所以,在实际驾驶中,端到端模型可以展现出更强大的通用障碍物理解能力、超视距导航能力、道路结构理解能力,以及更拟人的路径规划能力。
再说什么是VLM视觉语言模型?
VLM视觉语言模型的算法架构由一个统一的Transformer模型组成,将Prompt(提示词)文本进行Tokenizer(分词器)编码,并将前视相机的图像、导航地图信息进行视觉信息编码,再通过图文对齐模块进行模态对齐,最终统一进行自回归推理,输出对环境的理解、驾驶决策和驾驶轨迹,传递给系统1辅助控制车辆。
要理解复杂的物理世界,VLM视觉语言模型参数量要达到一定的量级,理想汽车提供了22亿。所以,VLM模型的功能也比较强大,既可以识别路面平整度、光线等环境信息,以提示系统1控制车速,并具备较强的导航地图理解能力,以配合车机系统修正导航,预防驾驶时走错路线。同时,VLM模型还可以理解公交车道、潮汐车道和分时段限行等复杂的交通规则,在驾驶中作出合理决策。