2024泰达论坛李晓华：多模态大模型打造下一代座舱大脑

时间：2024-09-03 17:15 来源：盖世汽车编辑：兰心雪阅读量：16065

由中国汽车技术研究中心有限公司、中国汽车工程学会、中国汽车工业协会、中国汽车报社共同主办，天津经济技术开发区管理委员会特别支持，日本汽车工业协会、德国汽车工业协会、中国汽车动力电池产业创新联盟、新能源汽车国家大数据联盟联合协办的第二十届中国汽车产业发展国际论坛(以下简称“泰达汽车论坛”)于2024年8月29日至9月1日在天津滨海新区举办。本届论坛以“风雨同舟二十载携手并肩向未来”为年度主题，邀请重磅嘉宾展开深入研讨。

在9月1日“科技生态方向圆桌论坛一:20年新引擎——深化人工智能技术的垂直化应用”中，商汤绝影创新中心高级总监李晓华发表题为“多模态大模型打造下一代座舱大脑”的演讲。

商汤绝影创新中心高级总监李晓华

以下为演讲实录:

大家上午好！我是来自商汤绝影的李晓华。大模型在车领域，无论是大语言模型还是多模态模型，都带来了许多新的体验。

首先，我想播放一个小视频，来展现多模态大模型在车行业中所带来的全新体验。

刚刚播放的这个视频主要展示了多模态大模型如同一个助手，时刻关注着座舱内以及车外发生的事情。例如，它能判断车辆是否在公交车道行驶，是否有交警指挥，并能给出更好的建议。

接下来，我将为大家介绍一张多模态大模型的业务图。我们可以将这张图分为三层，最下面一层橙色部分是模型层，其中包括车端侧的模型和云端的模型。车端侧的模型可根据需求部署 2.1B、8B等规模的模型，用于进行端侧的多模态大模型推理。

在云端，则可以部署更大规模的模型，如 20B、100多B的模型。此外，云端除了多模态大模型外，还包括一些其他云类模型，如车书、医疗方面的模型，这些都适用于车领域的场景。上面蓝色部分是引擎层，考虑到底层模型，包括记忆、推理框架等，使用起来相对复杂，因此我们构建了引擎层。引擎层主要有两个产品:

第一个是座舱大脑，它主要有以下几个能力:

1.能够很好地感知座舱内的情况，例如识别人的穿着、性别，细致观察座舱内的细节特征，包括物品，如手机、宠物、帽子、眼镜等，都能识别出来。

3.能够进行环境推理和意图推理，例如识别出两个人在交流、在讨论高兴的事情等。

4.具有跨时空的记忆能力，能够很好地记住座舱内的人员以及共同经历的事情。就像刚才的 Demo 中第一个场景提到的 “去我们上次去的那个咖啡馆”，它能记住上次与谁一起去的咖啡馆，并且能识别出这次的人员是否与上次相同，这种能力可以作为座舱内产品的输出。

第二个产品是全时驾驶辅助，它利用多模态大模型的能力感知车外场景，包括道路条件，如是否有积水、挖坑、道路是否坑洼等，并能做出相应推荐，例如车辆应如何调节以适应路况，以及光照、逆光等情况，它都可以作为行驶策略的辅助。此外，它还能提供决策辅助，感知周围路况，如识别出众多电动车、路边摊贩、救护车等，并做出决策辅助。最后，它还能提供一些判断条件，包括司机的状态、通行障碍等。这个产品主要感知车外能力，为驾驶提供辅助推荐。

接下来，我想讲一下大模型在座舱合作的模式。首先，在部署方面，我们刚才提到可以部署在纯云端，也可以采用端和云结合的方式。云端可以通过自研的推理框架，支持 100 多个算子库，能够高效地进行端侧模型计算。在生态开发方面，可以实现服务应用的便捷开发，并且通过安全沙箱实现端侧与云侧隐私安全的隔离。下一步是持续更新，通过数据闭环，将用户反馈的数据通过闭环进行训练，通过私有化的 SFT 进行微调，以加强大模型的能力。最后，在合作模式上，我们前面介绍过，从模型层、产品引擎层到上层的应用层，都可以进行不同方式的合作。

最后，我想谈一谈车类产品离不开芯片平台的支持。在过去的一年，我们在高通、英伟达的 Orin 基础上完成了端侧框架的联调适配。今年，我们主要在 MTK8678 平台上进行模型算子的调节。后面，我们还会在英伟达的 Sora、Intel 等芯片上进行多模态模型的部署。

今天我的分享就到这里，谢谢大家！

郑重声明：此文内容为本网站转载企业宣传资讯，目的在于传播更多信息，与本站立场无关。仅供读者参考，并请自行核实相关内容。