技术与资本的竞争:大车型的出现对自动驾驶意味着什么?

日期:2023-07-08 17:51:59 / 人气:237

| |WAIC观察编辑|吴阳宇ChatGPT的出现后,大模型在人工智能领域的地位进一步提升。很多AI应用方向已经开始寻求与大模型的结合,以争取更高效的产品落地流程,自动驾驶也不例外。7月6日至8日,2023世界人工智能大会在上海举行。在“AI与车内新一代智能感知创新论坛”上,大模型成为学术界和业界的共同话题。清华大学计算机系教授、清华大学人工智能研究院视觉智能研究中心主任邓志东从底层技术的角度提出了大模型“云-边-端”的自动驾驶部署框架,以“ChatGPT/GPT”为云,以垂直BEV(鸟瞰图)中的多模态GPT为边,以局部自主和传感器执行为移动端。其中,云被理解为具有知识理解、预测和决策能力的“大脑”,边缘被理解为进行动态感知和理解的视觉智能。邓志东认为,整个过程中最大的挑战是如何建立一个垂直的多模式GPT。对此,他表示,自动驾驶算法可以设置为一系列任务,包括感知、预测、决策/调节三个主要任务,以及环境监测、在线地图绘制、多轨迹预测、网格占用预测等一级任务(序列模块)。解决这些任务有三条路径:第一条路径是设置多任务,进行联合预训练,但如果这条路径是以弱人工智能的方式操作,比如不通过语言建模将这一系列数据模块串联起来,就可能缺乏语言智能;第二条路径是建立自己的多模态通用模型。“但我觉得这件事很有挑战性,因为我觉得我们现在在中国最大的任务是如何赶上ChatGPT,做出我们自己的GPT 4.0。”他说,“这已经很棒了,但也很难,目标也很远大。”第三种方法是使用现有的ChatGPT/GPT 4.0构建您自己的垂直多模态GPT。邓志东说,这种“不完美”的通用语言模型可以作为“骨头”,能力作为“云”,通过对通用语言模型的微调(知识转移),在云上做一个操作系统——这也是比较现实的方式。邓志东认为,后两种路径利用了大模型和人类共同的语言智能,而正是这种语言智能可以将顺序模块串联起来。"没有多模态语言智能,就没有灵魂."他说。同时,他列举了大模型语言智能可以贯穿的各个环节,包括多摄像头多帧输入到矢量空间的3D感知等等。此外,邓志东还列举了大模型将给自动驾驶带来的其他影响,包括人车语音的自然交互和基于大模型的长距离安全接管预测,以及自动驾驶产生的闭环数据和云端的AI计算能力需求。“简而言之,对于跨界自动驾驶,我们更应该重视大车型的使用。”邓志东说,“在进化史上,语言智能是人类和动物的根本区别。因此,通过使用机器模拟和语言智能,我们可以获得与人类观察和思维一致的感知、预测、决策和调节能力。同时,我们也可以利用人类的驾驶经验来完成相应的行为对齐和反馈修正。”事实上,在ChatGPT爆炸之前,大模型已经开始影响自动驾驶领域。极飞科技创始人兼CEO李东旻表示,智能驾驶解决方案第一阶段是小模型的叠加,第二阶段以特斯拉为代表的大模型+大数据解决方案开始受到关注。特斯拉在自己的AI日发布了transformer+BEV解决方案,引领了行业潮流。“那时候大家都在说BEV+transformer,行业从来没有达成过这样的共识。”他说。但是,从企业的角度来看,李东旻给出了非常实际的想法和建议。“大模型的落地非常非常困难。你真的不要低估这件事的技术难度和资金难度。”他展示了参考特斯拉做的数据对比,得出“大计算能力是基础,大数据是前提”的结论。“如果一个车辆不能收集大量的数据,或者你要花很多钱去收集大数据,(那)就不要做了,把城市的NOA/NGP功能做好其实也是一件好事。”他提到大型号的间接投入比小型号大几百倍。这里的间接投入是指购买云服务、计算能力、数据、标签等很难像硬件成本那样明确的支出。“一张激光雷达的照片需要200元,但是各位,训练一个大模型至少要1亿帧起。没有一亿帧,你连打牌的资格都没有。”李东旻说,“所以不要低估这件事——大模式的确是未来,它一定配得上我们所有人,但我们必须以谦卑的态度去迎接和处理它。”

作者:杏耀注册登录测速平台




现在致电 8888910 OR 查看更多联系方式 →

COPYRIGHT © 杏耀注册登录测速平台 版权所有