-

@ 界面新闻 (RSS Feed)
2025-02-23 05:22:04
闪电快讯|借鉴DeepSeek训练模式,商汤绝影推出全新智驾解决方案
2025.02.23<img src="https://img2.jiemian.com/101/original/20250223/174028703593425900_a640x364.jpg" alt="">
2月22日下午,商汤绝影CEO、商汤科技联合创始人、首席科学家王晓刚于上海发布了行业首个“与世界模型协同交互的端到端自动驾驶路线R-UniAD”,并预告将于4月上海车展发布R-UniAD端到端自动驾驶方案,并完成实车部署。
R-UniAD可通过构建世界模型生成在线交互的仿真环境,用以进行端到端模型的强化学习训练。王晓刚称,R-UniAD与春节开始持续受到市场关注的DeepSeek技术创新思路同归一源:从模仿学习向强化学习升级演进,从而实现端到端自动驾驶超越人类的驾驶表现。
强化学习是除了监督学习和非监督学习之外的第三种基本的机器学习方法。在现行大模型的训练过程中,三种方法在不同阶段均有使用。强化学习指智能体(Agent)通过与环境(Environment)的交互学习最佳策略、不断提升智能程度。
不同的是,相较于OpenAI所研发的GPT系列大模型等竞品普遍采用基于人类反馈(有监督)的强化学习(RLHF,)模式进行训练,爆火的DeepSeek R1大模型采用的是一种更为简单的强化学习模式,即仅专注于特定任务的指标优化模型效果,而减少人类监督占比,因此资源需求更低。
王晓刚称,基于强化学习的大模型技术路线可以迁移到端到端自动驾驶算法的训练与研发之中。
<img alt="" src="https://mp.toutiao.com/mp/agw/article_material/open_image/get?code=MTkwMDk2YzQ4NmViOTI5OThmYWEyMzM3YmQxOTk4MzEsMTc0MDI4Njk4NTIyMg=="/>
(商汤绝影R-UniAD多阶段强化学习端到端自动驾驶技术路,图源/商汤科技)
商汤绝影的R-UniAD是「多阶段强化学习」端到端自动驾驶技术路线,具体分为三个阶段,首先是依靠冷启动数据通过模仿学习进行云端的端到端自动驾驶大模型训练;然后基于强化学习,让云端的端到端大模型与世界模型协同交互,持续提升端到端模型的性能;最后云端大模型通过高效蒸馏的方式,实现高性能端到端自动驾驶小模型的车端部署。
从数据规模来看,多阶段强化学习的训练方法能大幅降低端到端自动驾驶数据规模门槛。R-UniAD就是通过高质量数据进行冷启动,用模仿学习的方式训练出一个端到端基础模型,再通过强化学习方法进行训练。据测算,小样本多阶段学习的技术路线能让端到端自动驾驶的数据需求降低一个数量级,让车企合作伙伴有望换道超车特斯拉FSD(Full Self-Driving,全自动驾驶)。
从性能上限来看,纯强化学习训练有望在提升端到端智驾模型性能的同时,充分探索多元场景和驾驶风格。
<img alt="" src="https://img2.jiemian.com/101/original/20250223/174028687816910800_a700xH.png"/>
https://m.jiemian.com/article/12384675.html