1928年,伦敦深陷严重的公共卫生危机,肺炎、结核病和脑膜炎等细菌性疾病肆虐。科学家和医生们被困在无菌实验室里,用传统医疗手段反复试错,陷入无休止的僵局。
就在这年九月,一个意外事件改写了人类历史。苏格兰医生亚历山大·弗莱明忘记盖上培养皿(就是生物课上用过的透明圆盒),导致霉菌污染。他敏锐地发现:所有靠近霉菌的细菌都死了,而远处的却存活下来。
"那些霉菌分泌物究竟是什么?"弗莱明追根究底,最终发现霉菌中的青霉素成分具有强大杀菌作用。这个意外突破催生了现代抗生素——当医学界固守既有研究范式时,青霉素成了意料之外的救星。
自动驾驶技术可能正经历类似的转折。2010年代的主流是"模块化"方案:将自动驾驶系统拆分为感知(识别环境)、定位(确定车辆位置)、规划(生成行驶路径并构建车辆"大脑")等独立模块,最终由控制模块输出"右转20度"等指令。这套方法论曾被视为金科玉律。
但十年后,企业开始押注"端到端学习":用单一神经网络替代所有模块,直接预测转向和加速指令。不过正如我们预想的一样,这里面有一些黑箱问题。
然而这些方法虽为人熟知,却始终未能真正解决自动驾驶的难题。此刻我们不禁要问:"正在颠覆世界的大语言模型(LLMs),会不会成为自动驾驶领域的意外之解?"
本文就将探讨这个命题——我们将首先通俗解读大语言模型的本质,继而深入剖析它赋能自动驾驶的三大革命性路径。
前言:大语言模型是什么?
在阅读本文前,请容我声明:我绝非LLM专家。正因如此,我太理解学习它的痛苦——当你搜索"如何学习大语言模型",首先会看到3个推销电子书的广告(内容空洞),接着是20份"终极学习路线图"和GitHub仓库,而所有这些的"第一步"往往是观看2小时视频教程(至于第54步是什么?没人知道,因为路线图实在太——长——了!)。
与其让各位重蹈我的覆辙,不如我用三个核心概念带你看透LLM的本质:
- Token化
- Transformer架构
- 语言处理机制
Token化:文字的密码本
当你向ChatGPT输入文字时,它返回的看似是文本,实则暗藏玄机:你的语句首先会被拆解成token(语义单元)。
但究竟什么是token?简单来说,token可以是单词、字符或任何我们定义的语义单元。试想——当你把句子输入神经网络时,总不可能直接传送文字本身吧?
神经网络的输入必须是数字,因此需要将文本转化为数字序列,这个过程就是token化。比如英文单词"cat"可能被编码为[1273],而中文词组"自动驾驶"可能被拆分为[5021, 3864]两个token。
不同的模型(如ChatGPT、LLAMA等)对token有着不同的定义方式:可能是一个完整单词、子词单元,甚至是单个字符。这种灵活性让模型既能处理常规词汇,也能解析复杂文本。
以英语为例:
- 单词级编码:简单如冠词"a"可能对应token 1
- 子词分解:长单词"abracadabra"可能被拆解为token 121
(而中文处理更复杂,"自动驾驶"可能被拆分为"自动"+"驾驶"两个子词单元)
这种动态编码机制就像给语言装上了智能乐高:
- 基础模块:高频词保留完整编码(如"the")
- 组合拼装:生僻词通过子词拼接(如"blockchain"→"block"+ "chain")
- 跨语种适配:中文采用字符/词组混合编码
Transformer架构:语言理解的革命性突破
既然我们已经掌握如何将句子转化为数字序列,现在终于可以让这些数字流入神经网络了!其核心架构可概括为以下黄金三角:
当前主流模型架构主要分为三大流派,但万变不离其宗——它们都建立在Transformer核心模块之上:
- 编码器-解码器派(如BART、T5)
- 适用场景:机器翻译等序列生成任务
- 工作流程:编码器压缩语义→解码器逐步生成
- 纯编码器派(如BERT)
- 典型应用:文本分类、实体识别
- 特点:仅保留Transformer编码器堆栈
- 纯解码器派(如GPT系列)
- 核心优势:自回归文本生成
- 运行机制:通过掩码注意力实现单向预测
所有架构都包含这些Transformer核心组件:
- 多头注意力机制(Multi-head Attention)
- 层标准化(Layer Norm)
- 残差连接(Add & Norm)
- 交叉注意力(Cross-Attention)
当您输入"自动驾驶是..."时,模型通过以下步骤预测下一个词:
- 计算当前所有token的注意力权重
- 在解码器层进行数十亿次矩阵运算
- 输出数万维的概率分布(如"未来"概率35%,"趋势"概率28%)
- 通过top-k采样选定最终输出
这本质上就是一系列注意力模块的组合,最终产生输出。那么这种词语预测究竟是如何工作的呢?
输出/下一个词预测机制
编码器的使命
通过学习特征和上下文理解,编码器构建了语义的"地图"。但解码器在做什么?
解码器的多面性
- 目标检测领域 → 预测边界框(Bounding Boxes)
- 图像分割领域 → 生成遮罩(Segmentation Masks)
- 语言模型领域 → 进行"下一个词预测"(Next-Word Prediction)
语言生成的本质
我们的解码器实际上是在生成词元(tokens)序列:
- 接收编码器输出的语义表征
- 通过自回归方式逐步预测词元编号
- 每个预测步骤都基于前文生成的整个序列
完整模型特性
如上图所示,这个架构具有以下核心特征:
- 动态上下文窗口(处理可变长度输入)
- 概率化输出(每个词元都带置信度评分)
- 温度参数调控(控制生成结果的创造性)
在掌握这些基础概念后,还有更多关键技术需要探索(题外话):
Transformer核心进阶
- 注意力机制变体(缩放点积注意力、相对位置编码)
- Transformer-XL等改进架构
- 稀疏注意力优化技术
模型训练方法论
- 少样本学习(Few-shot Learning)
- 预训练(Pretraining)与微调(Finetuning)范式
- 提示工程(Prompt Engineering)
好吧...但这和自动驾驶汽车有什么关系?我想是时候进入第二阶段了。
当Chat-GPT遇见自动驾驶
我们已经解释完了困难的部分。剩下的就是:"如何将其适配到自动驾驶?"。仔细想想,我们应该需要做以下改变:
我们的输入现在变成了图像、传感器数据(激光雷达点云、毫米波雷达点云等)、甚至是算法数据(车道线、物体等)。所有这些都可以被"token化",就像视觉Transformer或视频视觉Transformer所做的那样。
我们的Transformer模型基本保持不变,因为它只处理token,与输入类型无关。
输出取决于我们要执行的任务集。可以是解释图像中发生的情况,也可以是像变道这样的直接驾驶任务。
那么,从结果反推:
大语言模型能解决哪些自动驾驶任务?
自动驾驶涉及众多任务,但并非所有都适合用GPT处理。目前最活跃的研究领域包括:
环境感知:基于输入图像描述周边环境,识别物体数量等...
路径规划:根据图像、鸟瞰图或感知结果,判断应采取的行动(继续行驶、让行等)
数据生成:运用"扩散模型"生成训练数据及各种驾驶场景
智能问答:创建聊天界面,让大语言模型基于场景回答问题
大语言模型在环境感知中的应用
在感知系统中,输入通常是一系列图像,输出则是物体检测、车道识别等结果。基于大语言模型的感知任务主要聚焦三大核心功能:
- 目标检测(Detection)
- 实时识别车辆、行人、交通标志等关键要素
- 示例:输入道路图像 → 输出"左侧3米处有自行车骑行者"
- 行为预测(Prediction)
- 预判交通参与者的运动轨迹
- 示例:分析连续帧 → 输出"前方卡车可能在5秒后变道"
- 多目标跟踪(Tracking)
- 跨帧持续追踪特定目标
- 示例:视频流处理 → 输出"行人A正以1.5m/s速度横穿马路"
典型应用场景如图示:当向Chat-GPT发送道路图像并请求描述时,它能生成类似人类的环境解读:"当前处于城市十字路口,东向车道有两辆轿车等待红灯,人行道上有三名行人..."
其他模型如HiLM-D和MTD-GPT同样具备这种能力,部分模型还能处理视频数据。像PromptTrack这样的模型,甚至可以像4D感知系统那样为物体分配唯一ID(例如"前方这辆车的编号是#3")。
在该模型中,多视角图像被输入到一个编码器-解码器网络中,该网络经过训练可以预测物体的标注信息(如边界框和注意力热图)。这些热图随后会与类似"找出正在右转的车辆"这样的提示语相结合。接下来的模块会通过匈牙利算法(Hungarian Algorithm)等二分图匹配算法,确定3D边界框的定位并分配唯一ID。
虽然很酷,但这还不是目前大语言模型在自动驾驶领域的"最佳"应用场景:
大语言模型在决策、导航与路径规划中的应用
既然Chat-GPT能识别图像中的物体,那它理应也能告诉你该如何应对这些物体,不是吗?这正是路径规划的核心任务——基于实时感知数据,制定从A点到B点的行驶策略。
虽然已有众多模型专攻此领域,但最令我印象深刻的是Talk2BEV系统:
规划模型与纯感知模型的本质区别在于:前者需要学习人类驾驶行为,从而推荐最优行驶决策。同时,我们将输入数据从多视角图像转换为鸟瞰图——这种视角更易于理解驾驶场景。
该模型兼容LLaVA和ChatGPT4两大架构,其系统设计如下图所示:
如图所示,这套系统并非完全基于"提示词"驱动——其核心仍依赖鸟瞰图感知模型进行物体检测,但通过大语言模型实现了三大增强功能:智能区域裁剪、重点区域关注以及路径预测。这就是所谓的"语言增强型鸟瞰图"技术。
另一些模型如DriveGPT则采用不同范式:先将感知结果输入Chat-GPT,通过微调直接输出行驶轨迹。这种端到端训练方式展现了另一种技术路径。
虽然可以继续深入探讨,但核心要点已经明确。总结来看:
输入处理
- 原始图像经过token化处理
- 或直接采用感知算法输出(鸟瞰图等)
模型融合
- 将现有技术(鸟瞰图感知、二分图匹配等)
- 与语言提示(如"识别移动车辆")智能结合
任务适配
- 主要通过调整三要素实现:
- 训练数据集
- 损失函数
- 精细微调策略
至于智能问答应用,其原理大同小异。现在让我们聚焦大语言模型在自动驾驶的最后一项应用:
大语言模型在图像生成领域的突破
用过Midjourney和DALL-E吗?是不是觉得惊艳?但在自动驾驶领域,还有更震撼的应用——比如Wayve推出的GAIA-1模型。这个突破性架构能够直接根据文本和图像输入生成连续视频,效果如下图所示:
该架构采用多模态输入——图像数据、驾驶操作指令和文本提示,通过内置的"世界模型"(即对物理世界及其交互关系的深度理解)来生成逼真视频。
更多精彩案例可参阅Wayve官方YouTube频道及其专题技术博客。
无独有偶,MagicDrive系统同样展现了惊人能力——它将感知模块的输出作为输入,动态生成逼真驾驶场景:
其他模型如"Driving Into the Future"和"Driving Diffusion"则能基于当前场景直接生成未来交通情境。至此您已理解核心价值:我们可以无限生成多样化场景,为模型训练提供海量数据,形成持续自我强化的正向循环。
我们已经完整看到大语言模型在自动驾驶中的三大应用体系:
- 环境感知(Perception)
- 决策规划(Planning)
- 场景生成(Generation)
但真正关键的问题是...
我们真的能信任自动驾驶中的大语言模型吗?
这个问题的核心在于:如果模型出现"幻觉"怎么办?就像ChatGPT有时会给出荒谬回答那样。记得我刚进入自动驾驶领域时,主流厂商就对深度学习持怀疑态度——因为它不够"确定性"(他们当时的说法)。
技术信任危机
- 黑箱困境
- 端到端系统难以普及的主因
- 当前LLM的可解释性甚至比传统DL模型更差
- 现实应用差距
- LLM被"在线"使用的案例较少(即实车路测)
- 现有应用仅局限在总部内的训练/数据生成场景
- 渐进式改进
- 模型透明度正在持续提升
- 特斯拉可能率先部署类似Grok的问答系统
保守结论
就现阶段研究进展而言...我的谨慎答案是:暂不完全可信,但值得持续探索。
现在下结论还为时过早!
事实确实如此。首批探讨大语言模型在自动驾驶中应用的论文直到2023年年中才出现,我们需要给这个领域更多发展时间。在此期间,您不妨从这份技术综述入手,它完整梳理了迄今为止的所有技术演进路径。
本篇摘要
核心运作原理
大语言模型(LLM)遵循三阶段架构:
- 输入层:经过token化的语义单元(单词/字符)
- 处理层:标准Transformer架构
- 输出层:"Next预测"的基础任务
三大应用场景
- 环境感知(Perception)
- 核心任务:场景理解(检测+追踪+预测)
- 输入数据:多视角原始图像
- 输出形式:3D边界框 + 语义查询响应(如"出租车位置")
- 决策规划(Planning)
- 核心任务:轨迹生成
- 输入数据:感知结果(物体列表/鸟瞰图)
- 技术特性:结合语境理解与逻辑推理
- 场景生成(Generation)
- 核心任务:视频合成
- 典型模型:GAIA-1(支持对话式输入)
- 生成内容:天气变化场景/未来场景推演
发展现状与挑战
尽管该领域已成为自动驾驶研究最活跃的阵地,但核心疑虑仍未消除:
⚠️ 长期可靠性存疑
⚠️ 黑箱决策风险
⚠️ 实车验证缺失
正如Waymo首席科学家所说:"我们正在见证一场人机协作驾驶范式的革命,但距离完全信任还有很长的验证之路。"
作者:Bio(Car-GPT: Could LLMs finally make self-driving cars happen?)