当前位置:首页 > 培训职业 > 正文

Andrej Karpathy:大模型有内存限制,这个妙招挺好用

来自机器之心的报道,编辑陈萍指出,大模型的运行并非孤立,而是多个组件协同工作的系统。其中,特斯拉前AI总监Andrej Karpathy近期在推特上分享了关于大语言模型(LLM)中一个关键优化技术——speculative decoding的见解。

爱丁堡大学的博士生符尧表示,speculative decoding是一个系统层面思考的实用工具。这个概念类似于计算机系统的前瞻性执行,即系统会预测未来可能的指令,即使这些指令可能最终无效。当发现预测不正确时,系统会撤销相关操作。在LLM中,这一技术被用于加速推理过程,例如GPT-4的泄露报告可能提到了OpenAI线上模型使用speculative decoding(但未完全确认)。

speculative decoding的核心是利用一个小的近似模型(称为小模型)提前预测多个token,这些预测被作为batch输入到大模型中进行校正。这种方法通过减少内存访问需求,显著提高了效率。Karpathy指出,这种方法特别适用于大模型,因为它们在推理时内存限制明显,单个token的处理时间与处理多个token的批处理时间相当,主要瓶颈在于内存读取而非计算。

Karpathy的推文中,他详细解释了如何利用小模型生成的「草稿」来规避串行依赖性,通过批量处理大模型,跳过简单token,仅对分歧部分进行额外计算。这种技巧之所以奏效,是因为在许多情况下,LLM推理中的token多为简单,使得小模型能较好地预测,从而节省了大量时间。

多重随机标签

猜你喜欢文章