大语言模型

参数量在数十亿或更多数量级的深度学习模型
语言模型(Large Language Models,简称LLM),[2][1]也称大语言模型或大型语言模型,是一种由包含数百亿以上参数的深度神经网络构建的语言模型,通常使用自监督学习方法通过大量无标注文本进行训练,[3]它通过大规模数据集训练来预测和生成文本和其他内容。[5]
绝大部分大语言模型都是基于Transformer架构。相比于传统的循环神经网络(RNN)和长短时记忆网络(LSTM),Transformer具有独特的注意力机制,自注意力机制允许模型根据序列中的其他位置调整每个位置的表示,从而提高模型对上下文的理解能力。[6][7]
自2018年以来,GoogleOpenAlMeta百度华为等公司和研究机构都相继发布了包括BERT,GPT等在内多种模型,并在几乎所有自然语言处理任务中都表现出色。2019年大模型呈现爆发式的增长,特别是2022年11月ChatGPT 发布后,更是引起了全世界的广泛关注。[3]2024年3月18日,马斯克的AI创企xAI正式发布了大模型Grok-1,其参数量达到了3140亿,远超OpenAI GPT-3.5的1750亿。这是迄今参数量最大的开源大语言模型,遵照Apache 2.0协议开放模型权重和架构。[8]

发展历史

大语言模型的发展历程虽然只有短短不到五年,但是发展速度相当惊人,截止2023年6月,国内外有超过百种大模型相继发布。[9]它的发展历程可以分为三个阶段:基础模型阶段、能力探索阶段、突破发展阶段。[10]在正式出现之前,还经历了漫长的萌芽阶段。[11]