认识大模型

3.0 闻远设计 2024-11-19 37 4 10.7KB 2 页 5光币

侵权投诉

　　大模型，作为人工智能领域的革新先锋，正引领着一场深刻的技术变革，其影响力已超越

技术范畴，预示着人工智能、科学探索乃至人类社会的全面重塑。在全球科技竞赛中，大模型

成为各国争夺焦点，战略地位堪比 20 世纪的太空竞赛，开启大国科技新角逐。因此，深入了

解大模型的各个方面变得尤为重要。　

　　大模型的诞生、发展与应用　

　　大模型，是一类基于深度学习架构、在海量数据上训练、能够处理多种任务的基础模型。

与传统 AI 模型相比，其显著特征在于参数量大、数据量大、计算量大，是多重技术交叉融合

的产物。其前身是历经数十年研究的语言模型，广泛应用于机器翻译、语音识别等领域。随着

神经网络的再次兴起，2000 年神经语言模型诞生，随后 2017 年神经网络架构 Transformer 横空

出世，融合了神经语言模型、机器翻译、序列建模及分布式技术。这一系列创新及对 AI 通用

和泛化能力的追求推动了 GPT 系列的快速发展，从 2018 年至 2020 年，GPT 一至三代相继问

世。2022 年，ChatGPT 凭借其卓越性能，将大模型推向公众视野，成为 AI 发展的新里程碑。　

　　大模型作为新兴而迅速发展的技术，已跨越至多模态领域，涵盖语言、语音、视觉等，并

细化为通用、行业及任务特定模型，其在信息交互上的创新尤为显著，引入了长上下文窗口

（大模型能够编码的最长序列）、检索增强及智能体等机制，极大增强了信息处理能力。这一

技术不仅丰富了数字世界的应用场景，如聊天机器人、AIGC 等，还延伸至无人驾驶、人形机

器人等物理世界领域，展现出强大的赋能潜力。在科学研究中，大模型不仅辅助工程设计、技

术创新等应用科学，更推动基础科学探索，加速了自动化、智能驱动的科学研究新范式的形

成。可以说，大模型既支撑了高端科学研究，也助力了传统产业的转型升级与降本增效。

《2023 企业数字化年度指南》调研数据显示，超过63%的企业视大模型与 AIGC 技术为战略资

源，首要目的在于降本增效，广泛应用于研发创新、办公效率提升、客户服务、市场营销等多

个领域。同时，大模型在工业设计、芯片设计、人形机器人等多个行业的应用案例也充分证明

了其广阔的应用前景与市场潜力，正逐步成为推动社会进步与产业升级的重要力量。　

　　大模型背后的关键技术　

　　是什么造就了大模型如此强大的能力？从大模型的发展实践看，其背后有三项关键技术。　

　　一是大模型底层的神经网络架构 Transformer。Transformer 最初提出主要是为了解决序列

建模中的循序计算问题，即只有前面的词元（自然语言处理中的最小语义单位）计算后才能计

算后面的词元。循序计算极大束缚了模型的并行计算能力，使得语言模型、机器翻译等序列模

型难以大规模扩展。Transformer 架构巧妙地利用了自注意力机制，不仅大幅度提升了模型的并

行计算能力，而且显著提升了模型的长距离依存关系建模能力（语言模型的关键挑战）。并行

计算能力使Transformer 可以在大规模数据上进行快速训练，而长距离依存建模能力极大强化

了Transformer 对语言等序列数据内部复杂依存关系的学习和表征能力。两项能力的叠加，使

Transformer “ ”开启了后临词元预测范式模拟人类智能的大门。　

　　二是基于自监督学习的预训练技术及扩展法则。Transformer 虽然具有强大的并行计算和表

征能力，但要使其学习和模拟人类智能还需要解决两个重要问题：如何将人类多样化的智能统

一表征，如何训练模型使其高效学习人类智能。针对第一个问题，GPT 将各类任务统一表示为

生成式问题，无论是写作、翻译、问答等典型生成式问题，还是推理、规划、问题求解等非典

型生成式任务，都归聚到生成式 AI 的统一框架中，在这个统一框架中，基于后临词元预测的

语言模型成为天然的技术路线。统一表征不仅使AI 不需要为不同任务设计不同的模型（传统

弱人工智能模式），而且还极大提升了AI 模型在不同任务间的迁移能力、泛化能力。对于第

二个问题，语言模型的后临词元预测模式使自监督学习成为模型训练的首选，在可大规模获取

“ ” “的人类语言数据上，后临词元本身就存在，因此模型可以充当自己的教师，采用教师强

”制方式进行自监督训练。区别于传统人工智能有限的有监督数据，自监督数据规模庞大且易

于获取。这不仅使模型可以学习丰富的人类知识，同时也要求模型的容量（参数量）足够大。

在给定算力规模前提下，如何选择模型的参数规模及训练数据规模，使模型能训练到最优性

能？业界经过反复实践，总结出了扩展法则，用以指导模型与数据规模的协同扩展。　

　　三是后训练阶段的精调和对齐技术。经过预训练的大模型，如同学习了大量知识和百般武

“ ”艺的学生，但不知该如何运用。为了解锁预训练模型的知识和能力，通常需要进行后训练，

即采用少量的有监督数据对预训练模型进行精调，使其能够理解人类的意图，遵循人类的指

令，对齐人类的价值观。业内目前广泛采用的后训练，通常包括两个主要部分：有监督精调

（模仿学习人类给出的示范样例）及人类反馈强化学习（基于人类反馈的偏好数据进行强化学

习）。后训练的成本通常远小于预训练成本，同时，后训练也是解锁模型能力、保障模型智能

向善的关键阶段，因此，业界对后训练寄予厚望。　

　　大模型的突破点与创新方向　

　　模型架构、预训练与后训练，既是大模型的关键所在，也是未来重点突破的方

向。Transformer 架构虽潜力强大，但其是否为最优的智能学习架构尚待验证，能否承载全部的

智能学习任务亦存争议。预训练领域，高昂成本促使我们寻求更高效的数据学习方法，同时，

模型规模与性能间的最优平衡，以及模型、数据与计算三者间的理论关系，亦需深入探索。后

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

5 光币 4人已下载

立即下载

摘要：

　　大模型，作为人工智能领域的革新先锋，正引领着一场深刻的技术变革，其影响力已超越技术范畴，预示着人工智能、科学探索乃至人类社会的全面重塑。在全球科技竞赛中，大模型成为各国争夺焦点，战略地位堪比20世纪的太空竞赛，开启大国科技新角逐。因此，深入了解大模型的各个方面变得尤为重要。　　　大模型的诞生、发展与应用　　　大模型，是一类基于深度学习架构、在海量数据上训练、能够处理多种任务的基础模型。与传统AI模型相比，其显著特征在于参数量大、数据量大、计算量大，是多重技术交叉融合的产物。其前身是历经数十年研究的语言模型，广泛应用于机器翻译、语音识别等领域。随着神经网络的再次兴起，2000年神经语言模型诞...

展开>> 收起<<

认识大模型.docx

共2页,预览1页

还剩页未读，继续阅读

认识大模型

相关推荐

开通VIP享超值会员特权

作者详情

相关内容

推荐作者

热门标签

举报选择: