大模型基础导览
特别鸣谢: 感谢 GitHub 开源项目so-large-lm精彩分享,为本笔记提供了宝贵的参考和启发。
笔记来源
大部分基于别人已经开源的笔记进行学习,并且适当的增加了个人的想法,以及笔记的补充,如涉及侵权问题,请联系本人。
项目规划
目录
- 引言
- 项目目标:目前对大规模预训练语言模型的相关知识的重点讲解
- 项目背景:GPT-3等大型语言模型的出现,以及相关领域研究的发展
- 大模型的能力
- 模型适应转换:大模型预训练往下游任务迁移
- 模型性能评估:基于多个任务对GPT-3模型进行评估和分析
- 模型架构
- 模型结构:研究和实现RNN, Transformer等网络结构
- Transformer各层细节:从位置信息编码到注意力机制
- 新的模型架构
- 混合专家模型(MoE)
- 基于检索的模型
- 大模型的数据
- 数据收集:从公开数据集中获取训练和评估所需数据,如The Pile数据集
- 数据预处理:数据清洗、分词等
- 模型训练
- 目标函数:大模型的训练方法
- 优化算法:模型训练所使用的优化算法
- 大模型之Adaptation
- 讨论为什么需要Adaptation
- 当前主流的Adaptation方法(Probing/微调/高效微调)
- 分布式训练
- 为什么需要分布式训练
- 常见的并行策略:数据并行、模型并行、流水线并行、混合并行
- 大模型的有害性-上
- 模型性能差异:预训练或数据处理影响大模型性能
- 社会偏见:模型表现出的显性的社会偏见
- 大模型的有害性-下
- 模型有害信息:模型有毒信息的情况
- 模型虚假信息:大模型的虚假信息情况
- 大模型法律
- 新技术引发的司法挑战:司法随着新技术的出现而不断完善
- 过去司法案例汇总:过去案例的汇总
- 环境影响
- 了解大语言模型对环境的影响
- 估算模型训练产生的排放量
- 智能体(Agent)
- 了解Agent各组件细节
- Agent的挑战与机遇
- Llama开源家族:从Llama-1到Llama-3
- Llama进化史(第1节)/ 模型架构(第2节)/训练数据(第3节)/训练方法(第4节)/效果对比(第5节)/社区生态(第6节)