大模型基础导览

特别鸣谢：感谢 GitHub 开源项目so-large-lm精彩分享，为本笔记提供了宝贵的参考和启发。

笔记来源

大部分基于别人已经开源的笔记进行学习，并且适当的增加了个人的想法，以及笔记的补充，如涉及侵权问题，请联系本人。

项目规划

引言
- 项目目标：目前对大规模预训练语言模型的相关知识的重点讲解
- 项目背景：GPT-3等大型语言模型的出现，以及相关领域研究的发展
大模型的能力
- 模型适应转换：大模型预训练往下游任务迁移
- 模型性能评估：基于多个任务对GPT-3模型进行评估和分析
模型架构
- 模型结构：研究和实现RNN, Transformer等网络结构
- Transformer各层细节：从位置信息编码到注意力机制
新的模型架构
- 混合专家模型（MoE）
- 基于检索的模型
大模型的数据
- 数据收集：从公开数据集中获取训练和评估所需数据，如The Pile数据集
- 数据预处理：数据清洗、分词等
模型训练
- 目标函数：大模型的训练方法
- 优化算法：模型训练所使用的优化算法
大模型之Adaptation
- 讨论为什么需要Adaptation
- 当前主流的Adaptation方法（Probing/微调/高效微调）
分布式训练
- 为什么需要分布式训练
- 常见的并行策略：数据并行、模型并行、流水线并行、混合并行
大模型的有害性-上
- 模型性能差异：预训练或数据处理影响大模型性能
- 社会偏见：模型表现出的显性的社会偏见
大模型的有害性-下
- 模型有害信息：模型有毒信息的情况
- 模型虚假信息：大模型的虚假信息情况
大模型法律
- 新技术引发的司法挑战：司法随着新技术的出现而不断完善
- 过去司法案例汇总：过去案例的汇总
环境影响
- 了解大语言模型对环境的影响
- 估算模型训练产生的排放量
智能体（Agent）
- 了解Agent各组件细节
- Agent的挑战与机遇
Llama开源家族：从Llama-1到Llama-3
- Llama进化史（第1节）/ 模型架构（第2节）/训练数据（第3节）/训练方法（第4节）/效果对比（第5节）/社区生态（第6节）