大语言模型-基础与前沿.pdf（高清PDF免费下载）

大语言模型-基础与前沿

评分：

9.6

发布时间：

2025/4/11 19:58:05

网盘下载本地下载

内容介绍：

本书深入阐述了大语言模型的基本概念和算法、研究前沿以及应用，涵盖大语言模型的广泛主题，从基础到前沿，从方法到应用，涉及从方法论到应用场景方方面面的内容。*，本书介绍了人工智能领域的进展和趋势；其次，探讨了语言模型的基本概念和架构、Transformer、预训练目标和解码策略、上下文学和轻量级微调、稀疏*模型、检索增强型语言模型、对齐语言模型与人类偏好、减少偏见和有害性以及视觉语言模型等内容；*，讨论了语言模型对环境的影响。本书内容*、系统性强，适合高年级本科生和研究生、博士后研究人员、讲师以及行业从业者阅读与参考。

本书目录：

第 1章大语言模型：辩论、争议与未来发展方向 1

1.1 新时代的曙光 1

1.2 LLM有意识吗 3

1.2.1 理解LLM的层次结构 3

1.2.2 意识是否需要碳基生物学 4

1.2.3 具身化与落地 4

1.2.4 模型 7

1.2.5 沟通意图 8

1.2.6 系统性和*泛化 9

1.3 未来发展方向 10

1.4 小结 13

第 2章语言模型和分词 15

2.1 语言建模的挑战 16

2.2 统计语言建模 16

2.3 经语言模型 18

2.4 评估语言模型 19

2.5 分词 19

2.5.1 按空格分割 20

2.5.2 字符分词 21

2.5.3 子词分词 21

2.5.4 无分词器 24

2.5.5 可学的分词 25

2.6 小结 27

第3章 Transformer 29

3.1 Transformer编码器模块 29

3.2 编码器-解码器架构 31

3.3 位置嵌入 32

3.3.1 *位置编码 32

3.3.2 相对位置编码 34

3.4 更长的上下文 38

3.5 外记忆 42

3.6 更快、更小的Transformer 45

3.6.1 *注意力 45

3.6.2 条件计算 47

3.6.3 搜索*Transformer 48

3.6.4 在单个GPU上*内训练一个语言模型 49

3.7 推理化 49

3.7.1 推测解码 49

3.7.2 简化Transformer 51

3.7.3 修剪 52

3.7.4 蒸馏 53

3.7.5 混合度 54

3.7.6 *扩展Transformer推理 54

3.8 小结 56

第4章预训练目标和解码策略 57

4.1 模型架构 57

4.2 预训练目标 60

4.3 具有代表性的语言模型 62

4.4 解码策略 67

4.5 小结 72

第5章上下文学和轻量级微调 73

5.1 上下文学 74

5.1.1 示范样本选择 75

5.1.2 样本排序 82

5.1.3 指令生成 82

5.1.4 思维链 84

5.1.5 递归提示 87

5.1.6 为什么ICL有效 90

5.1.7 评估 93

5.2 提示语言模型的校准 94

5.3 轻量级微调 97

5.3.1 基于添加的方法 98

5.3.2 基于规范的方法 100

5.3.3 基于重新参数化的方法 101

5.3.4 混合方法 103

5.4 小结 104

第6章训练更大的模型 107

6.1 扩大尺度法则 107

6.1.1 预训练Transformer扩大尺度的启示 107

6.1.2 预训练和微调Transformer带来的新启示 110

6.1.3 k比推理扩大尺度法则 111

6.1.4 挑战与机遇 112

6.2 涌现 113

6.3 人工智能加速器 115

6.4 并行 117

6.4.1 数据并行 119

6.4.2 流水线并行 126

6.4.3 张量/模型并行 131

6.4.4 *混合 133

6.5 混合训练和低度训练 133

6.5.1 单位缩放 133

6.5.2 FP8与INT8 135

6.6 其他节省内存的设计 136

6.7 小结 137

第7章稀疏*模型 139

7.1 为什么采用稀疏*模型 139

7.2 路由算法 142

7.2.1 每个词元选择top-k个* 142

7.2.2 每个*选择top-k个词元 144

7.2.3 全局*分配 145

7.2.4 随机路由 148

7.2.5 双层路由 149

7.2.6 针对不同预训练领域的不同* 149

7.3 其他改进措施 152

7.3.1 加快训练速度 152

7.3.2 *的MoE架构 153

7.3.3 生产规模署 154

7.3.4 通过稀疏MoE扩展视觉语言模型 154

7.3.5 MoE与集成 155

7.4 小结 156

第8章检索增强型语言模型 157

8.1 预训练检索增强型语言模型 158

8.2 词元级检索 161

8.3 通过*和简检索进行问答和多跳推理 163

8.4 检索增强型Transformer 166

8.5 检索增强型黑盒语言模型 168

8.6 视觉增强语言建模 169

8.7 小结 170

第9章对齐语言模型与人类偏好 171

9.1 基于人类反馈进行微调 172

9.1.1 基于人类反馈的强化学 172

9.1.2 KL散度：前向与反向 174

9.1.3 REINFORCE、TRPO和PPO 174

9.1.4 带有KL惩罚的强化学：贝叶斯推理观点 178

9.1.5 通过分布控制生成进行语言模型对齐 180

9.1.6 通过f散度*小化统一RLHF和GDC方法 182

9.2 基于语言反馈进行微调 183

9.3 基于监督学进行微调 184

9.4 基于人工智能反馈的强化学 185

9.5 基于自我反馈进行迭代化 188

9.6 基于人类偏好进行预训练 190

9.7 小结 193

第 10章减少偏见和有害性 195

10.1 偏见 196

10.2 有害性 199

10.3 偏见和有害性的检测与减少 200

10.3.1 基于解码的策略 201

10.3.2 基于提示的脱毒 202

10.3.3 基于数据的策略 204

10.3.4 基于投影和正则化的方法 205

10.3.5 基于风格转换的方法 205

10.3.6 基于强化学的微调和基于人类偏好的预训练 206

10.4 小结 206

第 11章视觉语言模型 207

11.1 语言处理的多模态落地 207

11.2 不需要额外训练可利用预训练模型 208

11.2.1 视觉引导解码策略 208

11.2.2 作为大语言模型提示的视觉输入 209

11.2.3 基于相似性搜索的多模态对齐 212

11.3 轻量级适配 213

11.3.1 锁定图像调 213

11.3.2 作为（冻结）语言模型前缀的学视觉嵌入 214

11.3.3 视觉-文本交注意力融合 216

11.4 图文联合训练 219

11.5 检索增强视觉语言模型 222

11.6 视觉指令调整 225

11.7 小结 227

第 12章环境影响 229

12.1 能源消耗和温室气体排放 229

12.2 估算训练模型的排放量 230

12.3 小结 231

参考文献 232

· · · · · · (更多)

下载地址

重要提示！：取消关注公众号后将无法再启用回复功能，不支持解封！

第一步：微信扫码关键公众号“架构师老卢”

第二步：在公众号聊天框发送book：89722，如：

book：89722 获取下载地址

第三步：恭喜你，快去下载你想要的资源吧