ChatGPT GPT-4 Transformer 模型原理及架构

大家好!最近最夯的 AI 聊天机器人: ChatGPT GPT-4 已上架了,笔者在这边简单介绍一下其模型。

根据文献[1][2], 其模型是 Transformerd 模型架构, 训练分为 pre-trained (预先训练), post-trained, 所谓 pre-trained 可以用来预测文章中下一个 token (语言文本的基本单位,可以想像成"字元"); 而 post-trained 用来优化先前的训练,提高精準度。

[1] https://arxiv.org/pdf/2303.08774.pdf
[2] https://cdn.openai.com/papers/gpt-4-system-card.pdf
此两文献都可由 OpenAI 网站上下载: https://openai.com/research

其实 GPT-4 是 Transformerd 模型架构,再加上 RL (Reinforcement learning, 强化学习) PPO (所谓 PPO 是 "on-policy", 还有另一种是 "off-policy" , 例如: Q-learning), 何谓 "on-policy" 呢? 就是除了原本最佳策略(Greedy algorithm, 简单来说是寻找最佳解)之外, 再提取一部分的资料来作为资料探索(Explorer), 通常比例为 90%,10% (可经由训练结果而自订), 所谓资料探索是寻找没有尝试过的新解法(new solution)。

架构图如下,可于官方网站上看到 https://openai.com/blog/chatgpt
http://img2.58codes.com/2024/20157739mlOv3DkBkz.png

Step 1: 收集提示资料, 训练 SFT 模型
首先,来简单介绍一下其架构,由左上开始,分为三个区块 (Step 1, 2, 3); 第一步就是资料收集,这些资料都来自于 prompt dataset, 来源可能是使用者目前所输入的,或是原本资料库内旧有的 (既有的资料可能经过 RL 强化学习),接下来进行人工标注(labeler),以人为介入模型输出判断。再来就是以微调模型 GPT-3.5 (现在或许是 4), 来训练 SFT 模型(Supervised fine-tuned model)。

Step 2: 训练奖励模型 (RM, Rewars model)
再来是中间 Step 2 的部分,收集比较资料,并且训练奖励(Reward)模型。不同来源或来自于不同模型 (或相同模型) 训练出来的"答案", 经由人工排序 (最佳解到最不可能的解),再将这些数据用来训练奖励模型(RM)。

Step 3: 以 PPO 优化 SFT 最终(佳)模型, 并将输出反馈给奖励模型, 反覆训练调整
最后是右边 Step 3, 使用 PPO 来优化(Optimized) policy (微调的 SFP 模型,也就是文本生成和语意辨识最佳(终)模型),该模型生成的"答案",再进一步餵给奖励模型作评分,反覆训练调整。由此可知,"只有"此步骤没有人为介入。前面两步骤(Step 1, 2) 作为 SFT 模型和奖励模型 (RM) 初始化才有人为介入。

另外笔者也发现 Azure Open AI 悄悄上架了,有兴趣的观众可以研究一下:
https://learn.microsoft.com/zh-tw/azure/cognitive-services/openai/concepts/models


关于作者: 网站小编

码农网专注IT技术教程资源分享平台,学习资源下载网站,58码农网包含计算机技术、网站程序源码下载、编程技术论坛、互联网资源下载等产品服务,提供原创、优质、完整内容的专业码农交流分享平台。

热门文章