在整体技术路线上,Chat GPT引入了“手动标注数据+强化学习”(RLHF,从人的反馈进行强化学习)来不断Fine-tune预训练语言模型。主要目的是让LLM模型学会理解人类命令的含义(比如写一篇短文生成问题、知识回答问题、头脑风暴问题等不同类型的命令),让LLM学会判断对于给定的提示输入指令(用户的问题)什么样的回答是优质的(富含信息、内容丰富、对用户有帮助、无害、不包含歧视信息等多种标准)。
在“人工标注数据+强化学习”的框架下,具体来说,Chat GPT的训练过程分为以下三个阶段:
一、第一阶段:监督调优模型
就 GPT 3.5 本身而言,虽然功能强大,但很难理解不同类型人类的不同指令所体现的不同意图,也很难判断生成的内容是否是高质量的结果。为了让GPT 3.5初步理解指令中包含的意图,将随机选择一批测试用户提交的prompt(即指令或问题),由专业标注人员对指定指令提供高质量的答案,然后专业人员标注数据对GPT 3.5模型进行微调。通过这个过程,可以假设 GPT 3.5 最初具有理解人类命令中包含的意图并根据这些意图提供相对高质量答案的能力。
第一阶段的首要任务是通过收集数据以训练监督的策略模型。
数据采集:选择提示列表,要求标注者写出预期结果。Chat GPT 使用两种不同的prompt 来源:一些是直接使用注释者或研究人员生成的,另一些是从 OpenAI 的API 请求(即来自 GPT-3 用户)获得的。尽管整个过程缓慢且昂贵,但最终结果是一个相对较小的高质量数据集(大概有 12-15k 个数据点),可用于调整预训练语言模型。
模型选择:Chat GPT 开发人员从 GPT-3.5 套件中选择预训练模型,而不是对原始 GPT-3 模型进行微调。使用的基础模型是最新版本的text-davinci-003(用程序代码调优的GPT-3模型)。
在“人工标注数据+强化学习”的框架下,具体来说,Chat GPT的训练过程分为以下三个阶段:
一、第一阶段:监督调优模型
就 GPT 3.5 本身而言,虽然功能强大,但很难理解不同类型人类的不同指令所体现的不同意图,也很难判断生成的内容是否是高质量的结果。为了让GPT 3.5初步理解指令中包含的意图,将随机选择一批测试用户提交的prompt(即指令或问题),由专业标注人员对指定指令提供高质量的答案,然后专业人员标注数据对GPT 3.5模型进行微调。通过这个过程,可以假设 GPT 3.5 最初具有理解人类命令中包含的意图并根据这些意图提供相对高质量答案的能力。
第一阶段的首要任务是通过收集数据以训练监督的策略模型。
数据采集:选择提示列表,要求标注者写出预期结果。Chat GPT 使用两种不同的prompt 来源:一些是直接使用注释者或研究人员生成的,另一些是从 OpenAI 的API 请求(即来自 GPT-3 用户)获得的。尽管整个过程缓慢且昂贵,但最终结果是一个相对较小的高质量数据集(大概有 12-15k 个数据点),可用于调整预训练语言模型。
模型选择:Chat GPT 开发人员从 GPT-3.5 套件中选择预训练模型,而不是对原始 GPT-3 模型进行微调。使用的基础模型是最新版本的text-davinci-003(用程序代码调优的GPT-3模型)。