ChatGPT和Claude的背后原理RLHF,以及解决如何订阅问题

660 阅读7分钟

值得!!今年是AI元年了,不多接触AI的话,后面可能会落后更多,现在00后10后都从事AI行业了,最近也有很多AI职业出现。

文章下面会教大家如何在国内使用Chatgpt!!!

目前ChatGTP和Claude 3是比较流行的大模型,它们都是新一代语言大模型行业的领头羊。而ChatGPT和Claude 3为什么那么火呢?国外和国内的大模型相比较,哪个值得尝试呢?那么它们背后的原理又是什么呢?

原理

首先,ChatGPT和Claude3背后的秘密武器就是RLHF。其中秘密武器RLHF,开源界围绕着它做了不少工作,不过想要重现OpenAI的RLHF pipeline很是困难。 主要有这么几个原因:

  • RL和RLHF有许多微妙的实现细节,这些细节对训练稳定性有很大影响;
  • 对于指令遵循任务,如评估一个编码任务中生成的800行代码片段的质量,评估模型的表现不太行;
  • 模型需要长时间的训练和迭代。

RLHF通常包括以下三个步骤。

步骤1:训练SFT(监督微调)策略

使用下一个词预测损失对预训练的LLM进行微调,这些微调数据基于人类示范。 在这项复现工作中,人类示范数据与OpenAI的工作保持一致,选自过滤后的Reddit TL;DR(Too Long; Didn’t Read)数据集(当时OpenAI还Open了他们的人类反馈数据集)。

步骤2:收集偏好对并训练RM(奖励模型)

使用SFT策略等采样不同完成序列,让人类标注员指出他们较偏好的序列。 基于这些偏好数据,通过在SFT策略上添加一个随机初始化的线性头来初始化RM,并优化交叉熵损失函数进行训练,目标是预测人类标注员更倾向于接受哪种完成序列。

步骤3:针对RM训练RL(强化学习)策略

从SFT策略初始化,RL策略根据RM对采样的完成序列给出奖励分数,同时加上一个KL惩罚项以防止过度偏离SFT策略。然后使用PPO算法最大化这个RLHF目标函数。 研究人员针从数据集到SFT、RM、OPP,共介绍了25个复现细节,深入分析了TL;DR数据集的规格、分词过程和分词长度分布。同时,详细描述了SFT和RM组件的训练设置、实施细节和结果。 感兴趣的家人们可以划到最后查看论文,这里罗列了作者认为有趣的细节。

升级订阅方式

如果没有使用过ChatGPT 和 Claude 3的伙伴,可以去官方直接尝试对比国内大模型,现在的GPT3已经是无需注册就可以使用,但是不注册的话,官方称,聊天记录无法保持,并且数据会被拿来训练。如果需要拿OpenAI的GPT3的API进行二次开发的话,还是需要注册账号的开通的。

目前,国内的chatgpt是暂停升级的,但是办法总比困难多。下面可以看gpt4升级的详细教程。 不管你是移动端、还是PC端。ChatGPT 官方暂停了升级 GPT4.0 Plus 的入口,不过目前官网还可以直接升级。请注意,该情况可能会变化(截至2024.4月,此途径仍然可用)。

重要提示:此前流传的通过支付宝购买 Apple Store 礼品卡,然后在 iOS 客户端升级的方法现已不可行,因为 iOS 客户端暂停了升级服务。

目前已成功,已经玩了几天了,GPT4.0 的插件能力非常强。

ChatGPT4.0 Plus 的升级步骤

1. 首先需要准备的工作

如果你还没有 ChatGPT 账号,建议先注册一个。目前大家普遍遇到的主要问题有两个:

  1. ChatGPT 官方入口关闭(本文会介绍如何插队立马支付)。
  2. 缺乏国外visa/maste类型的信用卡(本文会介绍如何 3 分钟开卡)。

2. 解决方案

2.1 怎么绕过官方入口

登录 ChatGPT 官网之后,在当前浏览器下,新开一个标签页,点击下面的链接就可以直接进入升级页: chat.openai.com/invite/acce…

2.2 如何获取虚拟卡

目前我找到一个方式,非常方便,全程大概 3 分钟以内搞定! 完美解决缺乏国外信用卡银行卡的一些问题: bewildcard.com/i/UPGPT

然后服务需要选择 Wildcard ,这个是虚拟卡,已经稳定上线一年了,建议用虚拟卡自己订阅升级gpt或claude3:

这家国内的公司应该是专门解决这个问题的,会使用支付宝进行实名认证,大家不用担心,这个是因为走银联通道购汇需要,不用担心安全问题~ 关键是!!大家不用担心充进去就取不出来了,如果没消费成功,亲测可以秒提到支付宝:

关键是这个卡片,不仅可以用来订阅 ChatGPT,一些常见的国外付费订阅软件都可以使用,强烈推荐开一个~ 目前我自己已经使用 3 个月了,挺靠谱的,性价比高。

3. 如何升级 Chatgpt

在当前浏览器地址栏输入 chat.openai.com网址访问openai官网,登录自己的openai帐户后,点击左下角的 Upgrade to Plus,在弹窗中选择 Upgrade plan 计划。

3.1 gpt升级需要排队怎么办?

如果是新账户,显示升级需要排队,可以在登录 gpt 之后,再访问下面这个网址,就可以绕过排队,直接升级 Plus。chat.openai.com/invite/acce…

3.2 如何绑定 WildCard 卡片来升级 Plus

在升级 Plus 之前,需要先绑定 WildCard 卡片。点击升级 Plus 按钮后,会弹出一个 Stripe 绑卡的页面,依次填入您的 WildCard 卡号、有效月份/年份、CVC(即您的 CVV )、姓名拼音(名字拼音在前,姓氏拼音在后,中间一定要有空格)和我们提供的美国账单地址。 【注意:绑定卡的话,要确保卡片余额。 另外记得取消掉chatgpt plus 会员 自动续费订阅服务】。 因为升级ChatGPT plus后,Open AI默认打开自动续费,记得取消一下就可以。

正常情况下点击「订阅」按钮即可成功。

3.3 绑定出现问题怎么办?

如果出现 unable to authorize/未能验证您的支付方式/card has been declined/银行卡被拒绝 这类错误,排除下,如果不是因为卡片余额不足,主要是因为使用的网络环境被太多人用来支付,被识别为了机器人或高风险操作导致了这个报错。 可以直接找客服协助绑定,1 分钟搞定。客服回复速度很快,5分钟内会做出回复。然后需要给客服发送两个内容。 首先是支付页面的网址,需要您返回上一步,然后重新点击 Upgrade 进入一下 chatgpt 的付款页面,什么内容都不要填,直接把复制一下 pay.openai.com 开头的那个全部网址,发给客服。

另外是卡片信息,点击卡片右上角的复制全部即可

PS:最近Open AI也发布了GPT5的红队训练,估计和Sora将计划一起在今年开放。不过GPT5和Sora估计是优先给gpt4升级付费用户开放先的了

其他参考资料链接:

  1. (内附详细教程2024/4月最新)国内的gpt4暂停升级,GPT4、GPT4.0、GPT3.5 升级教程,ChatGPT Plus无法开通升级的教程
  2. 通过虚拟卡升级开通GPT
  3. x.com/vwxyzjn/sta…