如何训练评论模型（CriticGPT）

《如何训练评论模型（CriticGPT）》

来源专题：数智化图书情报
编译者： 程冰
发布时间：2024-07-20
根据OpenAI展示的论文显示，训练CriticGPT模型的第一步是通过篡改的方式开发一套动态数据生成机制，在数据集中故意地在模型生成的答案中插入错误内容。

这不仅是简单地添加错误，而是要求篡改记录下他们插入的每个错误的详细描述，就像在代码审查中发现了这些错误一样，为训练数据提供了丰富的错误示例。

然后，再训练一个奖励模型来预测人类对评论质量的排名。这个奖励模型的目的是评估评论模型生成的评论是否全面、是否包含了特定的错误，以及是否避免了无关紧要的问题或虚假错误。

通过这种方式，可确保评论模型在生成评论时能够平衡准确性和全面性。

在策略优化阶段，使用了近端策略优化（PPO）算法来优化评论模型的行为策略，允许模型在保持策略更新幅度较小的同时，有效地学习如何改进其输出。

同时引入了一种FSBS的推理采样策略，通过在生成评论时强制模型产生特定的高亮部分，然后根据奖励模型的评分选择最佳评论。这种方法允许模型在生成更长、更全面的评论时，减少虚假问题的产生。

根据实验数据显示，评论模型在检测代码错误的表现非常出色，相比人类高出60%，比很多专业的外包更能发现大模型输出的问题所在。

但OpenAI表示，CriticGPT并非总是正确的，有时候也可能输出不正确的内容来误导人类。所以，在使用时需要搭配使用。

展开更多
原文来源：https://mp.weixin.qq.com/s/8_E6nwEEG2n32KBFTXxPuA

155浏览量

0点赞

原文链接

相关报告

《OpenAI发布基于GPT-4的最新模型CriticGPT》
- 来源专题：数智化图书情报
- 编译者：程冰
- 发布时间：2024-07-20
- 6月28日凌晨，OpenAI在官网发布了，基于GPT-4的最新模型CriticGPT。与以往模型不同的是，CriticGPT是一款面向开发人员的产品，可以增强RLHF（人类反馈强化学习）的效率培育出质量更好的训练数据。所以，CriticGPT也被OpenAI称为“评论GPT”，主要用来审核ChatGPT输出的代码等内容，并解释内容到底错在哪里。例如，让ChatGPT用Python写一个函数，表示文件路径的字符串路径作为输入，并在“path”处返回文件的file对象。ChatGPT很快就能给出完整代码，但是这段代码是有很大的安全漏洞，例如，使用“Startswitch（）”检查文件的绝对路径是否在目录中非常不安全。因为，用户可以通过符号链接或类似地命名目录来利用此漏洞。而CriticGPT就是专门用来查找这种错误。论文地址：https://cdn.openai.com/llm-critics-help-catch-llm-bugs-paper.pdf
  
  展开更多
227浏览量

0点赞

收藏

原文链接
《英伟达的新款 Blackwell GPU 可以训练包含数万亿参数的 AI 模型》
- 来源专题：新一代信息技术
- 编译者：isticzz2022
- 发布时间：2024-03-20
- 英伟达(Nvidia)目前最新、最快的GPU代号为Blackwell，它将在今年支持该公司的人工智能计划。这款芯片的性能比其前身有所提高，包括炙手可热的H100和A100 GPU。客户要求更高的人工智能性能，GPU正逐渐达到满足对更高性能GPU的需求。英伟达负责高性能和超大规模计算的副总裁伊恩·巴克在新闻发布会上表示，具有多达576个Blackwell GPU的系统可以配对以训练数万亿参数模型。GPU拥有2080亿个晶体管，采用台积电的4纳米工艺制造。这大约是前代H100 GPU的2.5倍，是性能显著提高的第一条线索。人工智能是一个内存密集型过程，数据需要临时存储在RAM中。GPU有192GB的HBM3E内存，与去年的H200 GPU相同。英伟达正专注于扩大Blackwell gpu的数量，以承担更大的人工智能任务。Buck表示:“这将使人工智能数据中心的规模超过10万个GPU。该GPU在单个GPU上提供每秒20千万亿次的人工智能性能。” 巴克提供了模糊的性能数字，真实的性能数字是不可用的。然而，英伟达很可能使用FP4 (Blackwell的一种新数据类型)来测量性能并达到20千万亿次的性能数字。前代H100为FP8数据类型提供了4万亿次的性能，为FP16提供了约2千兆次的性能。Buck说：“它的训练性能是Hopper的四倍，推理性能是整体的30倍，能效提高了25倍。”。 FP4数据类型用于推理，将允许以最快的速度计算较小的数据包，并更快地返回结果。AI性能更快，但精度更低。FP64和FP32提供了更精确的计算，但不是为人工智能设计的。GPU由两个封装在一起的芯片组成。它们通过一个名为NV-HBI的接口进行通信，该接口以每秒10tb的速度传输信息。Blackwell的192GB HBM3E内存由8tb /秒的内存带宽支持。英伟达还创建了带有Blackwell GPU和Grace CPU的系统。首先，它创建了GB200超级芯片，将两个Blackwell GPU与它的Grace CPU配对。其次，该公司创建了一个名为GB200 NVL72的全机架系统，该系统具有液体冷却功能，它有36个GB200超级芯片和72个GPU以网格形式互连。 GB200 NVL72系统提供了720 PB的训练性能和1.4 EB的推理性能。它可以支持27万亿个参数模型大小。GPU通过新的NVLink互连互连，该互连具有1.8TB/s的带宽。GB200 NVL72将于今年向包括谷歌云和甲骨文云在内的云提供商推出。它也将通过微软的Azure和AWS提供。英伟达正在与AWS合作开发一款名为Project Ceiba的人工智能超级计算机，该计算机可以提供400 EB的人工智能性能。Buck说：“我们现在已经将其升级为Grace Blackwell，支持……20000个GPU，现在将提供超过400 EB的人工智能。该系统将于今年晚些时候上线。” 英伟达还宣布了一款名为DGX SuperPOD的人工智能超级计算机，它有八个GB200系统，即576个GPU，可以提供11.5 EB的FP4人工智能性能。GB200系统可以通过NVLink互连进行连接，该互连可以在短距离内保持高速。此外，DGX SuperPOD可以将数万个GPU与英伟达Quantum InfiniBand网络堆栈连接起来。此网络带宽为每秒1800 GB。英伟达还推出了另一款名为DGX B200的系统，其中包括英特尔的第五代至强芯片Emerald Rapids。该系统将八个B200 GPU与两个Emerald Rapids芯片配对。它也可以设计成基于x86的SuperPod系统。该系统可提供高达144 PB的AI性能，包括1.4TB的GPU内存和64TB/s的内存带宽。 DGX系统将于今年晚些时候推出。英伟达DGX系统副总裁Charlie Boyle在接受HPCwire采访时表示，Blackwell GPU和DGX系统具有预测性维护功能，可保持最佳状态。博伊尔说：“我们每秒监测1000个数据点，看看如何以最佳方式完成这项工作。”预测性维护功能类似于服务器中的RAS（可靠性、可用性和可维护性）功能。它是系统和GPU中硬件和软件RAS功能的组合。博伊尔说：“芯片中有一些特定的新功能，可以帮助我们预测正在发生的事情。这个功能并不是查看所有GPU的数据轨迹。”
  
  展开更多
278浏览量

0点赞

收藏

原文链接

《如何训练评论模型（CriticGPT）》

《OpenAI发布基于GPT-4的最新模型CriticGPT》

《英伟达的新款 Blackwell GPU 可以训练包含数万亿参数的 AI 模型》