CriticGPT:用 GPT-4 发现 GPT-4 的错误;Gemma 2:以实用规模改进开放语言模型

33 阅读11分钟

CriticGPT:用 GPT-4 发现 GPT-4 的错误

Anthropic 开发了一个名为 CriticGPT 的模型,该模型基于 GPT-4,可以编写批评来帮助人类训练师识别 ChatGPT 代码输出中的错误。CriticGPT 使用 RLHF 进行训练,但与 ChatGPT 不同,它看到许多故意插入错误的代码示例。实验表明,使用 CriticGPT 批评的人 60% 的时间比没有人工智能帮助的人表现更好。与没有辅助的人类批评相比,CriticGPT 产生的无益“挑剔”和幻觉更少。然而,该模型有局限性,例如只能识别局部错误,而不是复杂响应中的分散问题。Anthropic 计划进一步开发和集成类似 CriticGPT 的模型到他们的 RLHF 标记管道中,以更好地评估高级人工智能系统。

openai.com/index/findi…

Gemma 2:以实用规模改进开放语言模型

Gemma 2 是一系列全新的轻量级、最先进的开放语言模型,参数范围从 20 亿到 270 亿。这些模型采用了一些技术改进,例如交错局部全局注意力和群组查询注意力。2B 和 9B 模型使用知识蒸馏而不是下一个标记预测进行训练。由此产生的模型提供了同类最佳的性能,甚至可以与更大的模型相媲美。作者向社区发布了所有 Gemma 2 模型。

主要发现和影响:

  1. 1. 从较大的模型中进行知识提炼可以显著提高较小的 2B 和 9B 模型的性能,即使在与以前的版本相同数量的数据上进行训练也是如此。
  2. 2. 交错局部全局注意力和群查询注意力等架构变化有助于模型在各自的规模上取得最先进的结果。
  3. 3. 这些高性能、开源模型的发布具有实用规模,为社区提供了强大的语言理解和生成能力。

storage.googleapis.com/deepmind-me…

Google Sheets 将计算工作器从 JavaScript 迁移到 WasmGC,从而提高了性能并实现了更好的多平台支持

Google Sheets 最初使用 Java 在服务器上运行其计算引擎,但后来将其转移到使用 JavaScript 在浏览器中运行。但是,JavaScript 版本比 Java 版本慢 3 倍以上。为了解决这一性能差距,Google 与 Chrome 团队合作,将 Sheets 计算引擎迁移到 WasmGC 上运行,WasmGC 是 WebAssembly 的一个新扩展,支持 Java 等垃圾收集语言。

迁移过程涉及克服各种挑战,例如缺乏工具以及需要寻找 JavaScript 库的替代品。虽然最初的 WasmGC 版本仍然比 JavaScript 慢,但团队能够确定并实施多项优化,包括从其他工具链复制现有的优化、利用本机浏览器 API 以及重写​​代码以使其更加与平台无关。

Google Sheets 案例研究展示了 WasmGC 提高使用垃圾收集语言构建的 Web 应用程序性能的潜力。Google 希望看到 WasmGC 的进一步发展,例如对共享内存多线程的支持,并鼓励 Web 开发人员考虑将 WasmGC 用于他们的高性能项目。

web.dev/case-studie…

TikTok、Uber、X 的身份验证服务暴露了驾驶执照

AU10TIX 是一家以色列公司,为 TikTok、Uber 等公司提供身份验证服务。这包括验证人们的身份证件、进行活体检测和年龄验证。然而,AU10TIX 在网上暴露了管理凭证超过一年,可能让黑客有机会访问敏感的用户数据。这次泄密凸显了身份验证服务的安全风险,因为它们本身也可能成为黑客的目标。文章指出,越来越多的社交网络和网站正转向要求用户提供真实的身份证件才能访问某些服务。

www.404media.co/id-verifica…

项目管理对于创造优质产品很有用,但重要的是不要丧失最初想法的精神

该文件描述了作者在建造“Valve.Computer”时的项目管理经验。最初,作者在项目的规划和技术复杂性方面遇到了困难,但最终找到了简化设计和施工的解决方案。作者的家人在项目管理方面经验丰富,但太忙了,无法提供指导。尽管遇到了一些挫折,包括电脑两次着火,但作者坚持了下来,并发现这个过程很有回报。作者强调拥有一个支持他们的配偶、理解他们“愚蠢”的努力的重要性。总的来说,该文件反映了通过管理复杂技术项目的实践经验所面临的挑战和学到的经验教训。

www.valve.computer/

Dorkly 是一个基于 LaunchDarkly 的 SDK 构建的开源功能标记系统,可跨多种语言实现一致实现

Dorkly 是一个免费的开源功能标记系统,使用 LaunchDarkly 的 SDK。它旨在成为一个简单的功能标记系统,而无需使用其他工具的复杂性。Dorkly 由一个 Dockerized 服务器进程组成,您的应用在运行时连接到该进程以请求标记数据。标记规则在 GitHub 中使用 YAML 格式进行管理。Dorkly 仍处于早期开发阶段,但如果您不介意当前的服务器拓扑可用性不高,则可以在生产中使用。该项目欢迎反馈、早期采用者和贡献者。

github.com/dorklyorg/d…

Larry Finger 是一位执着而耐心的 Linux 内核贡献者,他帮助改善了无线支持并指导了开源社区的其他人

Larry Finger 是一位多产的 Linux 内核贡献者,因改进 Linux 无线支持(尤其是针对 Broadcom 和 Realtek 硬件)而闻名。他从事计算机行业多年,从 20 世纪 60 年代的 Fortran 编程开始,后来从事 Unix/Linux 系统。退休后,他帮助亚利桑那州的一个 RV 度假村社区建立了一个 DIY Linux 网络。Finger 因其指导他人为 Linux 内核做出贡献而受到称赞。尽管没有接受过正规的计算机科学培训,但 Finger 几十年来为 Linux 内核做出了重大贡献,证明了即使没有传统资质,也可以进行大量的开源工作。

arstechnica.com/gadgets/202…

我希望曾被教过的课程

  1. 1. 作者列出了他希望能学到的 10 堂课,涵盖有效讲课、出版策略以及作为一名数学家如何应对老年等主题。
  2. 2. 主要的讲课技巧包括:突出重点、不超时、与听众建立联系、给他们留下难忘的印象。
  3. 3. 作者建议在不同的场合和格式多次发表相同的结果,以覆盖不同的数学界,并强调说明性工作比原创研究更有影响力。
  4. 4. 作者指出,即使是像希尔伯特和费曼这样伟大的数学家,在工作中也只是依赖有限的“技巧”,接受和纠正错误非常重要。
  5. 5. 随着数学家年龄的增长,作者建议他们应该接受被视为一个“机构”而不是个人,并享受这一新角色。

关键的含义在于清晰、引人入胜的数学交流的重要性、说明性工作和重复出版的战略价值,以及职业生涯发展过程中谦逊和适应性的必要性。

www.ams.org/notices/199…

Python 开发人员讨论适应应用商店审核流程

由于 urllib 解析器中存在“itms-services”字符串,Python 3.12 导致 Apple 应用商店拒绝了一些 Python 应用。这引发了 Python 开发人员之间的讨论,即是否应该将适应应用商店审核流程作为 CPython 的设计目标。他们考虑了几种方法,包括混淆、配置文件和名为“--with-app-store-compliance”的构建时选项。Python 项目决定实现“--with-app-store-compliance”选项,该选项将在 Python 3.13 中提供。这个问题凸显了像 Python 这样的自由软件项目在不得不解决非自由平台不透明的审核流程时所面临的挫败感。

lwn.net/SubscriberL…

Moaan InkPalm Plus 是一款小型、价格实惠的基于 Android 的电子阅读器,具有一些奇特但实用的功能,例如物理按钮和可自定义的控件

作者是小型科技设备的粉丝,他评测了 Moaan InkPalm Plus,这是一款低成本的紧凑型电子阅读器。尽管存在一些局限性,例如镜面屏幕和语言障碍,但作者发现该设备的小尺寸和物理翻页按钮很有吸引力,尤其是与更昂贵的选择相比。虽然阅读体验不如作者的 Kobo 电子阅读器那么精致,但 InkPalm Plus 提供了实用且价格合理的电子阅读体验。作者希望主流电子阅读器制造商将来能开始生产类似的紧凑型设备。总体而言,InkPalm Plus 似乎是一款符合作者需求的物美价廉的电子阅读器选择。

sixcolors.com/post/2024/0…

Kinopio源代码公开,允许用户运行、修改和贡献该应用程序

Kinopio 是一款基于网络的应用程序,它通过开放其客户端代码来庆祝其 5 周年。这允许用户在自己的计算机上运行 Kinopio、进行更改并分享改进。开源过程被描述为既亲密又直接,提供了简单的安装步骤。作者讨论了开源付费软件的好处和潜在风险,并指出贡献是值得赞赏的,但可能会增加审查负担。总的来说,目标是进一步分享维护和改进 Kinopio 的工作。

pketh.org/open-sourci…

开发人员的生产力是一个复杂的话题,需要对软件开发过程和影响开发人员绩效的因素有细致的了解

本文讨论了作者对开发人员生产力的看法,以及它经常被误解的原因。作者认为,常见的软件开发生命周期 (SDLC) 模型未能捕捉到代码实际理解和编写的关键内部循环。这个内部循环涉及达到专注生产力的“流动状态”,而这种状态可能会被中断所打断。作者建议不要通过代码行数或提交次数来衡量开发人员的生产力,而是通过“开发人员赫兹”——通过这个内部循环的迭代频率。本文还涉及团队合作和团队规模如何影响开发人员的生产力,由于协调开销,较大的团队会面临收益递减的问题。总的来说,作者主张采用能够更好地反映软件开发的创造性和迭代性的思维模型和指标。

sourcegraph.com/blog/develo…

CSS 锚定位使得使用 CSS 创建流程图和图表成为可能,而无需复杂的 JavaScript

CSS 锚点定位是 Chrome 中的一项新功能,允许将一个元素相对于另一个元素进行定位。此功能可用于仅使用 CSS 创建基本流程图。关键是定义元素的锚点名称,然后相对于这些锚点定位其他元素。这允许在流程图中的节点之间创建线条和箭头。可以通过添加更多节点并链接锚点来扩展该技术,并使用一些额外的 CSS 技巧来处理定位。还可以添加一些 JavaScript 以使节点可拖动,从而创建完全交互的流程图。

coryrylan.com/blog/flow-c…

gRPC 存在一些设计和可用性挑战,可能会阻碍其更广泛的应用,但其中许多问题正在随着时间的推移得到解决

gRPC 是一个功能强大的 RPC 框架,但它也有一些缺点。学习难度高,复杂的术语和工具可能会成为障碍,尤其是对于动态语言而言。gRPC 对 HTTP/2 的依赖以及缺乏标准化的 JSON 映射最初限制了它的覆盖范围和可访问性。缺乏处理大型消息的标准化方法也是一个弱点。尽管存在这些问题,但其中许多问题正在得到解决,并且 gRPC 社区仍然很活跃,Buf CLI 等新工具改善了开发人员的体验。总体而言,承认 gRPC 的缺点对于确保其持续发展和更广泛的采用非常重要。

kmcd.dev/posts/grpc-…