利用 GPT-4 通过大量采样和及时工程在 ARC-AGI 数据集上实现最先进的性能
作者描述了他们在 ARC-AGI 数据集上实现 50% 准确率的方法,ARC-AGI 数据集是评估 AI 系统一般推理能力的基准。关键部分是使用 GPT-4o 生成数千个 Python 程序实现,然后根据它们在示例上的表现选择最佳的程序实现。作者使用了各种技术来提高性能,包括专门的提示、特征工程和修订步骤。作者的方法在这个数据集上的表现明显优于之前的最新技术。作者还讨论了这些结果对于大型语言模型局限性的说法的影响。
redwoodresearch.substack.com/p/getting-5…
FTC 起诉 Adobe 隐瞒费用并阻止取消
美国联邦贸易委员会正在对软件公司 Adobe 及其两名高管采取行动,指控他们欺骗消费者。Adobe 强迫消费者购买按年付费的月度订阅计划,但未充分披露提前终止订阅的费用,该费用高达剩余月度付款的 50%。Adobe 还设置了重重障碍,并遭到客户服务部门的抵制,使消费者难以取消订阅。联邦贸易委员会指控这些做法违反了《恢复网上购物者信心法案》。联邦贸易委员会正在寻求对 Adobe 及其两名高管进行民事处罚。
旅行者 1 号恢复运行:NASA 航天器传回所有 4 种仪器的数据
评论:
- • 讨论围绕与先进的外星生命形式接触的潜在风险和后果展开。
- • 用户们讨论了星际旅行者怀有恶意的可能性,一些人认为遇到这种生物的可能性很低,而另一些人则认为造成破坏的可能性很高。
- • 人们认识到,光速限制可能会阻碍“相互确保摧毁”的威慑力,而且高级外星人可能会更不重视自身生存,而更不重视接触或无知带来的好处。
- • 一些用户推测碳基生命形式灭绝和进化的可能性,另一些人则强调自我消灭的挑战和技术对繁殖的影响。
- • 讨论还涉及拟人化的伦理含义以及美洲大陆与外星探测器有关的创始罪孽。
Just Enough Software Architecture:软件设计和工程的实用方法
《Just Enough Software Architecture》是一本旨在教授风险驱动的软件架构和设计方法的书。它使架构知识大众化,使所有开发人员(而不仅仅是架构师)都可以访问。本书侧重于软件开发的技术工程方面,提供实用的建议和模型,帮助开发人员推理中型到大型问题。它涵盖了领域模型、设计模型和代码模型等关键概念,以及确保有效封装和分区的技术。总的来说,本书试图建立一个丰富的软件架构概念模型,帮助开发人员以更全面的方式看待系统。
电子游戏《Baba Is You》挑战了人们对物体、规则和现实本质的传统思维
该文件讨论了电子游戏“Baba is You”,认为它是一种发人深省的认知工具,挑战了传统的心理范畴。游戏模糊了物体和规则之间的区别,允许玩家通过重新排列单词来操纵游戏的物理特性。这引发了关于信息、代理的本质以及物理和生物定律的起源等令人着迷的问题。作者将游戏视为一种“虚拟现实心理假体”,可以提供对生物学、计算机科学和认知科学交叉领域复杂主题的直观理解。作者提出了进一步开发和扩展游戏概念的几种方法,包括人工智能的潜在参与。
thoughtforms.life/a-most-prof…
Threescaper:一个将 Townscaper 模型加载到 Three.js 的网站
Threescaper 是一个由 meliharvey 创建的网站,允许用户将 Townscaper 模型加载到 Three.js 环境中。存储库包含网站的代码,包括 HTML、CSS 和 JavaScript 文件。该项目的主要目的是提供一个平台,用于在 3D 场景中查看和与 Townscaper 模型交互。该网站有一个实时演示,用户可以访问该演示来体验该功能。该项目是开源的,可在 GitHub 上供其他人贡献或用作参考。
如何使用 Postgres 表实现任务队列
该视频讨论了如何在 Postgres 中实现任务队列来处理异步任务,而不是使用 Pub/Sub 或 Kafka 等外部工具。关键是一个简单的表来存储任务详细信息,然后工作进程可以获取并执行该表。这种方法的好处包括重试失败的任务、优先处理某些任务以及避免分布式系统的复杂性。演讲者提供了用于实现此目的的 Postgres 查询和模式的技术细节,以及一些一般原则,例如让计算机而不是用户处理重试。总的来说,该视频提倡使用 Postgres 的内置功能以简单而强大的方式处理许多常见的异步处理需求。
简单解释电子邮件安全措施 SPF、DKIM 和 DMARC,以防止电子邮件欺骗并确保电子邮件到达预期的收件人
本指南用简单的术语解释了 SPF、DKIM 和 DMARC 的电子邮件安全概念。SPF 是域的授权电子邮件发件人列表,DKIM 使用数字签名来验证电子邮件的真实性,DMARC 结合 SPF 和 DKIM 来设置处理未经身份验证的电子邮件的策略。这些技术有助于防止电子邮件欺骗、网络钓鱼攻击和品牌冒充。本指南提供了各种组织如何使用 SPF、DKIM 和 DMARC 的真实示例。它还提供了检查这些电子邮件安全措施的当前状态的步骤并回答了常见的常见问题。本指南旨在以清晰简洁的方式揭开这些重要的电子邮件安全协议的神秘面纱。
超过 400 个大型语言模型的 token 成本估算
本文档详细介绍了 TokenCost 工具,该工具通过跟踪各种大型语言模型 (LLM) 的定价和令牌使用情况,帮助计算使用各种大型语言模型 (LLM) 的估计成本。它包括一个全面的成本表,其中包含来自 OpenAI、Anthropic、Cohere 等提供商的 400 多个 LLM 模型的定价信息。该工具允许用户轻松估算这些模型的提示和完成成本。它还包括准确计算提示中令牌数量的函数。该文档解释了如何安装和使用 TokenCost 工具,并提供了示例代码片段。总体而言,TokenCost 旨在帮助开发人员和 AI 代理更好地理解和管理与使用不同 LLM 服务相关的成本。
企业家开发带有 E-Ink 显示屏的数字交易卡,并计划向游戏设计师出售开发套件
Wyldcards 是具有数字功能的 E-Ink 交易卡,可实现新的游戏机制。创作者是一名软件开发人员,他受到虚构的纸牌游戏的启发,希望使用经济实惠的材料和技术将这一概念变为现实。在制作了卡片原型并开发了必要的硬件和软件后,创作者发起了一项众筹活动来销售 Wyldcard 开发套件。虽然实际制造和运送套件所需的工作比最初预期的要多,但活动还是成功的。总的来说,这个项目对创作者来说是一次有教育意义和收获颇丰的经历,他计划暂时停止这个项目,从事其他项目,然后再回来专门为 Wyldcard 平台设计游戏。