240812-240816 早早聊 AI 资讯｜马斯克突然「发射」Grok-2 ！𝕏爆火AI生图网友玩疯，数学编码追平GPT-4o

阅读详细图文，可访问知识库

◇ 马斯克突然「发射」Grok-2 ！𝕏爆火 AI 生图网友玩疯，数学编码追平GPT-4o 🔗 News

Grok - 2测试版发布，包括Grok - 2和轻量级Grok - 2 mini，在编码、数学、推理等方面性能提升，在LMSYS总榜上与GPT - 4o相当。它在遵循指令、提供准确信息、推理和工具使用等方面有进步，在基准测试中多个领域显著改进，生图能力获网友好评。Premium和Premium +用户可访问，8月底将上线企业API平台。xAI还将发布Grok的多模态理解预览版，加强模型推理能力。Grok - 2的发展展示了xAI在AI开发领域的前沿地位，其不断提升的性能和功能将为用户带来更好的体验和服务。

◇ Qwen2-Math 是一系列基于 Qwen2 LLM 构建的专门用于数学解题的语言模型，其数学能力显著超越了开源模型，甚至超过了闭源模型（如 GPT-4o）。 🔗 News

在过去的一年里，我们投入了大量精力研究和增强大型语言模型的推理能力，特别关注它们解决算术和数学问题的能力。今天，我们很高兴推出我们的 Qwen2 系列的一系列数学专用大型语言模型，Qwen2-Math 和 Qwen2-Math-Instruct-1.5B/7B/72B。Qwen2-Math 是基于 Qwen2 大型语言模型构建的一系列专门的数学语言模型，其数学能力显著优于开源模型，甚至是闭源模型（例如 GPT-4o）。我们希望 Qwen2-Math 能够为社区解决复杂数学问题做出贡献。我们在一系列数学基准上评估我们的数学专用模型。下面的结果表明，我们最大的数学专用模型 Qwen2-Math-72B-Instruct 优于最先进的模型，包括 GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro 和 Llama-3.1-405B。

◇ The AI Scientist:迈向全自动开放式科学发现 🔗 News

人工智能面临的一大挑战是开发能够进行科学研究和发现新知识的代理。虽然前沿模型已经被用来帮助人类科学家，例如集思广益或编写代码，但它们仍然需要大量的人工监督或严重局限于特定任务。今天，我们很高兴推出人工智能科学家，这是第一个用于全自动科学发现的综合系统，使大型语言模型 (LLM) 等基础模型能够独立进行研究。与牛津大学的 Foerster 人工智能研究实验室以及不列颠哥伦比亚大学的 Jeff Clune 和 Cong Lu 合作，我们很高兴发布我们的新论文《人工智能科学家：迈向全自动开放式科学发现》。

◇ OpenAI 推出 SWE-bench Verified 🔗 News

作为准备框架的一部分，OpenAI 开发了一系列指标来跟踪、评估和预测模型自主行动的能力。自主完成软件工程任务的能力是模型自主风险类别中中等风险水平的关键组成部分。由于软件工程任务的复杂性、准确评估生成的代码的难度以及模拟真实世界开发场景的挑战，评估这些能力具有挑战性。因此，准备方法还必须包括仔细检查评估本身，以减少低估或高估重要风险类别中性能的可能性。最受欢迎的软件工程评估套件之一是 SWE-bench - 用于评估大型语言模型 (LLM) 解决来自 GitHub 的实际软件问题的能力的基准。基准涉及为代理提供代码存储库和问题描述，并要求它们生成解决该问题描述的问题的补丁。编码代理在 SWE-bench 上取得了令人瞩目的进展，根据截至 2024 年 8 月 5 日的 SWE-bench 排行榜（在新窗口中打开），得分最高的代理在 SWE-bench 上的得分为 20%，在 SWE-bench Lite 上的得分为 43%。OpenAI的测试发现了一些可能难以或无法解决的 SWE-bench 任务，导致 SWE-bench 系统性地低估了模型的自主软件工程能力。OpenAI与 SWE-bench 的作者合作，在基准测试的新版本中解决了这些问题，该版本应该会提供更准确的评估。

◇ 超越恐怖谷！全球500万网友被骗，爆火TEDx演讲者没一个是真人？ 🔗 News

该网页聚焦于 AI 生成图像及相关技术的最新进展。首先提到外网火爆的“TED 演讲者”图像竟全由 AI 生成，令众多网友震惊，连识别软件也难以分辨。Leo Kadieff 利用 Flux 真实版 LoRA 制作的这些图像，通过改进模型和简化提示词增加了真实感。此外，谷歌的 Imagen 3 已开放，虽能处理复杂提示词，但生成人物图像仍需斟酌。Runway 创意总监用 Gen - 3 Alpha 生成的视频虽引起轰动，但存在如舌头不动等 bug，这源于 AI 对人体解剖和物理学理解不足。

◇ 哈佛大学的研究表明，大型语言模型已经深深扎根于学生的日常生活中 🔗 News

哈佛大学本科生协会对 326 名本科生进行的一项调查发现，近 90%的人以大语言模型驱动的聊天机器人的形式使用生成式人工智能。结果表明，人工智能已经在学生生活中牢牢扎根：87.5%的受访者表示他们使用生成式人工智能。在人工智能用户中，大多数人每周至少使用一次该技术，近一半的人至少每隔一天使用一次。

◇ 苹果机器人，来了！ 🔗 News

苹果在 AI 竞赛中落后，谷歌推出的 Pixel 9 系列手机搭载的 AI 功能使其在 AI 手机竞争中领先一步。苹果正在推进桌面机器人项目研发，该机器人配备大尺寸显示屏和机械臂，搭载 Siri 和 Apple Intelligence 技术，兼具多种功能，计划于 2026 或 2027 年推出，售价约 1000 美元。具身智能是 AI 落地的热门概念，各科技公司纷纷布局，苹果入局具身智能赛道只是其进军 AI 赛道的开始，但目前 iPhone 销量增长乏力，苹果似乎进入瓶颈期，能否再创神话仍未可知。

◇ Sparkle ：一款 Mac 应用，可利用 AI 自动整理文件 🔗 News

Sparkle 使用 AI 创建独特的文件夹系统，并将每个新文件（以及所有旧文件）整理到正确的位置。它可以管理您的下载、桌面和文档文件夹，这样您就不必费心了。

◇ 具身智能构型之争：人形、灵巧手、双足，谁是最终 C 位？ 🔗 News

2024 年被视为 “中国具身智能元年”，各玩家在具身智能领域展开竞争，面临诸多核心问题。人形机器人是具身智能最火热的赛道，但关于其是否必要仍存在争议。上肢操作能力逐渐成为焦点，末端执行器的选择也存在分歧，如五指灵巧手与二指夹爪的选择。在移动能力方面，双足和非双足（轮式或轮足式）各有优势和挑战。人形机器人在商业落地层面并非最高效选择，但仍受市场青睐，其发展路径可类比自动驾驶。具身智能时代机器人的最终形态取决于人类的想象力，目前玩家们还需攻克智能实现、软件与硬件耦合等核心关卡。

获取更多全球最新 AI 动态、AI 提效工具，知识题，加入早早聊 AI 圈子，访问 原文链接 加群备注「资讯」...

240812-240816 早早聊 AI 资讯｜ 马斯克突然「发射」Grok-2 ！𝕏爆火AI生图网友玩疯，数学编码追平GPT-4o

240812-240816 早早聊 AI 资讯｜马斯克突然「发射」Grok-2 ！𝕏爆火AI生图网友玩疯，数学编码追平GPT-4o