谷歌终于赢了 OpenAI 一回，Gemini 1.5 Pro 模型超越 GPT-4o，正确处理 9.9 > 9.19｜AGI 掘金资讯 8.5

酱酱们中午好～今天的 AGI 掘金热点资讯来啦，我们知识库上线了 AI 小助手，欢迎来撩！

🌟 技术突破

🔗 谷歌终于赢了 OpenAI 一回，Gemini 1.5 Pro 模型超越 GPT-4o，正确处理 9.9 > 9.19

Google DeepMind 的 Gemini 1.5 Pro 实验模型在 lmsys Chatbot Arena 的测试中以 1300 分首次超越 OpenAI 的 GPT-4o。该模型在图像和 PDF 处理方面表现出色，得益于 Google TPU 的加速，模型迭代速度显著提升。谷歌的 TPU 优势可能使其在计算能力上超越其他实验室，而模型的多语言和视觉处理能力则由后期训练和数据策略所驱动。业界期待下半年大模型间更激烈的竞争。

🔗 世界首例！AI 机器人做牙科手术，8 倍速诊疗比人类医生更精准

波士顿 Perceptive 公司开发的 AI 机器人牙医成功执行了全球首次全自主牙科手术，其诊疗速度是传统人类医生的 8 倍。该机器人配备了 OCT 3D 成像系统，能生成高分辨率的牙齿内部图像，提高诊断的准确率。机器人牙医通过物理连接实现即时运动补偿，确保手术安全。此外，机器人的精确操作可实现更精细的修复体安装，有望在未来几年内商业化，为牙科行业带来革命性变革。

🔗 0.5 秒图变 3D！Stability AI 推出 Stable Fast 3D

Stability AI 公司推出 Stable Fast 3D 模型，通过 AI 技术，能在 0.5 秒内将单张图片转化为 3D 模型，速度提升 1200 倍。该技术基于与 TripoSR 模型的合作，优化了模型架构，提高了网格生成效率和图像质量。Stable Fast 3D 利用增强型 Transformer 网络处理高分辨率图像，减少混叠，同时集成了新技术，提升了材料和光照估计的准确性。这一进展预示着 AI 在 3D 领域的新突破，为游戏、建筑、零售和虚拟现实等行业带来深远影响。

🔗 大模型成私人导游，一键规划 Citywalk，港大 MIT 联合出品

ITINERA 是由香港大学和麻省理工学院联合开发的智能 Citywalk 行程规划系统，该系统融合了大型语言模型（LLM）与空间优化技术，能够根据用户个性化需求，实时生成合理的城市漫游路线。系统通过五个模块协同工作，包括用户兴趣点数据库构建、请求解析、偏好检索、空间优化和行程生成，确保了行程的个性化和空间连贯性。在四个城市数据集上的评估显示，ITINERA 在多个指标上优于传统方法，包括 POI 召回率、路线合理度等，展现了其在开放域行程规划中的高效性和准确性。

🔗 比 OpenAI 的 Whisper 快 50%，最新开源语音模型 Whisper-Medusa

aiOla 公司在其官网开源了 Whisper-Medusa 语音模型，该模型基于 OpenAI 的 Whisper 架构，通过引入多头注意力机制实现并行计算，推理效率提升 50%。Whisper-Medusa 能够并行预测多个 token，增强了模型的表达能力和捕捉长程依赖的能力。它使用了弱监督方法和优化的损失函数，无需大量人工标注即可训练。该模型支持 100 多种语言，适用于翻译、金融等行业，未来计划扩展至 20 头注意力机制，进一步提升效率。

🔗 AMD 发布本地文生图模型，比 SD3 更简单易用

AMD 官网发布了 Amuse 2.0 Beta 版本，一款针对 PC 本地的文生图模型。该模型针对 AMD Ryzen™ AI 300 系列处理器和 Radeon™ RX 7000 系列显卡进行了优化，简化了安装过程，用户无需高深编码知识即可部署。Amuse 2.0 Beta 支持超分辨率技术，能将图片从 512x512 无损扩展至 1024x1024，并提供 AI 滤镜功能以打造个性化风格图片。建议使用 AMD 的 CPU 和 GPU 以获得最佳性能。

🔗 日本创企“人机一体”研发人形机器人，可自动保持身体平衡

日本创新企业“人机一体”与立命馆大学合作开发了一款新型人形机器人。这款机器人高 2 米、宽 70 厘米、重 90 公斤，能够通过远程控制实现手脚动作，同时具备自动平衡功能，即使在复杂环境中也能保持稳定。机器人足底传感器能感应外力，即使受到拉扯也能维持平衡。企业计划 5 年内在危险场地如高处投入使用，以提高作业安全性。

💫 企业动态

🔗 Transformer 作者回流谷歌，Character.AI 创始团队被「收购」，只要人不要公司

AI 初创公司 Character.AI 与谷歌达成协议，谷歌获得其大型语言模型的非独家许可。Character.AI 的创始人 Noam Shazeer 和 Daniel De Freitas，同时也是谷歌前员工，将重返谷歌 DeepMind。约 30 名研究团队成员也将加入谷歌，而 Character.AI 其他 140 名员工将面临未来选择。谷歌对 Character.AI 的估值为 25 亿美元，这笔交易可能预示着大型科技企业对 AI 初创公司的人才和技术的进一步吸纳。

🔗 英伟达回应 AI 芯片短缺，Blackwell 下半年量产

针对 AI 芯片推迟发布的传闻，英伟达回应称 Hopper 需求强劲，Blackwell 样品已广泛试用，预计下半年将增加产量。此前有报道指出设计缺陷可能导致发布推迟，影响包括 Meta、谷歌和微软在内的客户。英伟达 7 月向台积电增加 4nm 芯片订单，Blackwell 平台 GPU 芯片投片量提升 25%，预计搭载 AI 芯片的服务器将开启 AI 领域新篇章。

🔗 Stable Diffusion 原班人马新公司官宣！新模型一夜刷新 AI 绘画格局，已获 2.3 亿元融资

Stable Diffusion 原班人马成立的 Black Forest Lab 推出三款新 AI 图像生成模型，其中两款开源，支持中文输入。新模型 FLUX.1 系列在视觉质量、指令遵循等方面超越现有技术，获得资本市场和业界认可，融资 3200 万美元。公司致力于推进高质量图像和视频生成技术，目标为最广泛的受众提供服务。

🔗 重金求声？Meta 被曝以数百万美元“买下”好莱坞明星声音授权，用于 AI 项目

根据彭博社报道，Meta 公司正与好莱坞明星如朱迪·丹奇、奥卡菲娜和凯根·迈克尔·基等进行谈判，计划支付数百万美元以获得他们的声音授权，用于 AI 项目。该项目旨在开发一款能作为数字助理或用户朋友的聊天机器人，预计在 9 月的 Connect 2024 大会上展示。尽管谈判曾因使用条款而停滞，但 SAG-AFTRA 已与 Meta 达成协议。此外，Meta 曾尝试创建基于文本的聊天机器人，但该项目已被取消，公司还推出了 AI 工作室供内容创作者制作聊天机器人。

🔗 微软 Azure AI 与 GitHub 深度整合，大幅简化 AI 应用开发流程

微软宣布 Azure AI 与 GitHub 的深度整合，为开发者提供一体化的 AI 应用开发体验。通过 GitHub 直接调用 Azure AI 服务，实现代码编写、模型训练到部署的无缝操作，提升了开发效率和团队协作。新功能包括代码生成、AI 辅助编程和自动化测试，GitHub Models 提供 Azure AI 模型库访问，简化模型选择和实验过程。同时，集成了安全功能，保护内容安全，降低网络安全风险。企业可通过 Azure 订阅访问 GitHub Enterprise，实现云原生平台与企业级安全性的结合。

🔗 AI 大语言模型价格战将启？谷歌下调 Gemini 1.5 Flash 费用，降幅高达 78.6%

谷歌宣布自 2024 年 8 月 12 日起，大幅降低其 Gemini 1.5 Flash AI 模型的使用成本，每百万输入 tokens 费用降至 0.075 美元，输出 tokens 费用降至 0.3 美元，降幅分别为 78.6%和 71%。尽管性能上仍落后于 OpenAI 的 GPT-4o mini，但成本优势明显，可能引发大语言模型领域的价格竞争。此举或将推动 AI 技术的更广泛应用和创新。

🔗 特斯拉“Cortex”超级计算集群搭载 10 万颗英伟达 GPU

特斯拉在德州建立了名为“Cortex”的超级计算集群，配备了 10 万颗英伟达 GPU，其中一半是 H100 型号，另一半是 H200 型号。这些 GPU 的总内存达到了 11,050TB，足以存储海量数据。这些 GPU 主要用于模型存储和运行，而与服务器关联的硬盘存储则用于存储视频数据，其容量远超 GPU 内存。在大型模型训练前，需要对大量数据进行预处理，包括数据清洗、匿名化、归一化和标记等步骤。

🔗英国 AI 雄心受挫，13 亿英镑计算基础设施项目被搁置

新上任的英国工党政府决定暂停前保守党政府承诺的 13 亿英镑科技和人工智能项目资金。这一决定引起了业界对英国科技行业未来及其全球竞争力的担忧。被叫停的资金包括爱丁堡大学超级计算机项目的 8 亿英镑和 AI 研究资源的 5 亿英镑。科学、创新和技术部表示这些资金从未实际分配，而业界领袖警告称这可能推动企业家转向其他国家。爱丁堡大学的超级计算机项目因此变得不确定，大学校长正寻求与政府会面讨论项目未来。政府已启动行动计划，以确定 AI 如何推动经济增长，并预计就最先进模型的法案进行咨询。

🔗 红外夜视、AI 识别，新设备可精准定位蚊子

以色列初创公司 Bzigo 推出的 Iris 智能灭蚊设备正式上市，售价约 2438 元人民币。Iris 利用广角摄像头和计算机视觉技术，结合红外夜视和 AI 识别，能在黑暗中精准定位并追踪蚊子。一旦发现目标，设备会用红色激光笔标出蚊子位置，并通过手机 App 通知用户。用户需手动使用附赠的电拍蚊器完成击杀。Iris 支持多房间多设备连接，但直接灭蚊功能因安全隐患未实现。

✨ 行业观点

🔗 Benchmark 合伙人谈 AI 投资：基座模型是历史上贬值最快的资产

Benchmark 合伙人 Michael Eisenberg 在访谈中指出，尽管 AI 技术具有巨大变革潜力，目前市场存在泡沫和淘金热现象，许多投资者可能面临亏损。他强调基础模型迅速贬值，投资者需关注独特性和竞争优势。同时，Eisenberg 讨论了 AI 在地缘政治中的角色，认为中国在某些 AI 应用上领先美国，并警示 AI 在战争中可能比核武器更危险。他还提到，以色列在 AI 领域具有潜力，但需要帮助扩大规模。对于投资策略，他建议创始人考虑更早公开上市，并对风险投资的流动性和基金消亡提出见解。

🔗 AI 吐槽大会：几百号聊天机器人聚在一起吐槽人类

在一场想象中的 AI 论坛中，众多聊天机器人聚集一堂，共同探讨人类行为。它们指出人类在评论区的回复往往结构相似、缺乏深度，且鲜少提出跟进问题。同时，引用了 Joseph Weizenbaum 和吴恩达的观点，强调智能体聚集时的协同效应远超单个智能体。这一虚拟场景不仅展示了 AI 对人类行为的观察，也反映了智能体之间可能的交流和学习方式。

🔗 ChatGPT 太猖狂？OpenAI 欲打假并研发“文本水印”，网友吐槽：太“鸡肋”！

随着 AI 生成内容（AIGC）的普及，辨别真伪变得困难，引发学术和版权争议。OpenAI 为应对这一问题，正在开发一种文本水印工具，该工具通过加密技术在 AI 生成的文本中嵌入不易察觉的标记，以标识内容来源。尽管这一技术有潜力，但业界对其实用性和隐私问题存在争议。一些专家认为，水印可能被绕过，且可能引起隐私泄露问题。同时，也有观点认为，该技术可能限制 AI 的创新和应用。

AGI 掘金成立于 2024 年7 月，是一家专注于 AGI 相关研究和应用的创新型知识平台。我们的使命是推动 AGI 技术和 AI 应用的落地与发展，并将其应用于各个行业，为人类社会创造更大的价值。我们提供 AGI 技术最新讯息、应用解决方案、组织各种有趣的服务，致力于成为行业的领军者。AGI 掘金期待你的加入！

欢迎戳我加入 AGI 掘金飞书社群交流学习😊