酱酱们中午好~今天的 AGI 掘金热点资讯来啦,我们知识库上线了 AI 小助手,欢迎来撩!
🌟 技术突破
🔗 谷歌终于赢了 OpenAI 一回,Gemini 1.5 Pro 模型超越 GPT-4o,正确处理 9.9 > 9.19
Google DeepMind 的 Gemini 1.5 Pro 实验模型在 lmsys Chatbot Arena 的测试中以 1300 分首次超越 OpenAI 的 GPT-4o。该模型在图像和 PDF 处理方面表现出色,得益于 Google TPU 的加速,模型迭代速度显著提升。谷歌的 TPU 优势可能使其在计算能力上超越其他实验室,而模型的多语言和视觉处理能力则由后期训练和数据策略所驱动。业界期待下半年大模型间更激烈的竞争。
🔗 世界首例!AI 机器人做牙科手术,8 倍速诊疗比人类医生更精准
波士顿 Perceptive 公司开发的 AI 机器人牙医成功执行了全球首次全自主牙科手术,其诊疗速度是传统人类医生的 8 倍。该机器人配备了 OCT 3D 成像系统,能生成高分辨率的牙齿内部图像,提高诊断的准确率。机器人牙医通过物理连接实现即时运动补偿,确保手术安全。此外,机器人的精确操作可实现更精细的修复体安装,有望在未来几年内商业化,为牙科行业带来革命性变革。
🔗 0.5 秒图变 3D!Stability AI 推出 Stable Fast 3D
Stability AI 公司推出 Stable Fast 3D 模型,通过 AI 技术,能在 0.5 秒内将单张图片转化为 3D 模型,速度提升 1200 倍。该技术基于与 TripoSR 模型的合作,优化了模型架构,提高了网格生成效率和图像质量。Stable Fast 3D 利用增强型 Transformer 网络处理高分辨率图像,减少混叠,同时集成了新技术,提升了材料和光照估计的准确性。这一进展预示着 AI 在 3D 领域的新突破,为游戏、建筑、零售和虚拟现实等行业带来深远影响。
🔗 大模型成私人导游,一键规划 Citywalk,港大 MIT 联合出品
ITINERA 是由香港大学和麻省理工学院联合开发的智能 Citywalk 行程规划系统,该系统融合了大型语言模型(LLM)与空间优化技术,能够根据用户个性化需求,实时生成合理的城市漫游路线。系统通过五个模块协同工作,包括用户兴趣点数据库构建、请求解析、偏好检索、空间优化和行程生成,确保了行程的个性化和空间连贯性。在四个城市数据集上的评估显示,ITINERA 在多个指标上优于传统方法,包括 POI 召回率、路线合理度等,展现了其在开放域行程规划中的高效性和准确性。
🔗 比 OpenAI 的 Whisper 快 50%,最新开源语音模型 Whisper-Medusa
aiOla 公司在其官网开源了 Whisper-Medusa 语音模型,该模型基于 OpenAI 的 Whisper 架构,通过引入多头注意力机制实现并行计算,推理效率提升 50%。Whisper-Medusa 能够并行预测多个 token,增强了模型的表达能力和捕捉长程依赖的能力。它使用了弱监督方法和优化的损失函数,无需大量人工标注即可训练。该模型支持 100 多种语言,适用于翻译、金融等行业,未来计划扩展至 20 头注意力机制,进一步提升效率。
🔗 AMD 发布本地文生图模型,比 SD3 更简单易用
AMD 官网发布了 Amuse 2.0 Beta 版本,一款针对 PC 本地的文生图模型。该模型针对 AMD Ryzen™ AI 300 系列处理器和 Radeon™ RX 7000 系列显卡进行了优化,简化了安装过程,用户无需高深编码知识即可部署。Amuse 2.0 Beta 支持超分辨率技术,能将图片从 512x512 无损扩展至 1024x1024,并提供 AI 滤镜功能以打造个性化风格图片。建议使用 AMD 的 CPU 和 GPU 以获得最佳性能。
🔗 日本创企“人机一体”研发人形机器人,可自动保持身体平衡
日本创新企业“人机一体”与立命馆大学合作开发了一款新型人形机器人。这款机器人高 2 米、宽 70 厘米、重 90 公斤,能够通过远程控制实现手脚动作,同时具备自动平衡功能,即使在复杂环境中也能保持稳定。机器人足底传感器能感应外力,即使受到拉扯也能维持平衡。企业计划 5 年内在危险场地如高处投入使用,以提高作业安全性。
💫 企业动态
🔗 Transformer 作者回流谷歌,Character.AI 创始团队被「收购」,只要人不要公司
AI 初创公司 Character.AI 与谷歌达成协议,谷歌获得其大型语言模型的非独家许可。Character.AI 的创始人 Noam Shazeer 和 Daniel De Freitas,同时也是谷歌前员工,将重返谷歌 DeepMind。约 30 名研究团队成员也将加入谷歌,而 Character.AI 其他 140 名员工将面临未来选择。谷歌对 Character.AI 的估值为 25 亿美元,这笔交易可能预示着大型科技企业对 AI 初创公司的人才和技术的进一步吸纳。
🔗 英伟达回应 AI 芯片短缺,Blackwell 下半年量产
针对 AI 芯片推迟发布的传闻,英伟达回应称 Hopper 需求强劲,Blackwell 样品已广泛试用,预计下半年将增加产量。此前有报道指出设计缺陷可能导致发布推迟,影响包括 Meta、谷歌和微软在内的客户。英伟达 7 月向台积电增加 4nm 芯片订单,Blackwell 平台 GPU 芯片投片量提升 25%,预计搭载 AI 芯片的服务器将开启 AI 领域新篇章。
🔗 Stable Diffusion 原班人马新公司官宣!新模型一夜刷新 AI 绘画格局,已获 2.3 亿元融资
Stable Diffusion 原班人马成立的 Black Forest Lab 推出三款新 AI 图像生成模型,其中两款开源,支持中文输入。新模型 FLUX.1 系列在视觉质量、指令遵循等方面超越现有技术,获得资本市场和业界认可,融资 3200 万美元。公司致力于推进高质量图像和视频生成技术,目标为最广泛的受众提供服务。
🔗 重金求声?Meta 被曝以数百万美元“买下”好莱坞明星声音授权,用于 AI 项目
根据彭博社报道,Meta 公司正与好莱坞明星如朱迪·丹奇、奥卡菲娜和凯根·迈克尔·基等进行谈判,计划支付数百万美元以获得他们的声音授权,用于 AI 项目。该项目旨在开发一款能作为数字助理或用户朋友的聊天机器人,预计在 9 月的 Connect 2024 大会上展示。尽管谈判曾因使用条款而停滞,但 SAG-AFTRA 已与 Meta 达成协议。此外,Meta 曾尝试创建基于文本的聊天机器人,但该项目已被取消,公司还推出了 AI 工作室供内容创作者制作聊天机器人。
🔗 微软 Azure AI 与 GitHub 深度整合,大幅简化 AI 应用开发流程
微软宣布 Azure AI 与 GitHub 的深度整合,为开发者提供一体化的 AI 应用开发体验。通过 GitHub 直接调用 Azure AI 服务,实现代码编写、模型训练到部署的无缝操作,提升了开发效率和团队协作。新功能包括代码生成、AI 辅助编程和自动化测试,GitHub Models 提供 Azure AI 模型库访问,简化模型选择和实验过程。同时,集成了安全功能,保护内容安全,降低网络安全风险。企业可通过 Azure 订阅访问 GitHub Enterprise,实现云原生平台与企业级安全性的结合。
🔗 AI 大语言模型价格战将启?谷歌下调 Gemini 1.5 Flash 费用,降幅高达 78.6%
谷歌宣布自 2024 年 8 月 12 日起,大幅降低其 Gemini 1.5 Flash AI 模型的使用成本,每百万输入 tokens 费用降至 0.075 美元,输出 tokens 费用降至 0.3 美元,降幅分别为 78.6%和 71%。尽管性能上仍落后于 OpenAI 的 GPT-4o mini,但成本优势明显,可能引发大语言模型领域的价格竞争。此举或将推动 AI 技术的更广泛应用和创新。
🔗 特斯拉“Cortex”超级计算集群搭载 10 万颗英伟达 GPU
特斯拉在德州建立了名为“Cortex”的超级计算集群,配备了 10 万颗英伟达 GPU,其中一半是 H100 型号,另一半是 H200 型号。这些 GPU 的总内存达到了 11,050TB,足以存储海量数据。这些 GPU 主要用于模型存储和运行,而与服务器关联的硬盘存储则用于存储视频数据,其容量远超 GPU 内存。在大型模型训练前,需要对大量数据进行预处理,包括数据清洗、匿名化、归一化和标记等步骤。
🔗英国 AI 雄心受挫,13 亿英镑计算基础设施项目被搁置
新上任的英国工党政府决定暂停前保守党政府承诺的 13 亿英镑科技和人工智能项目资金。这一决定引起了业界对英国科技行业未来及其全球竞争力的担忧。被叫停的资金包括爱丁堡大学超级计算机项目的 8 亿英镑和 AI 研究资源的 5 亿英镑。科学、创新和技术部表示这些资金从未实际分配,而业界领袖警告称这可能推动企业家转向其他国家。爱丁堡大学的超级计算机项目因此变得不确定,大学校长正寻求与政府会面讨论项目未来。政府已启动行动计划,以确定 AI 如何推动经济增长,并预计就最先进模型的法案进行咨询。
🔗 红外夜视、AI 识别,新设备可精准定位蚊子
以色列初创公司 Bzigo 推出的 Iris 智能灭蚊设备正式上市,售价约 2438 元人民币。Iris 利用广角摄像头和计算机视觉技术,结合红外夜视和 AI 识别,能在黑暗中精准定位并追踪蚊子。一旦发现目标,设备会用红色激光笔标出蚊子位置,并通过手机 App 通知用户。用户需手动使用附赠的电拍蚊器完成击杀。Iris 支持多房间多设备连接,但直接灭蚊功能因安全隐患未实现。
✨ 行业观点
🔗 Benchmark 合伙人谈 AI 投资:基座模型是历史上贬值最快的资产
Benchmark 合伙人 Michael Eisenberg 在访谈中指出,尽管 AI 技术具有巨大变革潜力,目前市场存在泡沫和淘金热现象,许多投资者可能面临亏损。他强调基础模型迅速贬值,投资者需关注独特性和竞争优势。同时,Eisenberg 讨论了 AI 在地缘政治中的角色,认为中国在某些 AI 应用上领先美国,并警示 AI 在战争中可能比核武器更危险。他还提到,以色列在 AI 领域具有潜力,但需要帮助扩大规模。对于投资策略,他建议创始人考虑更早公开上市,并对风险投资的流动性和基金消亡提出见解。
🔗 AI 吐槽大会:几百号聊天机器人聚在一起吐槽人类
在一场想象中的 AI 论坛中,众多聊天机器人聚集一堂,共同探讨人类行为。它们指出人类在评论区的回复往往结构相似、缺乏深度,且鲜少提出跟进问题。同时,引用了 Joseph Weizenbaum 和吴恩达的观点,强调智能体聚集时的协同效应远超单个智能体。这一虚拟场景不仅展示了 AI 对人类行为的观察,也反映了智能体之间可能的交流和学习方式。
🔗 ChatGPT 太猖狂?OpenAI 欲打假并研发“文本水印”,网友吐槽:太“鸡肋”!
随着 AI 生成内容(AIGC)的普及,辨别真伪变得困难,引发学术和版权争议。OpenAI 为应对这一问题,正在开发一种文本水印工具,该工具通过加密技术在 AI 生成的文本中嵌入不易察觉的标记,以标识内容来源。尽管这一技术有潜力,但业界对其实用性和隐私问题存在争议。一些专家认为,水印可能被绕过,且可能引起隐私泄露问题。同时,也有观点认为,该技术可能限制 AI 的创新和应用。
AGI 掘金成立于 2024 年7 月,是一家专注于 AGI 相关研究和应用的创新型 知识平台。我们的使命是推动 AGI 技术和 AI 应用的落地与发展,并将其应用于各个行业,为人类社会创造更大的价值。我们提供 AGI 技术最新讯息、应用解决方案、组织各种有趣的服务,致力于成为行业的领军者。AGI 掘金期待你的加入!