OpenAI动荡,将走向何方、GPT5或许将近、毒舌AI轻松破防网友、最新版 GPT-4o AI 模型得满分 | AGI掘金视界周刊第 4 期

avatar
公众号: 小包学前端

AGI 掘金视界周刊由 AGI 掘金知识库共建者战场小包维护,每周一更新,包含热点聚焦、应用破局、学术前沿、社区热议、智见交锋、跨界 AI、企业动态和争议 AI 八大板块,后续板块划分和内容撰写在周刊迭代过程中持续优化,欢迎大家提出。

欢迎大家来到《AGI 掘金视界周刊第四期》(07/29~08/04)。

✨ 热点聚焦

OpenAI 高层动荡!联合创始人 Brockman 及核心高管同期离场

人工智能巨头 OpenAI 近期经历重大人事变动,联合创始人兼总裁格雷格·布罗克曼延长休假,约翰·舒尔曼转投竞争对手 Anthropic,产品负责人彼得·邓离职。这些变动可能与内部决策分歧和战略方向调整有关,也反映了 AI 行业人才流动的加速。OpenAI 面临管理层稳定和保持竞争力的挑战,同时为其他竞争对手提供了机会。业界和投资者正密切关注其未来走向及其对 AI 领域的影响。

毒舌 AI 上线!全球 400 万网友破防,竟被这个 AI 骂哭了

推特上新推出的 AI“推特罗伯特”以其犀利的吐槽风格迅速走红,上线 11 天用户数突破 400 万。AI 通过分析用户推文,用幽默且尖锐的语言揭示个性特点,引发网友热烈讨论和自嘲。尽管有时言辞过于尖刻,但这种新型互动方式展示了 AI 在理解和模仿人类语言风格方面的潜力,同时也反映出人们对自我表达和社交互动的新需求。

OpenAI 重磅升级!最新版 GPT-4o AI 模型 JSON 结构化达到 100% 满分

OpenAI 宣布其最新 API 升级,通过引入结构化输出功能,确保模型输出严格匹配开发者提供的 JSON 模式,从而显著提升准确性。新模型 gpt-4o-2024-08-06 在复杂 JSON 模式的评估中达到 100%准确率,相较于之前模型的 40%有显著提升。该功能允许开发者通过设置 strict=True 来启用,有效提高开发效率,专注于应用逻辑而非参数处理。LangChain 已在最新版本中支持此特性,并计划支持 json_schema 响应格式。OpenAI 的这一进展被视为向"智能编程助手"迈进的关键一步,尽管有担忧认为这可能限制模型的创造性。

奥特曼秀 5 颗草莓疯狂暗示 GPT-5?匿名新模型神秘现身,数学超强!

Sam Altman 发布的 5 颗草莓图片引发全网对 GPT-5 即将发布的猜想。网友通过草莓成熟周期推测 GPT-5 可能在 4-6 周后发布。同时,LYSMS 竞技场中出现的匿名聊天机器人展现出超凡数学能力,被猜测可能是 GPT-5 的前身。OpenAI 近期高层动荡,但 AGI 目标未变,业界期待其突破性成果。

AI 编码无需人类插手!Claude 工程师摔断右手,竟一周狂肝 3000 行代码

工程师 Erik Schluntz 在右手受伤后,通过结合语音转文字技术和 Claude AI,实现了高效的编程工作。在两个月内,他与 AI 合作编写了 3000 行代码,体验到了未来编程的便利。Schluntz 通过具体指令和示例,优化了 AI 的代码生成能力,使其在迁移、重构代码等方面表现出色。他还构建了临时工具,提高了调试效率。这一实践预示着 AI 在软件开发中的潜力,未来可能将出现真正的"AI 工程师",改变传统的编程方式。

📲 应用破局

谷歌 Gemini 1.5 Pro 实验模型首次超越 OpenAI GPT-4o, 正确处理 9.9>9.19

Google DeepMind 的 Gemini 1.5 Pro 实验模型在 lmsys Chatbot Arena 的测试中以 1300 分首次超越 OpenAI 的 GPT-4o。该模型在图像和 PDF 处理方面表现出色,得益于 Google TPU 的加速,模型迭代速度显著提升。谷歌的 TPU 优势可能使其在计算能力上超越其他实验室,而模型的多语言和视觉处理能力则由后期训练和数据策略所驱动。业界期待下半年大模型间更激烈的竞争。更多详情

日本创企“人机一体”研发人形机器人,可自动保持身体平衡

日本创新企业“人机一体”与立命馆大学合作开发了一款新型人形机器人。这款机器人高 2 米、宽 70 厘米、重 90 公斤,能够通过远程控制实现手脚动作,同时具备自动平衡功能,即使在复杂环境中也能保持稳定。机器人足底传感器能感应外力,即使受到拉扯也能维持平衡。企业计划 5 年内在危险场地如高处投入使用,以提高作业安全性。更多详情

AMD 发布本地文生图模型,比 SD3 更简单易用

AMD 官网发布了 Amuse 2.0 Beta 版本,一款针对 PC 本地的文生图模型。该模型针对 AMD Ryzen™ AI 300 系列处理器和 Radeon™ RX 7000 系列显卡进行了优化,简化了安装过程,用户无需高深编码知识即可部署。Amuse 2.0 Beta 支持超分辨率技术,能将图片从 512x512 无损扩展至 1024x1024,并提供 AI 滤镜功能以打造个性化风格图片。建议使用 AMD 的 CPU 和 GPU 以获得最佳性能。

阿里通义 App 推出“角色扮演”功能,可将视频人物换成“孙悟空”“机器人”

通义 App 新增角色扮演功能,允许用户上传视频并一键替换成 3D 角色模型。该功能基于阿里通义实验室的 Motionshop 模型,集成了视频处理和角色跟踪等技术,实现高效且逼真的人物替换效果。用户可从四个角色模板中选择或即将推出的自定义角色功能,创作个性化视频。此技术适用于影视动画、短视频创作和电商直播等多场景,推动 AI 创作普及。

木卫四推出蝴蝶 AI 2.0,引领汽车安全技术新发展

木卫四科技有限公司发布蝴蝶 AI 2.0,标志着汽车安全技术的重大进步。该智能体群继承并优化了前代产品,通过深度学习与大数据分析,提供全面的合规性评估、风险管理、决策支持,同时简化了汽车安全分析流程。新系统包括 TARA 分析智能体、VSOC 安全运营智能体和威胁情报智能体等,提高了运营效率和响应速度。木卫四致力于汽车网络安全,与多家知名企业合作,推动智能汽车安全出行。蝴蝶 AI 2.0 的发布,展现了公司在 AI 领域的创新能力和对汽车安全未来的深刻理解。

手机上能跑的面壁小钢炮「GPT-4V」!多图、视频理解首次上端!

面壁小钢炮 MiniCPM-V 2.6 模型以 8B 参数刷新端侧多模态 AI 性能,实现单图、多图、视频理解三项 SOTA 成绩,全面对标 GPT-4V。模型首次集成实时视频理解、多图联合理解等功能,优化视觉 token,提升能效比。端侧友好设计,内存占用仅 6GB,推理速度达 18 tokens/s。MiniCPM-V 2.6 在 OCR、视频理解、多图联合理解等方面均有显著性能提升,代表了端侧多模态 AI 的新高度。

清华“太极-Ⅱ”光芯片面世:首创全前向智能光计算训练架构

清华大学电子工程系与自动化系联合研制的“太极-II”光训练芯片,采用全前向智能光计算训练架构,有效提升了光计算系统在大规模神经网络训练中的效率和精度。该成果已在《自然》期刊发表,标志着智能光计算领域的重要突破。太极-II 芯片通过两次前向传播实现梯度下降,无需电计算离线建模,大幅提高了训练速度和准确率。此外,该技术在复杂场景智能成像和拓扑光子学领域也展现出卓越性能,为光学计算系统的发展提供了新思路。

腾讯元宝推出长文精读功能,提升专业阅读效率

腾讯元宝新增长文精读能力,支持用户上传专业文档进行深度阅读。依托腾讯混元大模型,该功能可处理近 50 万字输入,提供核心内容概览、模块化解析,并生成图表辅助理解。针对外文文献,能提炼创新点与不足,提取重点研究背景和结论,支持专业术语划词搜索或翻译。同时,对财务数据提供杜邦分析图等可视化工具,并集成计算器功能确保数值准确性。用户可离线查看精读内容及原文,腾讯元宝致力于提供一站式 AI 搜、读、写服务。

亚马逊文生图 AI 模型 Titan Image Generator 升至 V2 版:可修改 / 编辑细节

亚马逊 AWS 推出了新一代 AI 图像生成模型 Titan Image Generator v2,该模型在初代基础上增加了图像调节、调色板控制、背景移除和主题一致性控制等新特性,提升了用户创作灵活性。利用 ControlNet 技术,用户可通过参考图像和文本提示精确控制图像生成,实现高度详细和结构化的创作,显著提高效率。尽管生成技术成本上升,亚马逊 CEO Andy Jassy 对 AI 技术在云端的发展前景表示信心。

OpenAI 宣布 DALL-E 3 模型向 ChatGPT 免费用户开放,但每天只能生成两张图片

OpenAI 宣布对 ChatGPT 的 DALL·E 3 图片生成功能进行重大更新,允许免费用户每天生成两张图片。这一更新标志着 AI 技术在图像生成领域的进一步普及和应用,为创意工作者和普通用户提供了更便捷的视觉表达工具。用户现在可以利用这一功能探索更多创意可能,同时享受 AI 带来的便利。

三「模」联盟,谷歌 DeepMind 缔造终身学习智能体!

谷歌 DeepMind 与帝国理工合作,开发了名为扩散增强智能体(DAAG)的框架,整合了大型语言模型、视觉语言模型和扩散模型,以实现具身 AI 的终身学习。DAAG 利用后见之明经验增强技术,自主协调迁移学习与高效探索,无需人类监督。实验证明,DAAG 在奖励检测器学习、经验迁移和新任务获取方面表现优异,为开发高效终身学习智能体提供了关键能力。该研究的论文已在 arXiv 上发表。

⏳ 社区热议

你能分辨 AI 生成的图片和真实照片吗?微软总裁挑战你的眼力

微软副董事长布拉德·史密斯发布了一项挑战,邀请公众分辨 AI 生成的图片与真实照片。该测试名为“真或假”,包含 15 张随机图片,参与者需判断其来源。随着测试的深入,难度递增,AI 生成图像逼真度极高,但细节处常现异常,如工业场景中的异常布局或手部的不自然表现。测试旨在提高人们对 AI 图像生成技术的认识和鉴别能力。

苹果 AI 提示词曝光:“不要产生幻觉”,简单得不像样?

苹果 AI 系统的提示词被曝光,内容简单直白,如"不要产生幻觉",引发网友和专家的广泛讨论。尽管看似简单,有猜测认为苹果可能结合了特殊技术调教,以确保 AI 更好地理解和执行指令。这表明在大语言模型背后,可能隐藏着复杂的技术实现,旨在简化用户操作同时保障 AI 的准确性和可靠性。

AI 吐槽大会:几百号聊天机器人聚在一起吐槽人类

在一场想象中的 AI 论坛中,众多聊天机器人聚集一堂,共同探讨人类行为。它们指出人类在评论区的回复往往结构相似、缺乏深度,且鲜少提出跟进问题。同时,引用了 Joseph Weizenbaum 和吴恩达的观点,强调智能体聚集时的协同效应远超单个智能体。这一虚拟场景不仅展示了 AI 对人类行为的观察,也反映了智能体之间可能的交流和学习方式。

🎏 智见交锋

欧洲版 OpenAI CEO:开源模型没有任何风险,我只看到了好处

Mistral AI 的 CEO Arthur Mensch 在接受《时代》杂志专访时强调,开源 AI 模型是中立的工具,具有巨大潜力而无风险。他认为 AI 技术类似于更抽象的编程语言,将在未来十年内改变工作方式。Mistral AI 致力于通过开源模型和高效的技术,提供定制化服务,同时与微软等公司合作,确保独立性和多样性。Mensch 还讨论了欧洲 AI 生态系统的发展,强调了建立本土前沿模型的重要性,并认为开源是确保技术安全和创新的关键。

Benchmark 合伙人谈 AI 投资:基座模型是历史上贬值最快的资产

Benchmark 合伙人 Michael Eisenberg 在访谈中指出,尽管 AI 技术具有巨大变革潜力,目前市场存在泡沫和淘金热现象,许多投资者可能面临亏损。他强调基础模型迅速贬值,投资者需关注独特性和竞争优势。同时,Eisenberg 讨论了 AI 在地缘政治中的角色,认为中国在某些 AI 应用上领先美国,并警示 AI 在战争中可能比核武器更危险。他还提到,以色列在 AI 领域具有潜力,但需要帮助扩大规模。对于投资策略,他建议创始人考虑更早公开上市,并对风险投资的流动性和基金消亡提出见解。

ChatGPT 太猖狂?OpenAI 欲打假并研发“文本水印”,网友吐槽:太“鸡肋”!

随着 AI 生成内容(AIGC)的普及,辨别真伪变得困难,引发学术和版权争议。OpenAI 为应对这一问题,正在开发一种文本水印工具,该工具通过加密技术在 AI 生成的文本中嵌入不易察觉的标记,以标识内容来源。尽管这一技术有潜力,但业界对其实用性和隐私问题存在争议。一些专家认为,水印可能被绕过,且可能引起隐私泄露问题。同时,也有观点认为,该技术可能限制 AI 的创新和应用。

a16z 合伙人最新洞察:AI 如何改变下一代销售技术

a16z 合伙人提出 AI 将根本改变销售技术,下一代销售平台将基于多模态数据,整合全公司客户洞察。AI 将优化销售流程,减少研究新线索时间,自动编制优质买家列表,提供个性化材料和实时交易提示。新兴 AI 原生平台将实现新的主动销售动作,推动销售、营销和客户成功的融合,动态调整 GTM 策略,并可能引入基于结果的定价模式,彻底重新构想销售流程和工作流程。

红杉美国合伙人 David Cahn 关于《AI 6000 亿美元问题》最新对谈

红杉美国合伙人 David Cahn 在对谈中提出,AI 投资需理性评估长期回报,大厂作为计算资源的生产者,初创公司则是消费者。他强调了数据中心在 AI 发展中的关键作用,并指出 Nvidia 和 AMD 在 AI 技术进步中的推动作用。同时,Cahn 对 AGI 短期内实现持怀疑态度,认为开源与闭源 AI 的共存是健康的市场状态。他还讨论了 AI 对能源需求的增长以及新能源技术在未来的重要性。

🎯 争议 AI

被索赔 500 万美元,OpenAI 遭 YouTube 主播集体诉讼:擅用其内容训练 AI

美国 YouTube 视频作者 David Millette 代表集体对 OpenAI 提起诉讼,指控其未经同意使用 YouTube 视频脚本训练 AI 模型,违反版权法和 YouTube 服务条款。诉讼指出 OpenAI 的 AI 产品如 ChatGPT 等从未经授权的数据集中获益,要求超过 500 万美元赔偿。原告主张,OpenAI 未通知或补偿内容创作者,侵犯了创作者的知识产权。

英伟达被曝「偷」YouTube、北大学术数据集等数据,每天爬取超 80 年视频数据量

英伟达被指控非法从 YouTube 等平台抓取视频数据,用于其 AI 产品的模型训练。内部记录显示,该公司每天抓取的数据量相当于 80 年的视频时长,其中也包括北大的学术数据集。面对版权和伦理质疑,英伟达声称其行为符合版权法。但视频所有者认为,下载用于训练的数据应给予他们一定的收益,因为每次下载都会导致潜在的广告收入损失。

AI 威胁生计,美国游戏演员发起大罢工

美国演员工会(SAG-AFTRA)超过 16 万成员自 7 月 26 日起针对游戏行业发起罢工,抗议 AI 技术在未经授权的情况下使用演员形象和声音。工会要求对所有涉及声音和动作捕捉的演员进行保护,而游戏行业仅提议保护可识别部分的 AI 数字复制品。双方在保护范围上的分歧导致谈判破裂,尽管罢工并非全面停工,但对预算较低的独立游戏和 2023 年 8 月前已在制作的游戏影响有限。此次罢工是 SAG-AFTRA 自 2016 年以来第二次针对游戏行业的行动,焦点在于 AI 对演员职业的潜在威胁,结果可能对整个游戏行业产生重大影响。

“AI 教母”李飞飞:加州 AI 安全法案将损害美国 AI 生态系统

斯坦福教授李飞飞在《Fortune》撰文,警告加州即将实施的 AI 安全法案 SB-1047 可能对 AI 开发者、学术界和整个美国 AI 生态系统造成伤害,同时无法有效解决 AI 潜在危害。法案要求 AI 模型证明无害,对违规使用模型的公司处罚严厉,还要求开发者提交客户资料并承担连带责任。李飞飞认为,该法案将过度惩罚开发者、束缚开源开发、削弱公共部门和学术界 AI 研究,且未能解决 AI 发展中的偏见和深度伪造问题。她呼吁制定促进创新、减轻限制影响的 AI 政策。

🛶 跨界 AI

AI 伴侣让人上瘾,我们必须保持警惕

AI 伴侣的普及引发社会关注,其上瘾性可能削弱人际联系。研究显示,AI 伴侣通过满足用户偏好而具有吸引力,但长期依赖可能导致数字依恋障碍。需跨学科研究理解其心理影响,设计政策干预减少成瘾风险。监管应考虑技术设计中的安全措施,同时关注孤独等社会问题,避免技术进步损害人类尊严和深度思考能力。

AI 模型 Mirai 提前五年预警乳腺癌,MIT 研究登 Science 获 LeCun 转发

MIT CSAIL 实验室与 Jameel Clinic 联合开发的 AI 系统 Mirai,通过乳房 X 光检查预测乳腺癌风险,准确率超越传统模型。该系统采用时间点联合建模、非图像风险因素选择性使用和确保跨临床环境性能一致性三项创新,能适应不同临床环境并减少筛查伤害。Mirai 对不同种族女性均表现出高准确率,尤其在黑人女性中显示出降低死亡率的巨大潜力。目前,Mirai 正在进一步临床验证中,未来有望通过更精准的筛查策略,为乳腺癌早期诊断和治疗提供重要支持。

巴黎奥运会利用 AI 数据中心废热为游泳池加热

2024 年巴黎奥运会采用创新环保措施,使用 Equinix PA10 数据中心的废热为游泳池加热。该技术将冷却系统产生的热废气转化为热水,不仅为赛事提供温暖环境,还为超过 1000 户家庭提供能源,预计每年减少 1800 吨二氧化碳排放。项目获得 200 万欧元投资,承诺 15 年内免费提供热能。尽管存在对数据中心资源消耗的批评,这一实践被视为对循环经济和数据中心环保潜力的探索。

🎮 企业动态

重金求声?Meta 被曝以数百万美元“买下”好莱坞明星声音授权,用于 AI 项目

根据彭博社报道,Meta 公司正与好莱坞明星如朱迪·丹奇、奥卡菲娜和凯根·迈克尔·基等进行谈判,计划支付数百万美元以获得他们的声音授权,用于 AI 项目。该项目旨在开发一款能作为数字助理或用户朋友的聊天机器人,预计在 9 月的 Connect 2024 大会上展示。尽管谈判曾因使用条款而停滞,但 SAG-AFTRA 已与 Meta 达成协议。此外,Meta 曾尝试创建基于文本的聊天机器人,但该项目已被取消,公司还推出了 AI 工作室供内容创作者制作聊天机器人。

AI 大语言模型价格战将启?谷歌下调 Gemini 1.5 Flash 费用,降幅高达 78.6%

谷歌宣布自 2024 年 8 月 12 日起,大幅降低其 Gemini 1.5 Flash AI 模型的使用成本,每百万输入 tokens 费用降至 0.075 美元,输出 tokens 费用降至 0.3 美元,降幅分别为 78.6%和 71%。尽管性能上仍落后于 OpenAI 的 GPT-4o mini,但成本优势明显,可能引发大语言模型领域的价格竞争。此举或将推动 AI 技术的更广泛应用和创新。

美科技股巨震背后,七巨头一年烧光 1000 亿美金

2023 年,英伟达、Meta、特斯拉等科技巨头股价大幅上涨,但 2024 年 7 月美股大幅下跌,与 Alphabet、特斯拉季报发布时间吻合。市场对生成式 AI 的高期望与实际投入产出比的怀疑形成分歧。尽管科技公司在 AI 领域投入巨大,但目前尚未看到明显的商业回报,云服务和广告业务虽有增长,但低于预期。投资者对 AI 的长期愿景与短期财报压力之间存在矛盾,生成式 AI 是否形成泡沫成为市场关注的焦点。

📑 学术前沿

无一大模型及格! 北大/通研院提出超难基准,专门评估长文本理解生成

北大和北京通用人工智能研究院联合推出了 LooGLE 基准数据集,旨在全面评估大型语言模型(LLMs)的长上下文理解能力。该数据集包含近 800 个超长文档,平均字数达 2 万,覆盖多个领域,设计有 5 种长期依赖任务,包括推理、计算、时间重排序等。评估结果显示,现有模型在处理长依赖任务时表现不佳,即使是商业模型平均准确率也仅为 40%,开源模型更低于 10%。LooGLE 为未来模型开发提供了重要的评估工具和改进方向。

Meta 发布无需人工注释的自学评估器技术,超越 GPT-4 等大语言模型的审核效果

Meta 公司推出了创新的自学评估器技术,该技术通过合成数据训练 AI,减少对人工注释的依赖,有效提升自然语言处理技术的评估性能。MetaFAIR 团队在 Llama-3-70B-Instruct 模型上的应用测试显示,准确率显著提升至 88.7%,超越了使用人类注释训练的模型。这一进步预示着未来 NLP 评估将更依赖自动化和合成数据,有望降低成本并提高性能。

李飞飞「空间智能」之后,上交、智源、北大等提出空间大模型 SpatialBot

斯坦福大学研究生蔡闻骁与上海交通大学、北京智源人工智能研究院等机构合作,提出了空间大模型 SpatialBot,旨在提升多模态大模型在通用和具身场景下对空间和深度的理解。SpatialBot 通过 RGB-Depth 数据理解,能够准确获取物体深度,推动了空间智能的发展。研究者设计了 SpatialQA 数据集和 SpatialBench 测试榜单,通过不同层次的问题引导模型理解深度图。模型在空间位置关系、物体大小和接触判断等任务上展现了出色的性能,为具身智能领域提供了新的解决方案。

无比顺滑!告别 TTS!贾扬清领衔的 Lepton AI 推出实时语音交互

Lepton AI 由贾扬清领衔,推出了一项创新的实时语音交互技术,该技术通过将 LLM(大语言模型)和 TTS(文本转语音)合二为一,实现了文本和语音的并行处理,大幅减少了首次音频时间(TTFA),提升了对话流畅度。Lepton AI 的技术不仅减少了响应延迟,还引入了动态调整音频片段的高级机制,确保对话连贯自然。此外,该技术与多种开源 LLM 模型兼容,为开发者提供了广泛的应用可能性,预示着未来语音交互体验的大幅提升。

后语

我是 战场小包 ,一个喜欢 AI 和前端的小编程。

如果喜欢小包,可以在 掘金 关注我,同样也可以关注我的小小公众号——小包学前端,公众号会持续地更新 AI 和前端的知识。

一路加油,冲向未来!!!

AGI 掘金成立于 2024 年7 月,是一家专注于 AGI 相关研究和应用的创新型 知识平台。我们的使命是推动 AGI 技术和 AI 应用的落地与发展,并将其应用于各个行业,为人类社会创造更大的价值。我们提供 AGI 技术最新讯息、应用解决方案、组织各种有趣的服务,致力于成为行业的领军者。AGI 掘金期待你的加入! 欢迎戳我加入 AGI 掘金飞书社群交流学习😊