1018 早早聊 AI 资讯|OpenAI“地板价”战略底气:Stateful API、英伟达和富士康共建“AI 工厂”、百度 AI 原生应用全新亮相...

357 阅读16分钟

👉👉原文链接👈👈

「 最新活动 」

◇ 杭州 AI 峰会:AI 最后一公里,变现探索 🔗 Link

AI 浪潮,一起搞钱!早鸟有限,详情链接:xhkzr.xet.tech/s/2LquL0

AI 峰会 - 掘金活动 940540.png


「 行业动态 」

◇ Stateful API ,OpenAI“地板价”战略的底气 🔗 News

OpenAI 计划在 11 月 6 日的首届开发者大会上发布重要更新,旨在使开发者更快速、更经济地构建基于大型模型的应用。最受期待的更新是 Stateful API,潜在地可将应用开发者的成本降低多达 20 倍。Stateful API 预计将利用存储内存来记住对话历史,减少重复支付对话历史中相同令牌的需求。Stateful API 的实施可能类似于 KV Cache 机制,可以显著降低大型模型应用的计算成本。虽然 Stateful API 可能降低了开发者的费用,但也可能减少 OpenAI 从开发者那里获得的收入。OpenAI 采取这一策略的动机在于让开发者满意,并吸引更多的开发者来访问他们的模型。

◇ 李彦宏:我们即将进入一个 AI 原生的时代 🔗 News

在百度世界 2023 上,李彦宏宣布文心 4.0 发布,标志着 AI 能力取得了显著进步。该模型展示了改进的理解、生成、逻辑和记忆能力,与 GPT-4 不相上下。百度还推出了多个 AI 原生应用,涵盖搜索、地图、云存储等领域。新功能包括多模态响应、个性化推荐、多轮交互,以及中国首款生成式商业智能产品。百度地图和智能办公平台提供出行引导和办公支持,而李彦宏也强调了插件在 AI 原生应用生态中的重要性,以加速 AI 能力的集成。这一 AI 原生应用的整合有望推动经济增长,深化数字技术与物理世界的融合。

◇ 黄仁勋亮相鸿海科技日,共建 AI 工厂 🔗 News

英伟达和富士康(鸿海科技集团)宣布合作建设一家 AI 工厂,旨在加速发展基于 AI 的电动车辆和机器人平台。富士康计划创建一家“AI 工厂”,将作为一种新型数据中心,用于推动创新,包括数字制造和生成式 AI 服务。工厂将基于 NVIDIA 的 CPU 和 GPU 技术以及网络能力,配备 NVIDIA 的硬件和软件,将采用 NVIDIA HGX 参考设计,包括 8 个 NVIDIA H100 GPU、NVIDIA GH200 超级芯片和网络技术。富士康的客户将能够在其数据中心中部署 NVIDIA 的加速计算技术,用于 AI 工作负载和自主机器人、自动驾驶汽车等任务。富士康还计划利用 NVIDIA 的 Omniverse 平台、Isaac 和 Metropolis 框架开发自己的工厂,以满足电子行业的严格生产和质量标准。富士康 AI 工厂的目标是制造下一代自主移动和工业机器人,能够执行装配和质量控制等任务。

大模型无法替代码农! GPT-4 解决编程问题成功率为 0 🔗 News

智能编码工具如 ChatGPT 和 GitHub Copilot 的兴起引发了一系列变革和疑虑。一项由普林斯顿大学和芝加哥大学进行的研究发现,GPT-4 等人工智能模型在解决实际编程问题时成功率极低,甚至可能为 0%。这对于流行的代码辅助网站 Stack Overflow 造成流量大幅下降,导致了超过 28%的员工裁员。尽管智能编码工具崭露头角,程序员目前并未面临失业威胁。Stack Overflow 正积极探索自救之道,包括开发其 AI 编码工具(OverflowAI)以及与科技公司如 OpenAI 合作,利用其数据进行 AI 模型训练。该研究还引入了用于评估大型语言模型的新框架 SWE-bench,以更全面评估其解决实际编程问题的能力。研究强调了人工智能模型在提高生产力而非取代程序员的潜力,强调它们作为程序员的有益补充。

◇ 米哈游、复旦发布拟人化的大语言模型“ 智能体 ” 🔗 News

大型语言模型如 ChatGPT 展示出强大的创造力,但距离通用人工智能(AGI)仍有差距,缺少拟人的决策和记忆能力。米哈游和复旦大学 NLP 研究团队合作发布了一篇关于基于大型语言模型的‘智能体’的论文。这些智能体在文本和游戏环境中展现出拟人化的感知、计划、决策和情感能力,可以在文本和沙盒游戏环境中执行自主决策,展现人类类似的技能。研究还进行了不同类型的实验,展示了这些智能代理在不同环境中的出色表现,包括任务完成、创新和持续学习等领域。

◇ 「超级英雄」XAgent 开源,全面超越 AutoGPT 🔗 News

国内领先的 AI 大模型公司面壁智能与清华大学 NLP 实验室合作,发布了名为“XAgent”的大型 AI 代理。XAgent 是一种新型具备自主解决问题能力的人工智能代理,基于大型语言模型,具备理解人类指令、制定复杂计划并采取自主行动的能力,脱离了传统 AI 代理的预定义规则限制。它引入了"双环机制",包括外部循环用于任务规划和内部循环用于执行,展现强大领导和执行能力。XAgent 鼓励人机协作,能够自主与用户互动,用户也可以干预或修改其建议,增强了人工智能和人类协同的效率。该代理采用结构化通信语言和支持多种工具,确保安全高效的工作环境。XAgent 在性能上超越 AutoGPT,特别擅长处理需要推理、规划和外部工具的任务,还可作为个人助理,具备多功能应用的潜力。

◇ 清华团队攻破 GPT-4V、谷歌 Bard 等模型 🔗 News

多模态大型语言模型(MLLM),如 GPT-4V 和 Google Bard,在多种多模态任务中表现出色,例如图像描述和视觉推理。然而这些模型在对抗攻击方面表现较差,可能在实际应用中存在安全风险,最近的研究也已证明这一脆弱性。清华大学的朱军教授领导的研究探讨了商业 MLLM 的对抗鲁棒性。研究结果显示,通过攻击白盒图像编码器或 MLLMs 生成的对抗样本可以导致商业 MLLMs 生成错误的图像描述。对 GPT-4V、Bard 和 Bing Chat 的攻击成功率分别达到了 45%、22%和 26%。对抗性攻击还可以绕过 Bard 用于人脸检测和毒性检测的防御机制,引入安全风险。该研究强调了商业多模态大型模型在对抗攻击方面的脆弱性,强调了解决这些模型的安全问题的重要性。

◇ 伯克利新研究开启大模型「长」时代 🔗 News

LLM 升级的关键是提高处理长序列的能力,伯克利大学引入了一种名为“环注意”的新方法,旨在增强大型语言模型对长输入序列的处理能力。这一创新方法能将当前语言模型(如 ChatGPT)的上下文长度从 16K 扩展到超过 100M,同时优化内存使用,提高 Transformer 模型的可扩展性。研究通过基准测试显示了 Ring Attention 在上下文长度和内存使用方面的显著改进,能够处理包括视音频语言联合建模、长序列强化学习和代码生成在内的多种应用。这项研究由谷歌 DeepMind 的中国研究员刘浩撰写,并突出了 Ring Attention 对扩展基于 Transformer 的模型功能的潜力,同时提到了与训练规模和低级优化相关的限制。

◇ 港中文等发布 MagicDrive:自动驾驶数据不用愁! 🔗 News

在自动驾驶领域,高质量的 3D 感知数据是关键,但获取和标注这些数据成本高。香港中文大学、香港科技大学和华为诺亚方舟实验室的研究人员提出了名为 MagicDrive。MagicDrive 运用可控生成技术合成高保真、多角度的自动驾驶街道场景数据,可模拟不同天气、光照和物体位置情境,支持多种感知任务。强调了面临的 3D 数据生成挑战,包括相机参数、物体边界框、路线地图和天气等多重条件。与之前的方法相比,MagicDrive 采用不同控制方式和跨视图关注模块,确保生成数据的一致性。它在多个下游任务中表现出色,提高了自动驾驶感知技术的质量和多样性,为训练自动驾驶系统提供了有力工具。

谷歌视觉语言模型 PaLI-3 问世,参数仅 5B 🔗 News

Google Research 引入了 PaLI 模型,这是一个多模态大型模型,重新使用大型单模态骨干进行语言和视觉建模。PaLI-3 是 PaLI 系列的第三代,只有 50 亿参数,在各种视觉-语言基准测试上表现出竞争力。PaLI-3 的方法包括图像编码器的对比预训练、改进的 PaLI 多模态训练混合数据集,以及更高分辨率的训练。PaLI-3 在需要视觉文本理解和目标定位的任务上实现了新的最先进成绩。研究人员还扩展了 PaLI-3,通过类别语言输出来预测分割掩膜,并取得了竞争力的结果。尽管模型较小,但 PaLI-3 在各种视觉语言理解任务中表现出色。该模型在图像和视频字幕以及问题回答任务上进行了评估,取得了出色的成绩。

◇ MIT 用博弈论调教 7B 羊驼,战胜 540B“谷歌版 GPT ” 🔗 News

MIT 提出的均衡排名(Equilibrium Ranking)策略运用博弈论,将大型模型的语言生成过程规范化。该策略包括生成器(G)和判别器(D)之间的博弈,追求纳什均衡。此后生成和判别策略确定用于评分和排序候选答案。新策略还引入正则化纠错机制,以确保答案与客观事实一致。7B 参数的 Llama 模型通过这一策略在多个任务中取得出色表现,包括常识推理、阅读理解、数学和对话任务。均衡排名的应用在选择题和问答题上表现卓越,尤其在 TruthfulQA 数据集中表现杰出,提高了 ARC 数据集和 RACE 数据集的准确率。

GPU 短缺得到缓解,大公司自研芯片 🔗 Twitter

GPU 短缺现象已有所减轻,亚马逊、谷歌、微软等公司正在自主研发大型语言模型芯片。较小的语言模型,如 Mistral 的 7B 和 Llama-2 70B,表现出色,而混合专家架构结合较小模型可能实现 GPT-4 级别的性能。尽管提供超大型模型的服务成本高昂,但像 Llama-2 这类较小模型显示出潜力。,LLM 性能在用尽训练数据后可能出现平台期,因此增加数据并不一定显著提高推理能力。高质量的数据对 LLM 的性能至关重要,数据质量比数据数量更为重要,企业可以获得特定任务的高质量数据。此外自回归 LLM 在实现通用人工智能(AGI)方面存在限制。

◇ Stable Diffusion 崭新的玩法! 🔗 Twitter

Stable Diffusion 推出了 AnimateDiff 框架,可轻松创建动态图像,只需添加文本或上传底图。这个框架支持多种模型和风格,还增加了 Prompt Travel 功能,使生成更加灵活。可以动态控制人物表情,无需复杂参数调整。这个项目旨在将个性化文本到图像模型转化为高质量动画图像,满足了不断增长的图像动画需求。其方法涉及将运动建模模块添加到现有文本到图像模型中,该模块通过视频剪辑训练以提取运动先验,使多个个性化版本轻松生成多样化的动画图像。

◇ MiniGPT-V2:一站式解决视觉和语言多任务问题 🔗 Twitter

MiniGPT-4 的 V2 版本近期发布,专注于解决各种视觉-语言任务,包括图像标注、对象解析、问题回答等。相较于 GPT-4,MiniGPT-4 更加注重多模态学习,不仅能够处理文本数据,还能够处理图像数据,使其在视觉任务方面更具实力。该模型基于 Llama2 Chat 7B 开发,提供了两个版本:Vicuna V0 和 Llama 2。MiniGPT-4 在多个视觉问答数据集上表现出色,超越了 BLIP-2、LlaVA、Shikra 等模型。其工作原理涵盖视觉编码器和大型语言模型 Vicuna,能够处理图像特征提取和相关文本生成,同时具备多功能性和交互性,适用于各种任务。然而需要注意的是,MiniGPT-4 仍存在一些局限性,如在某些情况下可能会出现错误的对象标定。

◇ 自行托管 LLMs :超越 GPT-4 的经济实惠 🔗 Twitter

自行托管小型语言模型可能比运行 GPT-4 更具成本效益。假设完整的上下文窗口,GPT-4 的成本大约为每 1,000 个 tokens0.30 美元。自行托管 LLMs 的主要成本是 GPU 服务器,使用 H100 服务器的示例成本为每小时 2 美元。在测试中,使用较小的模型在 4090 GPU 上实现了每秒 44.1 个 tokens,具备完整的上下文窗口,成本约为每 1,000 个 tokens 0.013 美元。成本节省取决于 GPU 的持续使用,即使在效率较低的设置下,成本仍远低于 GPT-4。针对特定任务对模型进行微调,如 Mistral-7B,是一种具有成本效益的解决方案。按使用付费的扩展方式可能更有效。GPT-3.5 的价格类似,除非进行微调,但对于大多数用例,通常应在 GPT-4 和经过微调的模型之间进行选择。

◇ 如果 GPT-5 没有达到预期怎么办 🔗 News

科技界对 GPT-5 的期待很高,但担心中国可能在美国之前开发出这一模型,引发外交和军事影响。有人呼吁暂停 GPT-5 的开发,而 OpenAI 的 Arrakis 项目旨在创建更小、更高效的 AI 模型,但据报道已取消。OpenAI 的首席执行官表示未来六个月内不计划训练 GPT-5,这引发了一些猜测,包括高成本和盈利不确定性。即使像 OpenAI 这样的强大公司也可能在 AI 领域面临挫折,未来可能需要新的范式转变才能取得真正的进展。这一决定的延迟或不如预期进展可能对 AI 公司的估值产生影响,并突显了构建可靠 AI 的难度。

GRID :通用机器人智能开发平台 🔗 Twitter

GRID 是一个整合了多模态基础模型和大型语言模型功能的系统,旨在为机器人生成代码。它能够接收传感器和控制 API 输入,并生成与任务相关的代码,包括计算机视觉、本地化、规划和安全等方面的基础模型。GRID 建立在最先进的模型之上,还支持用户使用他们自己的模型。系统中的多个代理协同工作,以生成解决方案和可部署的代码。GRID 还包括一个高保真模拟器称为 AirGen,用于生成各种时空数据。用户可以使用自然语言与 GRID 互动,解决复杂问题。整合了大模型的基础模型确保了有效的感知和推理,同时 GRID 还能够利用 VQA 和分段模型来检测无人机的安全着陆点。

「 融资快讯 」

◇ 百川智能完成 3 亿美金 A1 轮战略融资 🔗 News

百川智能成立于 2023 年 4 月,目前已完成 A1 轮 3 亿美元战略融资,投资方包括阿里巴巴、腾讯、小米等科技巨头和多家投资机构。公司在短时间内迅速崭露头角,汇集了来自知名科技公司如搜狗、谷歌、腾讯、百度、华为、微软、字节跳动等的强大人工智能团队。他们积极开发大型模型,发布多款开源和闭源模型,走在大型模型市场的前沿,已获得高度认可。百川智能采用 ToC 和 ToB 战略,专注于消费者超级应用,并进军商业领域。公司员工超过 170 人,多数拥有硕士以上学历,80%从事研发工作。

「 早点趣玩 」

◇ Riffusion: AI 驱动的音乐生成应用 🔗 Twitter

用户能够通过简单地选择流派和情绪来制作个性化的音乐曲目。 Riffusion 刚刚已筹集 400 万美元种子资金,Riffusion 计划使用这笔新资金来增强应用的功能。包括创建和与他人共享音乐,同时也专注于开发能够生成更复杂、更精致的音乐作品的新 AI 模型。

「 课程推荐 」

◇ 吴恩达推新课:《适合所有人的生成式人工智能》 🔗 Link

  • 直接向吴恩达学习生成式人工智能技术、它的工作原理以及它的功能
  • 概述人工智能工具,并从当今使用的生成式人工智能的现实示例中学习
  • 了解生成式人工智能对商业和社会的影响,以更好地预测和驾驭未来