OpenAI 计划推出 GPT-4o 语音模式,开启无缝 AI 语音聊天|AGI 掘金资讯 7.29

2,569 阅读10分钟

新的一周开始啦,给酱酱们带来 AGI 掘金 的今日热点资讯啦,欢迎阅读交流哦!

🌟 技术突破

🔗 防不胜防:黑客可利用 AI 通过 HDMI 线远程窃取屏幕信息

乌拉圭研究人员发现,黑客可以利用人工智能技术,通过拦截电脑显示器与主机之间 HDMI 线缆泄露的电磁辐射来窃取屏幕信息。他们开发的 AI 模型能从远处重建数字信号,这种攻击方式被称为 TEMPEST 攻击。尽管数字视频传输比模拟信号复杂,但依然存在漏洞。NSA 和北约已有 TEMPEST 防护标准。黑客可能在建筑物外使用天线或植入设备来捕获信号。尽管错误率约 30%,但人类仍可读大部分文本。普通用户不必过于担忧,但需注意潜在风险。

🔗 蔚来发布“中国首个”智能驾驶模型 NWM:0.1 秒内推演出 216 种可能发生的场景

蔚来在 NIO IN 2024 科技日活动中发布了智能驾驶世界模型 NWM,该模型是中国首个,具备多元自回归生成式能力,能在 0.1 秒内推演出 216 种可能场景,提供最优路径选择。NWM 还能基于短驾驶视频生成更长的想象视频,具有闭环仿真测试能力,确保智能驾驶的安全性和拟人化体验。同时,蔚来还发布了智能驾驶技术架构 NADArch 2.0,升级算法层,从传感器数据到驾驶决策的端到端架构,减少信息损耗,增强预测能力。

🔗 CPU、GPU 的互连从 1 米飙至 100 米,英特尔:你相信光吗?

英特尔发布了业界首款全集成 OCI 芯片,采用光学 I/O 技术,大幅提升了 CPU 和 GPU 间的数据传输能力。这项技术使得数据传输距离可达 100 米,同时支持 64 个 32Gbps 通道,大幅降低功耗,适合 AI 大模型需求。硅光子技术结合了硅集成电路和半导体激光的优势,实现了光电共封装,为未来计算和通信领域带来革命性的应用前景。英特尔的创新不仅提高了数据传输速度和密度,还通过迭代式提升,将传输速度推向 32Tbps,展现出其在硅光集成技术方面的领先地位。

🔗 智谱 AI 发布“清影”模型,免费生成 6 秒高清视频

智谱 AI 推出了名为“清影”的视频生成模型,用户可通过文本或图片生成 1440×960 分辨率的 6 秒高清视频,支持 PC 和手机端免费使用。该模型提供视频风格、情感氛围和运镜方式的自定义选项,支持图像生成和背景音乐添加。基础模型 CogVideoX 擅长视频内容的深度学习和理解,具备多模态学习能力。智谱 AI 由清华技术成果转化,与多家合作伙伴实现了规模化落地。

🔗 无需任何系统的物理知识,美国阿贡国家实验室 AI 制造材料「指纹」

美国阿贡国家实验室开发了一种无监督深度学习框架 AI-NERD,能够自动从实验数据中分析材料的松弛动力学,无需物理知识背景。该技术通过创建材料的“指纹”,利用神经网络分析,揭示了科学家之前无法获取的新信息。AI-NERD 框架与材料和工艺无关,有助于加速大型数据集的探索,将微观动力学与宏观特性直接关联,为自主材料发现提供了新途径。研究成果已发表在《Nature Communications》。

💫 企业动态

🔗 开启无缝 AI 语音聊天,OpenAI 计划向 ChatGPT Plus 用户推出 Alpha 版 GPT-4o 语音模式

OpenAI 计划向 ChatGPT Plus 用户推出 GPT-4o 的语音模式,实现无缝对话体验。GPT-4o 是 OpenAI 新一代 AI 模型,能统一处理文本、视觉和音频输入,显著降低语音反馈延迟。虽然语音模式发布因安全测试推迟,但 OpenAI 正加强内容检测和用户体验。此外,OpenAI 在 2 月推出了 ChatGPT Plus 订阅服务,尽管推迟发布引发用户不满,公司仍致力于研发,预计一年半后推出更高级的 GPT-5。

🔗 Meta Llama 3 AI 训练 54 天,每 3 小时就故障一次,GPU 故障率高出 CPU 120 倍

Meta 公司在 54 天的 Llama 3 405B 大语言模型训练中,遭遇了 419 次意外组件故障,平均每 3 小时一次。故障主要源自 GPU 及其 HBM3 内存,故障率远高于 CPU 达 120 倍。尽管故障频发,但通过自动化管理,训练任务保持了 90%以上的有效运行时间。环境因素如温度波动和电力需求对 GPU 集群性能也产生了影响。

🔗 “AI 分析师”登陆华尔街,摩根大通开始内部推广聊天机器人

摩根大通在其资产和财富管理部门内部推广名为 LLM Suite 的 AI 产品,该平台类似 ChatGPT,能辅助员工撰写、生成创意和总结文件。目前约 5 万名员工可访问此平台,占总数 15%。此举标志着华尔街对大型语言模型的大规模应用,预示着金融行业自动化和效率提升的新时代。同时,花旗集团报告指出银行业约 54%的岗位可能实现自动化,AI 技术将在金融领域带来颠覆性变革。

🔗 Suno 大危机,Udio 更新 v1.5 版本,是认真想做音乐

Udio 应用更新至 v1.5 版本,致力于提升音乐创作体验。新版本提供用户友好的 remix 和扩展功能,支持自定义音乐长度,并通过选择不同段落进行延长。Udio 特别注重音乐创作,尽管模型在理解爵士等复杂音乐风格上存在挑战,但通过音频生成等付费功能,进一步丰富了音乐制作的可能性。

🔗 MiniMax Talkie 应用月活破 1100 万,美国用户占半,用户体量接近 C.ai 六成

MiniMax 开发的 AI 对话应用 Talkie 月活用户数突破 1100 万,其中美国用户占比高达 50%。该应用支持用户与虚拟角色进行情感对话,包括定制角色外观和声音。与市场上其他头部应用如 Character.ai 相比,Talkie 的用户体量已达到其 60%。Character.ai 目前月活 1700 万,全球用户达 2.33 亿,预计年底月活将增至 2000 万。尽管面临资金短缺传闻,Character.ai 仍在积极寻求合作与融资机会。

🔗 特斯拉推送 FSD v12.5.1 更新,变道更早、更自然

特斯拉推出了 FSD(Supervised)v12.5.1 版本,该版本在城市和高速公路驾驶功能上进行了整合,并首次支持 Cybertruck 车型。更新亮点包括更早、更自然的车道变更,允许驾驶员在启用 FSD 辅助驾驶时佩戴墨镜,以及马斯克预告的“真・智能召唤”功能。目前,更新尚未推送至搭载 HW3 硬件的车辆,而是首先针对搭载 HW4 硬件的 Model Y 车型。

🔗 国际奥委会携手 AI 技术革新体育人才选拔

国际奥委会首席信息科技官宣布,已确定超 180 个 AI 应用场景,旨在通过技术革新体育人才选拔。与英特尔合作开发的技术,利用手机软件在全球范围内识别新体育人才。塞内加尔作为试点,1000 余名年轻人参与,48 名优秀者被选拔。巴黎奥运会将引入中国 AI 技术,应用于赛事解说和 360 度直播等,展现 AI 在体育领域的广泛应用潜力。

🔗 阿里大模型元老杨红霞加盟香港理工大学,同时推进 AI 创业项目

AI 领域知名科学家杨红霞教授已正式入职香港理工大学担任电子计算机系教授。她曾在 IBM 和雅虎担任要职,并在阿里巴巴达摩院领导了 M6 大模型的研发,为通义千问奠定了基础。杨教授在学术界和工业界均有杰出贡献,拥有 50 多项专利和 100 余篇论文。近期,她被曝从字节跳动离职后,正筹备全球化 AI 项目,同时获得数千万美元投资,估值达 1.5 亿美元,展现了她在 AI 领域的深厚影响力和创新能力。

✨ 行业观点

🔗 OpenAI 惨遭打脸!SearchGPT 官方演示大翻车,源代码竟暴露搜索机制

OpenAI 的 SearchGPT 在官方演示中出现错误,误报了北卡罗来纳州 Boone 音乐节的日期。尽管如此,用户测试显示 SearchGPT 在提供实时信息和响应速度上表现出色。科技媒体 TestingCatalog 的内测揭示了 SearchGPT 依赖 Bing 索引但计划拥有自己的网络爬虫,以及多模态模型的支持。尽管 OpenAI 承认错误并表示将持续改进,但这一事件引发了对大型语言模型准确性和可靠性的讨论。

🔗 Llama 4 训练已开启!Meta 科学家最新采访,揭秘 Llama 3.1 是如何炼成的

Meta 的 AI 科学家 Thomas Scialom 在播客中分享了 Llama 3.1 的参数选择、数据使用、后训练流程等研发细节,并展望了 Llama 4 的发展。Llama 3.1 在参数规模上寻求了推理效率与算力的平衡,使用了大量合成数据并避免了 MoE 架构。其后训练过程未依赖人工答案,而是利用合成数据。Meta 已开始训练 Llama 4,可能聚焦于 agent 技术,以实现更高级的智能功能。

🔗 智谱 AI CEO 张鹏谈文生视频:当前可用来做影视辅助工作,若要改变电影制作仍需距离

智谱 AI CEO 张鹏在接受采访时表示,尽管生成式 AI 技术如文生视频已开始辅助影视制作,但要真正改变电影制作流程还需时间。他强调,AI 技术对影视行业具有积极意义,但目前仅适用于辅助工作和小规模创作。智谱同时宣布推出新一代视频生成模型 CogVideoX,其 AI 视频生成功能"清影"已免费向用户开放,展示 AI 技术在视频制作领域的应用潜力。

🔗 70 年前的阿兰·图灵情书!计算机之父和一段「有罪」的罗曼史

70 年前,阿兰·图灵和 Christopher Strachey 在曼彻斯特大学创造了情书生成器,这是 AI 写作的早期尝试。Strachey 为 Ferranti Mark 1 编写程序,随机生成情感表达,署名"MUC"。两人的友谊和合作在人工智能领域产生了深远影响,包括创造能唱歌的计算机和最早的电脑游戏。图灵在 BBC 的演讲中探讨了计算机的学习能力和自由意志问题,提出使用随机性增加计算机的创造性。他们的工作不仅预示了现代 AI 的发展,也反映了对智能机器情感表达的探索。

AGI 掘金成立于 2024 年7 月,是一家专注于 AGI 相关研究和应用的创新型 知识平台。我们的使命是推动 AGI 技术和 AI 应用的落地与发展,并将其应用于各个行业,为人类社会创造更大的价值。我们提供 AGI 技术最新讯息、应用解决方案、组织各种有趣的服务,致力于成为行业的领军者。AGI 掘金期待你的加入!

欢迎戳我加入 AGI 掘金飞书社群交流学习😊