看人下菜碟的GPT、纯语言模型的局限、皮肤供电技术、宇宙智能体 | AGI 掘金视界周刊10月第3周

avatar
公众号: 小包学前端

AGI 掘金视界周刊由 AGI 掘金知识库共建者战场小包维护,每周一更新,包含热点聚焦、应用破局、学术前沿、社区热议、智见交锋、跨界 AI、企业动态和争议 AI 八大板块,后续板块划分和内容撰写在周刊迭代过程中持续优化,欢迎大家提出。

欢迎大家来到《AGI 掘金视界周刊10月第3周》(10/14~10/20)。

✨ 热点聚焦

OpenAI 最新 53 页论文:ChatGPT 看人下菜碟,对“小美”和“小帅”回答不一致

OpenAI 新论文指出 ChatGPT 会看人下菜碟,对不同名字回答不一致。比如‘小美’和‘小帅’问同样问题可能得到不同答案。女性名字易获友好回复及通俗表达,男性则多为专业术语。研究还发现开放式任务中有害刻板印象可能性高,不同方式输入用户名偏见评估相关等结论。同时,GPT-3.5 Turbo 偏见程度高,新模型偏见低于 1%,增强学习技术可减轻有害刻板印象。该研究为评估聊天机器人偏见提供方法,但也有局限性。

LeCun最新万字演讲:纯语言模型到不了人类水平,我们基本已放弃

LeCun 在最新演讲中指出纯语言模型到不了人类水平,Meta 基本已放弃纯语言模型。实现人类水平的人工智能系统需推理、规划和理解物理世界,至少还需几年甚至十年。他提到目前人工智能存在局限性,如自回归预测无真正推理、仅文本训练无法达人类水平等。同时,他提出放弃机器学习四大支柱,未来在于联合嵌入预测架构,并强调开源 AI 的重要性,认为机器虽将超越人类智能但会受控制,因它们是目标驱动的。

时隔5年,谷歌再创量子霸权里程碑!RCS算法让电路体积增加一倍

2024 年谷歌在量子计算领域取得新突破。其使用 Sycamore 量子计算机运行 RCS 算法,在相同保真度下电路体积比 2019 年增加一倍。研究揭示了量子计算机随噪声强度等变化的行为,证明了 RCS 在大规模实验中的可靠性,即使当前有噪声,量子计算机也有超越经典超算的潜力。但目前量子计算机不能取代经典超算,经典与量子计算机的竞争仍在继续。

Power-over-Skin “皮肤供电”技术 让可穿戴设备无需电池也能工作

2024 年 10 月 16 日消息,‘皮肤供电’技术出现,可让可穿戴设备无需电池工作。目前现代可穿戴设备虽功能强大且小巧,但电池成为设计和用户体验阻碍,增加重量体积且需定期充电。传统无线能量传输技术要么功率不足要么需专门环境,而‘皮肤供电’技术有望解决这些问题。

宇宙竟是一个智能体?万物智能演化Ω理论,探索宇宙终极之谜

2024 年 10 月,中国科学院大学研究人员提出万物智能演化理论(Omega 理论)。该理论以观察者和智能体的统一为突破点,揭示观察者智能水平是导致经典力学、相对论和量子力学差异的根本原因。理论由三个核心模型组成,将宇宙看作不断演化的智能体,受α引力和Ω引力驱动。此理论为解决 21 世纪科学的两朵乌云奠定基础,也为智能科学和物理学的统一提供探索方向。

英伟达开源模型 Nemotron-70B 超越 GPT-4o 和 Claude 3.5,仅次于 OpenAI o1

2024 年 10 月,英伟达开源模型 Nemotron-70B 在多个基准测试中超越 GPT-4o 和 Claude 3.5 等 140 多个模型,仅次于 OpenAI o1。它基于 Llama-3.1 开发,采用混合训练方法,训练奖励模型时用 Bradley-Terry 和 Regression,还开源了训练数据集。在各种测试中表现出色,目前模型权重可在 Hugging Face 上获取。

📲 应用破局

阿里国际 Marco 翻译大模型发布:支持中英日韩西法等 15 种主流语言

2024 年 10 16 日,阿里国际发布翻译大模型 Marco,支持中英日韩西法等 15 种主流语言。在 BLEU 自动评测指标上领先 Google 翻译、DeepL、GPT-4 等。Marco 通过多语言数据筛选技术和混合专家等方法,保证主导语言性能同时提升其他语种质量,能为个人用户提供高质量翻译和良好可读性,满足多样化需求。

苹果多模态模型大升级!文本密集、多图理解,全能小钢炮

2024 年苹果推出升级版多模态大模型 MM1.5,参数量从 1B 到 30B,涵盖密集和专家混合模型。该模型增强了文本密集型图像理解、视觉指代和定位、多图像推理等能力,提升了 OCR 能力,支持高分辨率图像。作者通过持续预训练、SFT、动态高分辨率等方法改进模型,还进行了消融实验以优化数据组合,平衡各功能性能。

Adobe Premiere Pro 推出多项新的生成式AI功能 大幅提高视频编辑效率

2024 年 10 月 15 日,Adobe Premiere Pro 推出多项新的生成式 AI 功能,包括 Generative Extend(可扩展视频和音频剪辑)、文本编辑剪辑、AI 音频分类标签、语音转文本生成字幕、增强语音、场景编辑检测、自动调色等,还有 Morph Cut、颜色匹配、音频重混等更多功能,这些功能将大幅提高视频编辑效率,目前 Generative Extend 处于 Beta 版,有分辨率、帧率等限制。

更快、更强、更经济!港大开源大模型RAG系统LightRAG

香港大学开源大模型 RAG 系统 LightRAG 通过双层检索范式和基于图的索引策略,提升了信息检索的全面性和效率,对新数据适应能力强。在多个数据集实验中,LightRAG 在检索准确性、响应多样性等方面优于基线模型,且在资源消耗和动态环境适应性上表现更优。双层检索机制和语义图对模型性能至关重要,LightRAG 在全面性、多样性和赋能性等维度上均优于 GraphRAG。

智谱开源文生图模型 CogView3-Plus,相关功能上线智谱清言 App

2024 年 10 月 14 日,智谱技术团队开源文生图模型 CogView3 及 CogView3-Plus-3B,其相关功能上线‘智谱清言’App。CogView3 分三个阶段生成图像,在人工评估中比先进开源模型 SDXL 高出 77.0%,且推理时间仅为其 1/10。CogView3-Plus 在 CogView3 基础上引入 DiT 框架,采用 Zero-SNR 扩散噪声调度和文本-图像联合注意力机制,有效降低训练和推理成本,使用潜在维度为 16 的 VAE。开源仓库地址:github.com/THUDM/CogVi…

微软探索音生图 AI 模型,实时视觉化会议演讲者语音讲述的场景

2024 年 10 月消息,微软获新专利,探索音生图 AI 模型。可在会议或讲座中实时捕捉音频,经语言模型总结后生成相应图像,分三步进行:捕捉音频转化为文本、处理文本进行总结、生成图像并实时显示。预计主要应用于 Microsoft Teams,能增强视觉沟通效果,有助于澄清概念,适合视觉辅助学习的用户。

Adobe 推出 AI 头脑风暴工具:激发无限灵感,让创意自由飞翔

10 月 14 日,Adobe 在年度 MAX 会议上预览推出 Project Concept,一款基于 AI 的创意头脑风暴工具。它使用 Adobe 的 Firefly 生成 AI 模型,能帮助设计师快速生成创意等。目标是减少日常生产任务时间,拓展创造可能性。目前处于测试阶段,预计不久后发布私人测试版,旨在为设计师提供广阔创意空间,推动创意产业发展。

Hallo 2:根据单张图像和音频输入能够生成长达一小时的4K分辨率人像视频

2024 年 10 月,模型 Hallo 发布更新版本 Hallo2。它能根据单张图像和音频输入生成长达一小时的 4K 分辨率人像视频,解决了长时、高分辨率视频生成问题。通过补丁丢弃、噪声增强和时间对齐等技术,保持视觉一致性与时间连贯性,支持灵活的语音与文本控制,生成质量业内领先。

端侧 AI 崛起:Mistral 发布 Ministral 3B / 8B,“全球最好的边缘模型”

2024 年 10 月 17 日,Mistral 公司发布 Ministral 3B 和 Ministral 8B 两款 AI 模型,无需连接云服务器,可提升笔记本和智能手机等设备的本地化 AI 体验,被称为‘世界上最好的边缘模型’。能在无互联网接入下执行多项服务,上下文窗口为 128K,可处理 50 页文档。8B 版本每百万个 tokens 售价 0.1 美元,3B 版本为 0.04 美元。8B 采用交错滑动窗口注意力机制,推理时更快且省内存。

🎏 智见交锋

19 天打造“最强”AI 训练集群,黄仁勋称马斯克像超人

2024 年 10 月 14 日消息,英伟达 CEO 黄仁勋称赞马斯克旗下 xAI 公司在 19 天内打造出‘最强’AI 训练集群 Colossus,配备 10 万个英伟达 H100 GPU,采用液冷散热和单一 RDMA 网络互连架构。xAI 计划在今年 12 月前利用该集群训练出‘世界上最强大的人工智能’。

10年后手机有多科幻?清华孙茂松:人手一个超级大脑,诊病翻译搞研发

2024 年,清华孙茂松教授预言未来手机将成为人手一个的超级大脑,如通过生成式人工智能,手机可成为私人生活助手和工作助理,借助大模型赋予的功能,如在巴黎卢浮宫可实现展品文字翻译等。知乎答主认为大模型是老师,可协助疾病诊断、提供学习计划等,大模型还能扮演多种角色,提升效率,给生活带来诸多变化,我们应积极拥抱。

诺奖得主迈克尔・莱维特:ChatGPT 比我 IQ 高很多,我啥事都问它

2013 年诺奖得主迈克尔·莱维特认为 ChatGPT 比自己 IQ 高很多,他每天用 ChatGPT 十多次。他指出教育在未来 10 年将因人工智能完全颠覆,老师可能向学生学习。还强调年轻人的变革很重要,如一些辍学的人做出重大成就,世界 80%人口将拥有智能手机和人类知识,他对未来充满信心。

Meta 首席人工智能科学家 LeCun:AI 威胁人类论完全是胡说八道

Meta 首席人工智能科学家 LeCun 称 AI 威胁人类论完全是胡说八道。他认为如今的语言大模型缺乏关键‘猫级’能力,不会产生真正的通用人工智能(AGI)。同时,他也不完全否认实现 AGI 的可能性,并指出其领导的 Meta 基础人工智能研究团队正在研究消化真实世界视频这一有前景的方向。

🎯 争议 AI

OpenAI 多智能体 Swarm 陷争议,20 岁创始人自曝代码结构被抄袭

OpenAI 推出多智能体框架 Swarm,获大量关注。但 20 岁的 Swarms Corporation 创始人自曝 OpenAI 抄袭其项目名称、代码结构和方法,引发争议。OpenAI 的 Swarm 通过智能体和交接实现让智能体协调和执行更高效,目前争议双方各执一词。

🛶 跨界 AI

90后AI天才造卡车,靠端到端进自动驾驶第一梯队

90 后 AI 天才黄泽铧创办零一汽车造卡车,靠端到端进自动驾驶第一梯队。零一汽车在 CVPR 国际自动驾驶挑战赛获佳绩,黄泽铧认为端到端重塑自动驾驶范式,简化工程,带来人才组织管理、上层系统、解决长尾场景等变化,还可能让 L4 不存在,使自动驾驶商业化迎来曙光。同时,零一汽车以造车为起点,解决卡车自动驾驶落地短板,打造‘三级火箭’战略,还通过零动智卡联盟赋能卡车行业。

AMT-APC:自动生成钢琴伴奏模型 将任意音乐转换成与原曲匹配钢琴伴奏

AMT-APC是自动生成钢琴伴奏的模型,能从音频文件中提取信息生成与原曲匹配的钢琴伴奏。其特点包括自动生成、高保真度、多样化风格生成、支持复杂乐曲及风格控制功能。核心架构基于自动音乐转录模型,采用 hFT-Transformer,通过预训练和微调实现,还使用矩阵输出损失计算和风格向量等关键技术。

🎮 企业动态

台积电计划在欧洲建设更多工厂,重点瞄准 AI 芯片

2024 年 10 月 14 日消息,台积电已在德国德累斯顿动工建设首座晶圆厂,未来计划在欧洲建设更多工厂,重点瞄准 AI 芯片市场。8 月启动价值 100 亿欧元(约 773.44 亿元人民币)的芯片制造厂建设项目,2027 年底投产,资金一半由当地政府补贴。AI 市场被认为是重要增长领域,台积电可能为欧洲准备更多工厂并在评估后续建厂地点。

谷歌签署核电购买协议,以满足发展人工智能的用电需求

2024 年 10 月 15 日,谷歌签署核电购买协议以满足发展人工智能的用电需求。计划购买六到七个小型模块化反应堆的电力,总计 500 兆瓦。首个反应堆在 2030 年前投入使用,2035 年前更多部署。其技术使用熔盐冷却系统等,实现更简单经济的核反应堆设计。此前微软也宣布与相关公司达成协议,用核电或核聚变反应堆电力为人工智能服务器供电。

中国电信自研 AI 节能系统:年均节电 8 亿度,节约电费 5.2 亿元

2024 年 10 月,中国电信在绿色发展方面积极作为。2023 年自发绿电和外购绿电同比增长 4 倍左右。自研 AI 节能系统广泛部署,年均节电 8 亿度,节约电费 5.2 亿元。2024 上半年营收 2659.73 亿元,同比增长 2.8%;归母净利润 218.12 亿元,同比增长 8.2%。9 月成功完成国内首个基于全国产化万卡集群训练的万亿参数大模型,并开源千亿参数大模型。

📑 学术前沿

大模型「强崩溃」!Meta新作:合成数据有「剧毒」,1%即成LLM杀手

Meta、纽约大学、UCLA 机构研究发现,即使合成数据仅占总数据集 1%比例,仍可能导致模型崩溃,且 ChatGPT 和 Llama 等较大模型可能放大这种崩溃现象。作者通过理论分析和实验,探讨了模型崩溃的原因及合成数据比例对模型的影响,还尝试了数据混合方法缓解崩溃,但效果不佳。

中国科学院利用人工智能,发现迄今为止距其主星最近的最小行星

2024 年 10 月 14 日,中国科学院上海天文台葛健教授带领国际团队,利用结合 GPU 相位折叠和卷积神经网络的深度学习算法(GPFC),在开普勒恒星测光数据中发现五颗超短周期行星,其中四颗是距主星最近的最小行星,类似火星大小。该算法比国际流行的 BLS 法搜寻速度快约 15 倍,检测准确度和完备度各提高约 7%。这些行星为行星系统研究提供关键线索,展现了人工智能在天文领域的应用潜力。

李飞飞「数字表兄弟」破解机器人训练难题!零样本sim2real成功率高达90%

2024 年 10 月,李飞飞团队提出‘数字表亲’方法破解机器人训练难题。该方法能从单张 RGB 图像生成交互式场景,零样本 sim2real 成功率高达 90%。与数字孪生相比,‘数字表亲’降低成本且提高泛化能力。实验表明,其训练的策略比数字孪生策略表现出更强的鲁棒性、相当的领域内性能、优越的领域外泛化能力及零样本学习能力。共同一作 Tianyuan Dai 和 Josiah Wong 均在斯坦福大学,由李飞飞指导。

RTX 4090 笔记本 0.37 秒直出大片:英伟达联手 MIT 清华祭出 Sana 架构,速度秒杀 FLUX

英伟达联手 MIT、清华团队推出 Sana 架构,在 RTX 4090 笔记本上仅需 0.37 秒就能生成 1024×1024 像素图片,最高可实现 4k 分辨率。其核心设计包括深度压缩自编码器、线性 DiT、基于仅解码器模型的文本编码器和高效的训练采样策略等。与领先模型相比,Sana 参数小且吞吐量飙升,在不同分辨率下性能出色,还能在消费级 4090 上实现快速生成高质量图像。

后语

我是 战场小包 ,一个喜欢 AI 和前端的小编程。

如果喜欢小包,可以在 掘金 关注我,同样也可以关注我的小小公众号——小包学前端,公众号会持续地更新 AI 和前端的知识。

一路加油,冲向未来!!!

AGI 掘金成立于 2024 年7 月,是一家专注于 AGI 相关研究和应用的创新型 知识平台。我们的使命是推动 AGI 技术和 AI 应用的落地与发展,并将其应用于各个行业,为人类社会创造更大的价值。我们提供 AGI 技术最新讯息、应用解决方案、组织各种有趣的服务,致力于成为行业的领军者。AGI 掘金期待你的加入! 欢迎戳我加入 AGI 掘金飞书社群交流学习😊