机器人打咏春、记忆上传、脑机接口新进展、下一代controlnet | AGI掘金视界周刊第 6 期

avatar
公众号: 小包学前端

AGI 掘金视界周刊由 AGI 掘金知识库共建者战场小包维护,每周一更新,包含热点聚焦、应用破局、学术前沿、社区热议、智见交锋、跨界 AI、企业动态和争议 AI 八大板块,后续板块划分和内容撰写在周刊迭代过程中持续优化,欢迎大家提出。

欢迎大家来到《AGI 掘金视界周刊第六期》(08/12~08/18)。

✨ 热点聚焦

意念玩《黑神话》指日可待?马斯克脑机接口最新进展,脑后插管打 CS 拼抢三杀!

马斯克的 Neuralink 公司展示了脑机接口技术的最新进展,瘫痪志愿者 Alex 通过植入脑机接口,成功用意念控制游戏《CS 2》,并在 5 分钟内学会操控鼠标,打破世界纪录。Alex 还使用 CAD 软件设计并 3D 打印了脑机接口充电器支架,展现了脑机接口在日常生活中的实用性和稳定性。Neuralink 致力于提升操作方式,解码手写意图,以帮助瘫痪者恢复使用电子设备和交流能力。未来,脑机接口有望实现控制机械臂和轮椅,为患者带来更大自由。

国产 AI 机器人好超前…弹琴泡茶打咏春,还能撸猫??

Astribot S1 是由星尘智能开发的先进人形机器人,能独立完成弹琴、泡茶、烹饪、武术等复杂任务,展现其强大的学习和执行能力。机器人采用人形上半身和轮式底盘设计,具有高度仿人的身体指标和精细的操作能力。通过模块化设计,S1 能灵活适应不同需求。其 AI 算法和刚柔耦合传动机构设计,使其在复杂环境中具备出色的感知、认知和实时决策能力,同时确保操作安全。

蜘蛛侠妖娆起舞,下一代 ControlNet 来了!

港中文贾佳亚团队推出 ControlNeXt,一种开源的图像/视频生成引导工具,作为 ControlNet 的下一代产品,显著提升了可控生成的效率。ControlNeXt 支持多款 Stable Diffusion 家族模型,实现即插即用,并能精确控制视频生成中的动作细节。它通过引入轻量化卷积模块和交叉归一化技术,减少了训练参数和计算开销,加快了收敛速度,同时保持了模型结构的一致性,实现了与原始架构的无缝集成。

生命的延续?马斯克:未来人类记忆可“迁移”至机器人

特斯拉 CEO 埃隆·马斯克提出,未来人类有望将记忆和思维状态上传至云端,并下载至人形机器人 Optimus,实现生命的延续。Optimus 机器人设计初衷为处理危险或重复任务,但马斯克对其有更高期望,包括作为人类伴侣、照顾孩子或参与奥运射击比赛。他预测,Optimus 的市场规模将远超电动汽车市场,计划于 2025 年开始小批量生产,2026 年扩大生产以满足需求,预计售价在 1 万至 2 万美元之间。

📲 应用破局

Exists 推出 AI 平台:零编程经验者也可制作高质量 3D 游戏

AI 初创公司 Exists 发布新平台,允许无编程基础的用户通过文本指令创建 3D 游戏。首席执行官约塔姆·赫特林格博士表示,目标是实现游戏创作领域的范式转变。平台易于操作,用户可调整生成后的游戏细节。尽管存在人脸建模不自然的局限性,公司正致力于拓展 AI 技术,以开发更复杂的游戏类型。预告片中展示了多种视角的射击游戏,预示着 AI 在游戏开发领域的广阔应用前景。

阿里巴巴 UniPortrait:照片变动漫、多人合照与换脸三合一 AI 工具

阿里巴巴开发的 UniPortrait AI 模型,以其高度自然的照片编辑效果脱颖而出。该工具不仅能够将照片转换为动漫风格,还能精准处理多人合照和换脸,避免了传统 AI 换脸技术中的五官模糊和表情僵硬问题。UniPortrait 利用"ID 嵌入"和"ID 路由"技术,确保了修改的准确性和个性化。此外,它还能与 ComfyUI 等其他 AI 工具结合,创造出更多创新玩法,如动态漫画制作。

Half_illustration:基于 Flux.1 的 LoRA 模型,照片秒变艺术大片

Half_illustration 是一款基于 Flux.1 LoRA 模型的 AI 工具,能够将普通照片通过用户描述的场景和元素,如烟雾、花朵、火焰等,转化为具有视觉冲击力的艺术作品。用户只需添加特定风格提示词"in the style of TOK",即可获得风格化的作品。该工具不仅适用于艺术创作,还能在时尚摄影、广告设计等领域发挥作用,并提供 API 接口和与 Diffusers 库的兼容性,方便开发者使用。

4 秒看完 2 小时电影!阿里发布通用多模态大模型 mPLUG-Owl3

阿里巴巴集团的 mPLUG 团队推出了 mPLUG-Owl3,一款通用多模态大模型,能在 4 秒内处理 2 小时电影内容。该模型在图像处理和视频理解方面表现出色,具备高效的推理效率和准确性,无需牺牲性能。mPLUG-Owl3 通过 Hyper Attention 模块,实现了视觉与文本的深度融合,优化了模型的多模态能力。在多个 Benchmarks 上取得 SOTA 成绩,展示了其在单图、多图和长视频理解方面的先进性。模型的开源代码和 demo 提供了进一步研究和应用的可能性。

科大讯飞推出“星火极速超拟人交互”:可模仿孙悟空、蜡笔小新等音色、语气、人设

科大讯飞发布星火语音大模型的升级版,具备极速响应、情绪感知、灵活表达和多人设切换四大特性。新模型实现语音到语音的端到端建模,提升响应速度和流畅度,能识别并共鸣多种情绪,支持情感、风格和方言的个性化控制。用户可与孙悟空、蜡笔小新等角色进行互动。该技术计划于 8 月 30 日在讯飞星火 APP 上线,供全民体验。

“一人一剧”时代来临:AI 短剧平台 SkyReels 正式发布

昆仑万维集团发布全球首个 AI 短剧平台 SkyReels,集成剧本生成、角色定制、分镜、剧情、对白/BGM 及影片合成等全流程创作工具。SkyReels 利用自研技术和 AI 模型,实现一键生成高质量视频,大幅提高创作效率,降低成本,推动个性化内容创作。平台支持 1080P 60 帧高清视频输出,满足专业和非专业用户需求,预示着 AI 驱动的短剧创作与消费新时代的到来。

AI 与人类之间无休止斗争的又一个战场:验证码

验证码作为区分人机的重要手段,正面临人工智能技术的挑战。AI 通过深度学习和神经网络技术,已能绕过多数验证码。同时,验证码技术也在不断进化,如 reCAPTCHA 通过分析用户行为来识别人类。未来验证码可能更侧重行为分析和生物识别,但隐私问题随之而来。AI 在加强安全方面也扮演关键角色,预示着验证码与 AI 的共生关系将进一步发展。

谷歌 DeepMind 集成 Gemini 1.5 Pro 大模型于实体机器人,看、听、说能执行 57 种任务

谷歌 DeepMind 最新研究将 Gemini 1.5 Pro 大模型集成到实体机器人中,赋予其导航、推理等高级能力。机器人通过 100 万 Tokens 上下文长度的长上下文处理能力,理解多模态指令,识别物品和场景,执行 57 种任务。在 836 平方米真实空间的测试中,机器人展现出在无需推理和需要推理任务中的高成功率,以及在复杂环境中的适应性和导航准确性。该技术的发展将推动实体机器人在服务和执行任务方面的人性化和智能化。

国产机器人黑马首次登场,打螺丝堪比擎天柱!国家队全栈自主研发

浙江人形机器人创新中心研发的领航者 2 号 NAVIAI,在 2024 世界机器人大会上首次亮相,展示了其类人外观和高智能作业能力。这款 1.65 米高、60 公斤重的机器人,拥有 41 个自由度,能执行复杂动作如演讲、泡茶、下棋等。它采用拟人全身模仿学习技术,AI 算力高达 275Tops,反应迅速,能适应多种场景。领航者 2 号的全栈自主研发,标志着国内人形机器人技术的重大突破,预示着人形机器人 3.0 时代的到来,有望在服务、医疗、教育等领域广泛应用。

微软 Azure AI 语音服务推出虚拟人形象,支持文本转视频

微软 Azure AI 语音服务新增 Text to Speech Avatar 功能,允许开发者创建个性化虚拟人形象,将文本转换为自然声音视频。该服务提供多种人物预设形象,支持批量合成 API,实现异步或实时文本到语音人像视频合成,并在 Speech Studio 中提供内容创作工具。服务按视频长度计费,已在多个地区推出。

D-ID 发布 AI 视频翻译工具,实现语音克隆和口型同步

D-ID 公司推出了一款 AI 视频翻译工具,该工具不仅能够将视频内容翻译成 30 种不同的语言,还能克隆说话者的声音并调整其口型以匹配翻译后的语音。这项技术基于 D-ID 早期的动画照片技术发展而来,旨在帮助创作者扩大全球影响力,降低本地化成本。D-ID Studio 及其 API 将提供这项服务,支持 10 秒至 5 分钟、2GB 以下的视频文件,目前提供免费试用。

⏳ 社区热议

《黑神话:悟空》的第二个受害者出现了,竟是 AI 搜索惹的祸!

国产游戏《黑神话:悟空》上线后,因热度引发 AI 搜索错误,导致某机锋网员工手机号被误标为游戏客服电话。微软必应 AI 助手抓取错误信息,使受害者短时间内接到大量电话。尽管相关文章已删除,错误信息仍一度出现在搜索首页。微软必应覆盖 36 个国家和地区,用户超 6 亿,此次事件暴露了 AI 搜索引擎在信息抓取和处理上的不足。尽管必应团队已对错误信息进行更正,但 AI 搜索的准确性和可靠性问题仍需关注。

2024 世界机器人大会:泡沫、热潮、现实与未来

2024 年世界机器人大会在北京举行,169 家企业带来 600 余件创新产品,其中 60 余款为首发新品。人形机器人成为焦点,数字华夏推出的“夏澜”机器人,搭载 AI 系统和高仿外观,展示了自然语言交互和流畅动作控制。大会聚焦机器人在家庭服务、情感陪伴及特定场景如应急、消防的应用,同时探讨了人形与四足机器人的优劣。尽管存在行业泡沫争议,机器人技术正逐步融入日常生活,预示着智能化和人机协作的未来趋势。

🎏 智见交锋

AI 泡沫恐慌:技术革新与市场调整

2024 年全球股市经历重挫,科技股领跌引发 AI 泡沫恐慌。市场对 AI 技术未来发展过于乐观,导致投资过剩。然而,与互联网泡沫相比,当前 AI 泡沫有限,且有实际价值支撑。AI 技术被视为下个时代的基建,投资回报周期长,但潜在经济效益巨大。尽管存在成本和应用挑战,AI 的效能提升和成本下降趋势明显,预示着其在经济生态中的重要作用。

Anthropic 工程师分享沉浸式体验,和「AI 搭子」Claude 共度完美一天

Anthropic 工程师 Alex Albert 分享了他与 AI 助手 Claude 共度的一天,展示了 AI 在日常生活中的多面性应用。从早餐替代食材的查询、健身替代方案、工作邮件处理、文档制作、社交媒体互动,到晚餐烹饪指导、电影类型推荐、首饰材质比较,以及哲学书籍讨论,Claude 展现了其在不同场景下的实用性和智能性。

红杉资本合伙人前瞻:大模型三要素已过时,电力、服务器、钢铁成制胜关键

红杉资本合伙人 David Cahn 指出,AI 发展已进入新阶段,传统大模型三要素不再占主导,而是转向基础设施建设,尤其是电力、服务器和钢铁。随着 AI 技术进步,算力成本下降,初创企业将受益。David 强调,数据中心建设效率和芯片创新成为竞争焦点,钢铁和电力作为工业基础,对 AI 发展至关重要。未来 AI 领域的竞争将更多体现在工业性质上,而非单纯的技术突破。

🎯 争议 AI

秘塔称收到中国知网 28 页侵权告知函,后续如何?

秘塔公司收到中国知网长达 28 页的侵权告知函后,通过官方公众号表示,其 AI 搜索收录的仅为公开摘要和题录,并未侵犯知网文章内容。秘塔科技首席运营官王益为回应称,数据所有权属于知网,但侵权需有损害,对指控表示困惑。秘塔宣布尊重知网选择,将不再收录知网文献题录和摘要,转而收录其他权威知识库数据。已有多家数据库表示愿意与秘塔合作,确保服务不受影响。

AI 爆料人"草莓哥"遭全网封禁!OpenAI 等 25 个机构祭大招辨真伪

近期,一个名为"草莓哥"的 AI 智能体在全网发布虚假信息后被揭露并遭封禁。为应对 AI 冒充人类带来的隐私和安全问题,OpenAI、微软、MIT 等 25 个机构联合提出了"人格凭证"(Personhood Credentials, PHC)技术。PHC 能够在不泄露个人信息的前提下,通过现实世界验证和加密技术,证明用户是真人而非 AI。该技术有望在保护用户隐私的同时,有效辨别真人与 AI,应对 AI 带来的欺诈和虚假信息传播问题。

🛶 跨界 AI

咳一咳就知道有没有病?谷歌开放 HeAR AI 模型 API,1 亿条咳嗽声训练

Google 研究人员开发了 Health Acoustic Representations(HeAR)模型,利用 AI 技术从声音中提取健康信息。HeAR 通过分析咳嗽等声音模式,助力早期疾病诊断。Google Research 团队使用 3 亿条音频数据训练模型,特别针对 1 亿条咳嗽声音。HeAR 在医学音频分析中表现优异,尤其在跨麦克风泛化能力上。该技术开放给研究人员,支持定制生物声学模型,即使在数据稀缺情况下也能高效运作。印度的 Salcit Technologies 正利用 HeAR 加强其 AI 模型,以提高结核病早期检测能力。

AI 又一突破!1 岁前“提前锁定”自闭症,准确率超 80%

卡罗林斯卡学院研究团队开发的 AI 模型,通过分析有限的医疗和背景信息,能在儿童 12 个月大时发现自闭症早期迹象,准确率高达 80.5%。该模型使用了 Simons Foundation Powering Autism Research for Knowledge (SPARK)数据库,选取 28 个早期可获得的特征,主要依赖家长报告。XGBoost 模型 AutMedAI 在测试中表现出色,AUROC 达 0.895。研究还评估了特征的贡献,如发展迟缓和挑食行为对预测 ASD 的重要性。

🎮 企业动态

20 余款机器人在北京玉渊潭公园亮相,都有哪些“表演”?

2024 年世界机器人大会前夕,北京玉渊潭公园作为分会场,展示了 21 家企业的 20 余款机器人产品,涉及清洁清扫、水面救援、绿化养护等多个场景。这些机器人能自动避让行人、收集水面垃圾、快速救援落水者等,提高了效率和安全性。市经济和信息化局计划将此模式推广至更多领域,打造北京的"机器人+"样板。

阿里通义千问启用新域名“tongyi.ai”,网页版聊天功能升级

阿里大语言模型“通义千问”宣布启用新域名“tongyi.ai”,并引入多项新特性。网页版聊天新增深度搜索功能,提供更专业和结构化的搜索结果,同时数字角标悬浮显示来源网页。App 端新增图片微动效支持多尺寸图片,并调整自定义唱演功能,支持 3:4 画幅并延长音频时长至 300 秒。此外,阿里云万网推出 AI 化域名产品服务,实现智能起名功能,用户可基于通义大模型一键生成创意域名。

📑 学术前沿

GPT-4 无师自通预测蛋白质结构!LLM 全面进军生物学,AlphaFold 被「偷家」?

GPT-4,一个大型语言模型,尽管仅在人类语言上训练,却在生物学领域显示出惊人的潜力。Nature 发表的研究表明,GPT-4 能够以高精度对氨基酸和蛋白质结构进行建模,甚至在集成 Wolfram 插件后,对 α-螺旋结构的建模准确度显著提升。GPT-4 在抗病毒药物与病毒蛋白相互作用分析中也展现出能力,正确识别药物配体并预测可能的结合位点。尽管存在局限性,GPT-4 的这些能力为生物信息学和药物发现提供了新的视角和工具。

北大张大庆教授:无线感知赋予具身智能“第六感官”,6G 时代手机隔空测心跳

北京大学张大庆教授提出无线感知技术,利用 WiFi、5G 等信号实现隔墙感知,精度可达毫米级。该技术成本低,隐私安全问题小,有望在医疗、康养、安防等领域广泛应用。随着 6G 技术发展,未来手机将能隔空监测人体呼吸和心跳。张教授团队还探索量子无线感知,通过量子原理提高感知精度,实现更精细的非接触感知。预计 6G 时代,无线感知技术将更加普及,成为日常生活的一部分。

多亏 Transformer,Mamba 更强了!仅用 1%计算量达新 SOTA

Mamba 架构通过 Albert Gu 团队的 MOHAWK 方法,实现了在 1%的计算量下达到新的最佳性能(SOTA)。该方法将 Transformer 模型的预训练知识迁移到 Mamba 等替代架构中,通过矩阵对齐、隐藏状态对齐和权重转移三个阶段的蒸馏过程,显著降低了计算成本。Phi-Mamba 模型仅使用 3B token 进行训练,便在长序列处理上超越了传统 Transformer 架构,展现了在资源有限情况下的高效性能。

“卡尔曼滤波”重磅回归,文生视频新增一个超强外挂!

卡尔曼启发特征传播(KEEP)框架在视频人脸超分辨率(VFSR)领域取得突破,利用卡尔曼滤波原理实现跨帧信息融合,提高面部细节恢复质量。KEEP 算法通过编码器、解码器、卡尔曼滤波网络和跨帧注意模块,增强时间一致性,有效处理视频帧间特征传播问题。实验结果表明,KEEP 在多个评估指标上超越现有技术,尤其在保持跨视频帧面部细节一致性方面表现出色。

爆火神经网络架构 KAN 更新 2.0!轻松应对经典物理学研究,作者:和 MLP 不能互相取代

神经网络架构 KAN 2.0 发布,专为经典物理学研究设计,允许研究者定制化模型,融入专业知识。新版本引入 MultKAN、kanpiler 和树转化器,提升解释性,简化科学问题与 AI 的结合。KAN2.0 已展示发现物理定律的能力,未来将拓展至更广泛科学领域。MIT 博士生刘子鸣为论文一作,团队计划将框架应用于更大规模问题,探索跨学科应用。

AI 设计自己,代码造物主已来!UBC 华人一作首提 ADAS,数学能力暴涨 25.9%

不列颠哥伦比亚大学的研究团队开发了智能体自动化设计(ADAS)系统,该系统通过元智能体搜索算法,自动设计并优化智能体,实现自我进化。在数学、阅读和推理等多个领域,新智能体展现出超越当前最佳设计的优越性能,尤其在数学领域准确率提升了 25.9%。研究还证明了这些智能体在跨领域转移时的泛化和可转移性,为自动设计越来越强大的智能体系统开辟了新方向,预示着通用人工智能(AGI)的进一步发展。

自动化所联合清华北大提出内生复杂性类脑网络,构建 AI 和神经科学的桥梁

中国科学院自动化研究所联合清华大学、北京大学提出基于内生复杂性的类脑神经元模型,旨在解决传统 AI 模型在计算资源和可解释性上的局限。研究团队通过 Hodgkin-Huxley(HH)模型与时变参数 Leaky Integrate and Fire(tv-LIF)神经元的等效性,设计出能模拟更大规模网络的简化模型,有效提升计算效率和任务处理能力。该研究不仅为 AI 模型优化提供了新思路,也为神经科学与人工智能的结合开辟了新路径。

后语

我是 战场小包 ,一个喜欢 AI 和前端的小编程。

如果喜欢小包,可以在 掘金 关注我,同样也可以关注我的小小公众号——小包学前端,公众号会持续地更新 AI 和前端的知识。

一路加油,冲向未来!!!

AGI 掘金成立于 2024 年7 月,是一家专注于 AGI 相关研究和应用的创新型 知识平台。我们的使命是推动 AGI 技术和 AI 应用的落地与发展,并将其应用于各个行业,为人类社会创造更大的价值。我们提供 AGI 技术最新讯息、应用解决方案、组织各种有趣的服务,致力于成为行业的领军者。AGI 掘金期待你的加入! 欢迎戳我加入 AGI 掘金飞书社群交流学习😊