2024 AI 大事件回顾
本文大部分由 Google AI 生成,图片为 MJ 生成,部分源于互联网,信息内容不保证准确
2024 年注定是人工智能领域波澜壮阔的一年。从年初引爆科技圈的 SORA,到马斯克旗下备受瞩目的赛博机器人,再到象征 AI 学术地位提升的诺贝尔物理学奖,每一次技术突破都牵动着全球的目光。本文将带您回顾 2024 年人工智能领域的重要里程碑事件。
一月:新技术的涌现
年初,AI 领域便展现出强劲的创新活力。
-
Mobile Aloha 亮相: 一款通过简单训练即可自主完成家务的机器人,预示着具身智能的进一步发展。
-
Luma AI 发布 Genie: 这项技术可以直接通过文本在线生成 3D 模型,极大地降低了 3D 内容创作的门槛。
-
GPT Store 上线。 OpenAI 推出的 GPT 应用商店,旨在让用户定制和分享自己的 GPT 模型,但其商业模式尚待进一步验证。
-
Magnific AI 爆火: 这个由小型团队开发的图片放大工具,凭借其出色的高清放大效果迅速走红,展现了 AI 在图像处理领域的强大潜力。
-
Apple Vision Pro 开启预售: 苹果公司宣布其混合现实头显 Apple Vision Pro 即将发售,这款设备被认为是 AI 技术与硬件结合的重要尝试。
二月:大模型竞争白热化
二月,各大科技巨头纷纷推出或开源自家的大模型,预示着大模型竞争进入白热化阶段。
-
阿里云开源“通义千问” 1.5: 涵盖 72B 和 110B 等多个参数规模的模型,加速了国内大模型的开源生态建设。
-
Google Bard 更名为 Gemini: 谷歌正式推出 Gemini 大模型,直接对标 OpenAI 的 GPT 系列,标志着两大 AI 巨头在大模型领域的正面交锋。
-
Sam Altman 寻求巨额算力投资: OpenAI CEO Sam Altman 宣布计划筹集 7 万亿美元以购买算力,凸显了训练和运行先进 AI 模型对算力的巨大需求。
-
Style Cask 开源: 声称超越 SDXL 等一系列模型的开源图像生成模型,为开源社区注入了新的活力。
-
Meta 发布 V-JEPA: 由 Yann LeCun 领衔开发的 V-JEPA 被认为是具有类似人类学习能力的基础架构,Meta 强调其并非生成式模型。
-
OpenAI 发布 SORA: 基于 DIT 架构的 SORA 一经发布便引爆全球,其强大的文本生成视频能力震撼了整个行业,引发了对视频内容创作未来的无限遐想。
-
LTX 宣布推出 LTX Studio: 一款可以通过文本描述生成电影分镜和镜头的工具,进一步降低了电影制作的门槛。
-
Figure 机器人接入 OpenAI 大模型: 人形机器人 Figure 接入 OpenAI 的大模型并获得投资,标志着 AI 技术在机器人领域的深入应用。
三月:SORA 效应与开源浪潮
三月,SORA 的影响力持续发酵,同时开源社区也迎来了新的发展。
-
布成科技宣布开发 OpenSORA: 旨在打造开源版本的 SORA,以推动视频生成技术的普及。
-
Anthropic 发布 Claude 3: 被认为是 GPT 最强劲的竞争对手之一,Claude 3 的发布进一步加剧了大型语言模型的竞争。
-
TripoSR 发布: 一款可以从单张图片快速生成 3D 模型的开源工具,但当时的效果仍有提升空间。
-
Devin 诞生: 号称首个 AI 程序员的 Devin 出现,引发了关于 AI 是否会取代程序员的讨论。
-
马斯克开源 Grok-1: 搭载 3140 亿参数的 Grok-1 成为当时最大的开源模型,推动了开源社区的发展。
-
Kimi AI 上线长文本处理能力: Kimi AI 实现了 200 万字无损上下文理解,下载量迅速突破 50 万,展现了 AI 在长文本处理方面的巨大潜力。
-
Suno V3 发布: 这款 AI 音乐创作工具迅速走红,让每个人都能轻松创作音乐。
-
Neuralink 脑机接口人体实验直播: 瘫痪患者通过脑机接口流畅玩游戏的视频在 YouTube 上引发轰动,标志着脑机接口技术在人体实验上的重大突破。
-
Stability AI 人事变动: Stability AI 的主创人员离职,CEO Emad Mostaque 辞职,预示着这家明星 AI 公司的发展可能面临挑战。
-
苹果发布 OpenELM 大模型: 包括 3B 和 7B 等多个版本,但在众多强大的模型面前显得有些平淡。
-
英伟达发布 Blackwell 架构: 以及 GB200 等一系列硬件,进一步巩固了其在 AI 芯片领域的领先地位,股价持续飙升。
四月:开源生态繁荣与多模态发展
四月,开源大模型生态持续繁荣,同时多模态 AI 技术也取得显著进展。
-
Google 发布 Gemini 1.5 Pro 和 Imagen 2.0: 进一步提升了 Google 在文本和图像生成方面的能力。
-
Adobe Premiere Pro 接入 AI 编辑器: 包括 SORA 和 Runway,实现了 AI 生成视频与专业剪辑软件的融合,极大地提升了视频制作效率。
-
Meta 发布 Llama 3: 成为全球范围内最受欢迎的开源大模型之一,其性能和易用性备受好评。同时,Meta 的智能眼镜也迎来销售高峰。
-
智谱 AI 开源 ChatGLM 千亿模型: ChatGLM 1.5 系列包含 110B 参数模型,成为首个千亿级中文开源模型,标志着国产开源力量的崛起。
-
深势科技发布 Vesuvius 大模型: 对标 OpenAI 的 SORA,旨在挑战视频生成领域的领先地位。
-
GitHub Copilot Workspace 发布: 成为程序员最喜爱的 AI 助手之一,提升了代码编写效率。
五月:OpenAI 春季更新与多模态竞争加剧
五月,OpenAI 再次发布重要更新,多模态 AI 技术的竞争也愈发激烈。
-
苹果发布 AI 芯片: 采用 3NM 制程,用于其各类硬件产品,进一步提升了苹果设备的 AI 能力。
-
字节跳动将 Dreamina 更名为“即梦”: 国内 AI 视频领域的竞争持续升温。
-
张吕敏发布 iC-Light: 一款可以通过简单操作更换图片光源的工具,展示了 AI 在图像编辑方面的便捷性。
-
宇树科技发布 Unitree Go1 机器人: 这款售价 10 万元的机器人引发热议,部分观点认为其技术已超越波士顿动力。
-
OpenAI 春季发布会: 发布 GPT-4o,并展示了高级语音模式和视频交互功能,但这些功能的实际体验有待进一步验证。
-
Google 发布 Project Astra 和 Veo 视频模型: 与 OpenAI 发布的功能类似,但在宣传上稍逊一筹。
-
Ilya Sutskever 离开 OpenAI: 这位 OpenAI 的联合创始人和首席科学家离职,引发了关于 OpenAI 未来发展方向的讨论。
六月:国产大模型涌现与新公司成立
六月,国内各大公司纷纷发布或开源自家的大模型,同时 AI 领域也诞生了备受瞩目的新公司。
-
阿里云发布“通义千问” 2.0 并开源: 进一步壮大了国产开源大模型阵营。
-
快手发布可灵达模型: 国内视频生成领域呈现出阿里、快手、字节跳动三足鼎立的局面。
-
Anthropic 发布 Claude 3.5 Sonnet: 在各项测试中表现出色,成为科研人员和程序员的首选大模型之一。
-
Ilya Sutskever 成立新公司 SSI: 专注于打造安全智能,公司估值迅速超过 5 亿美元。
-
腾讯元宝更新: 支持 1000 万字的文本处理能力,展现了其在长文本处理方面的技术实力。
-
华为 HDC 2024 开发者大会: 发布了盘古大模型的多项更新。
-
AI 研究室发布 Material Control: 可以通过颜色控制生成特定行业的材料,展示了 AI 在专业领域的应用潜力。
七月:视频生成与无人驾驶的进步
七月,视频生成技术持续发展,无人驾驶领域也取得了重要进展。
-
Runway 发布 Gen-3 Alpha: 进一步提升了其视频生成能力。
-
快手开源 Live Portrait: 可以将一个视频的表情迁移到另一张图片上,效果出色。
-
萝卜快跑无人驾驶出租车上线: 在国内多个城市推出,引发了关于无人驾驶安全性和就业的争议。
-
Meta 发布 Llama 3.14 100.5B 大模型: 成为又一强大的开源大模型。
-
Graph RAG 走红: 可以根据文本库创建知识图谱,推动了 AI 本地知识库的发展。
-
阿里开源 Cos Voice 和 Sense Voice: 可以生成带有情感的语音。
八月:新力量入局与应用探索
八月,AI 视频领域迎来新的参与者,同时各种 AI 应用也在不断涌现。
-
Black Forest Labs 发布 Flux 大模型: 由今年 3 月份从 Stability AI 离职的核心成员创立。
-
GRC-2 Beta 发布: 具体功能未详细说明。
-
Jammable Live 上线: 对标 OpenAI 的高级语音模式。
-
LTX Studio 开始使用: 尽管曾以“一键生成电影”为噱头,但用户评价褒贬不一。
-
阿里云发布“通义千问” Two-VL 模型并开源: 包含 2B 和 7B 两个版本,是国产大模型早期在视觉多模态方面的尝试。
-
海螺 AI 加入 AI 视频战争: 其视频生成效果在海外获得认可。
九月:苹果发布会与新模型的涌现
九月,苹果秋季发布会相对平淡,但 AI 领域仍有不少新模型发布。
-
苹果秋季发布会: 尽管提出了 “Apple Intelligence” 的概念,但缺乏令人眼前一亮的 AI 技术发布。
-
GPT-4o One 发布: 强调其“思维链”能力,可以先思考再回答问题。
-
华人科学家李飞飞成立 World.AI Labs: 尽管尚未有具体产品,但估值已达 10 亿美元。
-
Google 发布 GameFace: 可以实时生成下一帧游戏画面,预示着游戏开发的新可能。
-
阿里云开源“通义千问” 2.5 系列: 包含多个模型版本,进一步巩固了其在国内开源领域的地位。
-
华为发布 Cloud Matrix 云计算基础设施: 为 AI 发展提供算力支持。
-
GPT-4 高级语音模式上线: 提升了语音交互体验。
-
Tripo AI 发布 Tripo 2.0: AI 图生 3D 效果显著提升。
-
Meta Connect 大会发布 Orion AI 眼镜: 预计 2027 年发售。
-
AI 代码编辑器 Cursor 爆火: 尽管有人认为其只是大语言模型加上复制粘贴功能,但其实用性依然获得认可。
十月:AI 赋能传统领域与算力之争
十月,AI 技术开始在传统领域展现出强大的应用潜力,同时算力成为关注焦点。
-
Pika 发布 1.5 模型: 其强大的特效功能在网络上爆红。
-
诺贝尔物理学奖颁发给辛顿和霍普菲尔德: 两位 AI 奠基人获奖引发了关于 AI 学术地位的讨论。
-
特斯拉 AI Day 发布会: 展示了赛博出租车 Robotaxi 和 Optimus 人形机器人等新进展。
-
Adobe MAX 大会发布 Project Stardust: 可以通过一张图生成 360 度旋转的连续矢量图。
-
智谱 AI 发布 AutoPrompt: 可以跨软件帮助用户完成任务。
-
腾讯混元开源 AI 生成 3D 模型能力: 进一步拓展了其多模态能力。
-
美国大选: 尽管与 AI 的直接联系较弱,但被认为可能影响美国 AI 产业的发展方向。
-
云深处科技发布机器人“山猫”: 因其在崎岖路面上的强大行动能力而受到关注。
-
苹果发布 M3 系列芯片的 Mac mini: 强调其强大的性能。
十一月:空间智能与视频模型突破
十一月,空间智能的概念开始兴起,视频模型也取得了新的突破。
-
李飞飞发布空间智能初步成果: 生成的内容可以满足物理规律并支持交互。
-
腾讯开源混元视频大模型: 被认为是当时最强的开源视频模型。
十二月:OpenAI 发布会与开源模型的竞争
十二月,OpenAI 举行了多场发布会,弥补了之前的一些技术空白,同时开源模型的竞争也更加激烈。
-
OpenAI 发布会: 填补了视频交互模式和 SORA 等方面的空白,并预告明年将发布更强大的模型。
-
微软发布 TRIVIUM: 被认为是 2024 年最强的开源图生 3D 模型。
-
Google 发布 Gemini 2.0 和 RT-2 具身智能机器人: 进一步提升了其 AI 能力。
-
宇树科技发布 B2-W 机器狗: 其测试画面显示出更强的运动能力和潜在的对抗性。
-
SORA 正式开放测试: 经历了近十个月的期待,SORA 终于开放测试,但部分用户发现其生成的视频仍然存在不符合物理规律的情况。
-
DeepSeek 发布 DeepSeek-V3 大模型并完全开源: 据称训练成本极低,引发了关于大模型训练效率的讨论。
各领域的突破
1. AI 视频领域:OpenAI 发布 SORA
- SORA 的发布无疑是 2024 年 AI 视频领域最令人激动的事件。 它首次向公众展示了 AI 从纯文本描述生成高质量、连贯且富有创意的视频内容的能力。 这种能力的突破性在于其真实感、对物理世界的初步理解以及潜在的巨大应用价值(尽管也引发了一些担忧)。虽然其他视频生成模型也在进步,但 SORA 的出现引发了全行业对视频内容创作未来可能性的重新思考,具有里程碑式的意义。
2. AI 文字领域:Google 发布 Gemini 1.5 Pro 及其超长上下文窗口
- 在 AI 文字领域,Gemini 1.5 Pro 最令人印象深刻的是其大幅提升的上下文处理能力。 能够处理高达百万 token 的上下文,意味着 AI 可以理解和生成更长、更复杂、更具连贯性的文本。 这对于处理大量文档、进行深度分析和进行更复杂的对话交互至关重要。 这种技术上的突破,直接解决了之前大模型在处理长文本时的瓶颈,为 AI 在信息处理和知识整合方面开辟了新的可能性。
3.AI 图像领域:Luma AI 发布 Genie
-
虽然 2024 年在 AI 图像生成领域有很多重要的进展,例如更高质量的文本到图像模型(Google Imagen 2.0 等)、更强大的开源模型(Style Cask)、以及在特定任务上表现出色的工具(Magnific AI),Genie 的出现,标志着 AI 在图像生成领域从 2D 向 3D 的重要跃迁,它不仅仅是生成了更逼真的图像,而是创造了全新的数字资产类型
-
突破了 2D 到 3D 的壁垒: Genie 的核心创新在于它直接连接了文本描述和 3D 模型的生成,绕过了传统的 2D 图像生成阶段。 这意味着用户可以直接用文字创造出可以在 3D 环境中使用的物体,极大地简化了 3D 内容创作的流程。
-
降低了 3D 内容创作的门槛: 传统的 3D 建模需要专业技能和复杂的软件。 Genie 通过文本输入的方式,让没有 3D 建模经验的用户也能轻松创建 3D 内容, democratizing 了 3D 内容的生产。
-
为新的应用场景打开大门: 这项技术为游戏开发、虚拟现实、增强现实、产品设计等领域带来了巨大的潜力。 想象一下,设计师可以直接用文字描述一个产品原型,就能快速生成 3D 模型进行预览和修改。
-
4. AI 语音领域:OpenAI 发布 GPT-4o 及其高级语音模式
- GPT-4o 的高级语音模式代表了 AI 语音交互的一次重要飞跃。 其亮点在于更自然、更实时的对话能力,以及对语音语调、情绪的理解。 这使得人机交互变得更加流畅和人性化,预示着未来 AI 可以更像一个真正的对话伙伴,而不仅仅是一个执行命令的工具。 虽然其他公司也有语音方面的进展,但 GPT-4o 的演示效果给人留下了深刻的印象,仿佛 AI 拥有了更强的感知和表达能力。
5. 大模型领域:Meta 开源 Llama 3
- 在众多大模型的发布中,Meta 开源 Llama 3 最具开创性意义。 Llama 3 不仅性能出色,而且其开源策略进一步降低了 AI 技术的门槛,加速了 AI 技术的普及和创新。 开源使得研究人员、开发者和企业能够更容易地访问、使用和改进先进的大模型,这对于推动整个 AI 生态系统的发展至关重要。 虽然其他闭源大模型也很强大,但 Llama 3 的开源精神和对社区的贡献使其脱颖而出。
6. AI 应用领域:Cognition AI 发布 Devin (首个 AI 程序员)
- Devin 的发布是 AI 应用领域最具开创性的事件之一。 一个能够独立完成编程任务,包括学习新技术、构建和部署应用程序、修复 bug 等的 AI 程序员,其概念本身就极具颠覆性。 虽然 Devin 的实际能力可能还在发展中,但它的出现预示着 AI 在自动化复杂、创造性工作方面取得了重大进展,引发了关于 AI 如何重塑软件开发行业的深刻思考。 相比其他应用,Devin 直接挑战了人类的核心技能之一,因此更具开创性意义。
总结展望
进步
-
视频生成能力取得突破性进展。Sora 的出现标志着文本到视频的生成技术实现了质的飞跃,能够创造出更具真实感和电影感的长片段视频。随后,Lumiere 等模型的发布进一步印证了这一趋势。
-
多模态交互能力显著增强。以 GPT-4o 为代表的模型,更高级的语音模式和视频交互,能够更流畅地理解和处理多种模态的信息,实现更为自然的交互体验。
-
开源大模型呈现蓬勃发展态势。2024 年,涌现出大量开源的千亿级参数大模型,如 Llama 3、通义千问 1.5 (110B)、DeepSeek V3 等,显著降低了 AI 研究和应用的门槛,加速了技术的普及与创新。
-
AI 在特定领域的应用持续深化。在 2024 年,AI 在辅助编程(Devin, GitHub Copilot Workspace)、3D 模型生成(Genie)、音乐创作(SUOV3)、视频编辑(Adobe Premiere Pro 集成)等领域的应用更加成熟和实用化,体现出更强的落地能力。
-
脑机接口技术取得里程碑式进展。Neuralink 在人体实验中取得成功,实现了瘫痪人士通过脑机接口流畅操作游戏,标志着该技术在应用层面迈出了重要一步。
-
AI 芯片及硬件基础设施持续进步。苹果发布了采用 3nm 制程的 AI 芯片,英伟达推出了 Blackwell GB200 等更强大的 GPU,为 AI 模型的训练和推理提供了更强的算力支撑。
不足
-
尽管视频生成能力大幅提升,但以 Sora 为代表的模型在生成内容时,仍存在不符合物理规律的现象,表明 AI 对物理世界的理解尚有提升空间。
-
通用人工智能(AGI)的实现依然面临挑战。尽管 2024 年取得了显著进展,但当前的 AI 仍属于专注于特定任务的“狭义 AI”,距离具备通用智能的 AGI 仍有较大差距。
-
模型的完全可控性和避免偏见依然是亟待解决的问题。如何确保 AI 模型的行为完全符合预期,并有效规避训练数据中存在的偏见,仍是 AI 发展中需要持续关注和解决的关键问题。
-
部分先进技术的落地和商业化仍需时间。例如,Meta 发布的 AI 眼镜 Orion 预计将于 2027 年发售,表明部分前沿 AI 技术的成熟和普及尚需时日。
-
对基础算法突破的期待依然存在。尽管 2024 年在应用层面取得了显著进步,但行业内对 Transformer 和 Diffusion 等突破性算法之后,新的底层算法创新的呼声依然很高。