Sora与海螺AI的基本介绍 Sora Sora是OpenAI推出的一款视频生成模型。它采用Diffusion transformer模型,具有一些显著的特点。例如,Sora能够将AI生成视频的时长提升到长达1分钟,这在当时是相对于其他如Runway、Pika等AI视频模型(仅能生成10多秒)的一大优势。Sora还展现出“世界模型”特征,能让机器像人类一样,对世界产生全面而准确的认知,从而大幅提升AI生成视频的逼真度。它可以根据用户输入的文本指令生成视频,并且在视频的画面精细度、流畅度方面超越了以往的文生视频模型,还能够模拟对世界状态产生简单影响的行为,如模拟人吃汉堡后会留下咬痕、火车车窗上会产生逼真的倒影等,也可在单个视频中设计出多个镜头。
海螺AI 海螺AI是MiniMax公司推出的一款AI模型,在视频生成方面表现出色。海螺AI诞生于2024年4月,MiniMax推出了万亿参数的MoE模型abab - 6.5,并在其基础上开发了生产力工具海螺AI,具备多模态交互能力,能够提供语音通话、文本交互、图像识别等功能。2024年8月31日,MiniMax发布了其首款AI高清视频生成模型abab - video - 1,其支持英语,最高支持原生分辨率1280*720的25帧视频,最大时长为6秒(未来或将延长至10秒)。海螺AI最近刚刚发布了全新的I2V - 01 - Live图生视频模型,这是短短3个月内的第三次迭代,它可以通过一张图 + 一句话就能轻松将2D插画转化为动态视频,呈现出动画电影级效果。海螺AI在海外市场取得了很大的成功,在短短几天内,hailuohailuoai的搜索量激增,海外社交媒体平台上充斥着海螺AI生成的视频片段,从奇幻场景到超逼真的人类动作应有尽有。
Sora与海螺AI的特点对比
- 视频生成的策略
- Sora:Sora提前一年进行“预售”策略。这种策略在发布之前就引起了广泛的关注和期待,在正式推出时已经积累了一定的人气和话题性。
- 海螺AI:海螺AI的打法是在用户使用中,边吸收、边迭代。例如海螺AI自2024年8月发布视频生成模型以来,短短3个月就进行了三次迭代,最近发布的I2V - 01 - Live图生视频模型卷到了风格化视频生成赛道。这种模式能够根据用户的实际反馈快速改进模型,以“中国速度”实现了模型精度、用户体验的双重提升。
- 对提示词的理解与执行
- Sora:Sora在理解提示词方面有一定的能力,但在一些复杂的提示词场景下可能会出现问题。例如在一些测试中,当提示词包含多个元素如动态、色彩、环境等多方面时,Sora生成的视频会出现小bug,像遗漏关键词“火车穿梭”,天空色彩呈现不足等情况。
- 海螺AI:海螺AI具备一项独特的AI优化提示词功能,这一功能能够协助用户一键精确表达意图,这不仅极大提升了大模型对提示词的理解能力,同时也对不擅长构建提示词的新手用户十分友好。在与Sora的对比测试中,海螺AI对prompt的理解比Sora要更到位一些,例如在“两棵树在风中相对而立,它们的叶子向彼此缠绕”这个提示词下,海螺AI对风吹动树叶的动态感呈现更明显,在“米开朗基罗在工作室中雕刻大卫雕像”的提示词下,海螺AI作品中米开朗基罗的动作自然流畅,画面更丰富。
- 视频生成的效果
- Sora:
- 优势:在一些视频生成中,Sora能够呈现出较好的光影和细节,例如在“米开朗基罗在工作室中雕刻大卫雕像”这个场景下,Sora呈现的视频中光影和粉尘细节都非常到位,还有一位拿着工具清扫的工作人员。在生成的视频能够保持较好的连贯性和动作的流畅性,并且在视频的艺术感方面有不错的表现。
- 不足:在某些场景下会出现元素缺失或者动作不自然的情况,如在上述米开朗基罗的场景中,大卫的雕像这一关键要素没有出现,米开朗基罗的手部动作不太自然。在一些复杂提示词下生成的视频存在一些明显的缺陷。
- 海螺AI:
- 优势:在画面质量方面表现优秀,在很多测试中,海螺AI生成的视频画面在细节上更丰富,例如在“米开朗基罗在工作室中雕刻大卫雕像”场景下,除了人物动作自然外,还展示了不同雕塑作品,以及打开的窗户洒进的阳光照在桌面和雕塑上的细节都非常合理、真实。在对提示词的呈现上更准确,在光影方面的表现有时更胜一筹,如在“列车穿梭在东京郊区时,车窗上的倒影”这个场景下,海螺AI在车窗上倒影这个关键要素的细节方面明显比Sora更好。
- 不足:虽然整体表现优秀,但也不是完美无缺,例如在“列车穿梭在东京郊区时,车窗上的倒影”场景下生成的视频中,火车行驶中飘起的雾气有点过大,而且飘向空中后没有逐渐变淡。
- 商业化发展
- Sora:目前关于Sora的商业化还没有太多明确的信息,但OpenAI在AI领域具有强大的影响力和技术实力,一旦商业化可能会迅速占领较大的市场份额。不过由于目前Sora暂未公开使用权限,仅对一部分视觉艺术家、设计师和电影制作人开放,这在一定程度上限制了其商业化的进程和范围。
- 海螺AI:海螺AI已经在商业化方面取得了一定的成绩。它在海外市场爆火,MiniMax通过海螺AI与掌阅科技、值得买等企业达成合作关系,海螺AI网页版9月访问量在两个增速榜(全球增速榜TOP1、国内增速榜TOP1)排名第一,增速高达867.41%,并且MiniMax有希望通过海螺AI在比较短的时间内实现自负盈亏及盈利,其背后的MiniMax公司已经获得阿里、腾讯、红杉中国、高瓴创投、IDG资本等机构投资,在商业化方面具有一定的资源和优势。
海螺AI能否掀翻Sora成为视频王者 从目前的情况来看,海螺AI有潜力在视频生成领域与Sora一争高下,但要掀翻Sora成为绝对的“视频王者”还面临着一些挑战和不确定性。
海螺AI的优势
- 快速迭代优势:海螺AI的迭代速度非常快,短短3个月就进行了三次迭代,这种快速迭代的能力使得它能够快速适应市场需求和用户反馈,不断提升自身的性能。例如其最新的I2V - 01 - Live图生视频模型能够实现将2D插画轻松转化为动画电影级效果的动态视频,这是它在技术上不断进化的成果。如果这种迭代速度能够持续保持,海螺AI将在技术上不断缩小与Sora的差距甚至超越。
- 对国内市场的理解:海螺AI是国产模型,可能对国内用户的需求和文化背景有更深入的理解。在中国这个庞大的市场中,有着独特的文化元素和用户偏好,如果海螺AI能够充分利用这一优势,开发出更符合国内用户需求的视频生成功能,将有助于它在国内市场占据更大的份额,进而提升其在全球市场的竞争力。
- 已经取得的成绩:海螺AI已经在海外市场取得了巨大的成功,在海外社交媒体上广受关注,用户增长迅速,并且在一些测试中,海螺AI生成的视频质量在某些方面优于Sora。这表明海螺AI已经具备了一定的实力与Sora竞争,而且其背后的MiniMax公司在商业化方面有一定的布局和成绩,这为海螺AI的持续发展提供了支持。
面临的挑战
- OpenAI的品牌影响力:OpenAI在全球AI领域具有极高的知名度和品牌影响力,Sora作为OpenAI推出的产品,在用户信任度和市场认可度方面可能具有天然的优势。许多用户可能会因为OpenAI的品牌而更倾向于选择Sora,海螺AI需要在品牌建设和用户信任度提升方面做出更多的努力。
- 技术研发的深度:虽然海螺AI目前表现优秀,但Sora背后的OpenAI在AI技术研发方面具有深厚的底蕴和强大的技术团队。Sora展现出的“世界模型”特征等先进技术能力表明OpenAI在技术研发上处于领先地位,海螺AI要在技术上完全超越Sora,需要在技术研发的深度和广度上持续投入和创新。
- 全球市场的竞争格局:全球AI视频生成市场竞争非常激烈,除了Sora和海螺AI之外,还有其他众多的竞争对手。在这种复杂的竞争格局下,海螺AI要想脱颖而出成为绝对的“视频王者”,不仅要与Sora竞争,还要应对其他竞争对手的挑战,需要在市场策略、技术创新、产品优化等多方面持续发力。
国产模型在视频领域的优势
- 对本土文化和市场的理解
- 文化元素的融入:国产模型能够更好地理解和融入本土文化元素。例如在中国文化中有许多独特的元素如熊猫、龙等,国产视频大模型如Vidu在生成的视频中能够出现这些特有的中国元素,充分展现了其对中国文化的深入理解和运用,这使得国产模型在文化传承、旅游推广等领域具有独特优势。对于国内市场来说,用户对于包含本土文化元素的视频内容可能会有更高的接受度和喜爱度,国产模型可以利用这一优势开发出具有本土文化特色的视频生成功能,满足国内用户的需求。
- 适应国内市场需求:国产模型可以根据国内市场的需求特点进行定制化开发。国内用户在视频使用场景、内容偏好等方面可能与国外用户存在差异,国产模型可以深入研究国内市场需求,开发出更符合国内用户习惯的视频生成工具,例如在视频风格、内容类型、交互方式等方面进行优化,从而提高在国内市场的竞争力。
- 数据资源优势
- 特定领域数据积累:在一些垂直领域,国产模型可能具有特定领域的数据积累优势。例如一些国产的音视频大模型企业,在数字创意软件领域已经有多年的发展历史,在全球拥有大量的用户,这些企业在长期的运营过程中积累了海量的与音视频相关的数据,包括文本、图像、音频、视频等多种形式,涵盖视频创作的各种场景和主题。这些特定领域的数据可以用于训练模型,提高模型在相关领域视频生成的准确性和质量。
- 数据的安全性和合规性:在国内,对于数据的安全性和合规性有严格的要求和监管。国产模型在数据的采集、存储和使用过程中能够更好地遵守国内的法律法规,确保数据的安全和合规。这对于一些对数据安全要求较高的用户和企业来说是一个重要的考虑因素,国产模型可以凭借这一优势吸引更多注重数据安全的用户。
- 政策支持
- 国家战略层面的推动:国家在人工智能领域有一系列的政策支持,鼓励人工智能技术的研发和应用。对于国产视频大模型的发展,国家政策可以提供资金、技术、人才等多方面的支持。例如国家可能会通过科研项目资助、税收优惠等政策鼓励企业进行视频大模型的研发,这有助于国产模型在技术研发、产品优化等方面不断提升。
- 产业发展的引导:政府可以通过产业政策引导国产视频大模型的产业发展方向。例如鼓励国产模型在文化创意、影视制作、教育等重点领域的应用,促进国产模型与相关产业的融合发展,形成产业生态。这不仅有利于国产模型的发展,也有助于推动整个视频产业的升级和创新。
影响Sora和海螺AI在视频领域表现的因素
- 技术因素 模型架构
- Sora:Sora采用Diffusion transformer模型架构,这种架构在视频生成方面具有一定的优势,例如能够生成长达1分钟的视频,并且可以在单个视频中实现多个镜头等功能。这种架构可能使得Sora在视频的连贯性、动作的自然性等方面表现较好。
- 海螺AI:海螺AI基于DIT架构开发的abab - video - 1模型在处理高动态、变化多的视频信息时表现尤为出色,同时保持高效的压缩率,支持多种视频风格,无论是3D电影大片场景、2D动画,还是中式风格、科幻风格或美漫风格,均能轻松驾驭。不同的架构决定了模型在处理视频信息时的不同方式和能力,影响着最终的视频生成效果。
预训练数据
- Sora:OpenAI可能拥有大量的预训练数据,这些数据来源广泛,包括但不限于互联网上的海量文本、图像、视频等数据。丰富的预训练数据有助于Sora更好地学习世界知识,从而在视频生成中表现出更好的对世界的模拟能力,例如能够模拟人吃汉堡后的咬痕等现实世界中的现象。
- 海螺AI:海螺AI背后的MiniMax公司也有自己的数据资源,例如可能会利用合作伙伴掌阅科技提供的AI语料等数据进行模型的预训练。预训练数据的质量和多样性会影响模型对各种场景、元素的理解和生成能力,如果预训练数据能够涵盖更多的视频类型、场景和元素,模型在生成视频时就能够更准确地呈现出各种需求的内容。
算法优化
- Sora:OpenAI的研发团队可能会不断对Sora的算法进行优化,以提高视频生成的质量和效率。例如在对视频的渲染、合成等算法上进行改进,以实现更好的画面精细度和流畅度。
- 海螺AI:海螺AI通过在用户使用中不断迭代的方式进行算法优化,例如优化对提示词的理解算法、视频生成过程中的图像转换算法等。算法的优化程度直接决定了模型在视频生成中的性能表现,如生成视频的速度、质量以及对用户需求的满足程度。
- 用户因素 用户需求的多样性
- 不同用户对于视频生成有不同的需求。有些用户可能更注重视频的艺术感和视觉效果,希望生成具有电影质感的视频;有些用户可能更关注视频内容的准确性,例如在生成教育类、科普类视频时要求内容准确无误;还有些用户可能需要生成特定风格(如卡通风格、写实风格)的视频。Sora和海螺AI需要满足这些多样化的用户需求才能在市场上获得更多的认可。如果模型能够针对不同用户需求提供定制化的功能或者生成符合用户期望的视频,就会在市场竞争中占据优势。 用户反馈的利用
- Sora:由于目前Sora的使用权限尚未完全开放,它在获取广泛用户反馈方面可能存在一定的限制。不过一旦Sora面向更多用户开放,如何有效收集和利用用户反馈将是影响其进一步发展的重要因素。
- 海螺AI:海螺AI的迭代模式非常注重用户反馈,它在用户使用过程中不断吸收用户的意见和建议,进而对模型进行改进。例如海螺AI通过快速迭代来满足用户对于视频质量、风格、功能等方面的新需求,如果能够持续有效地利用用户反馈,海螺AI将能够不断提升自己的性能和用户满意度。
- 市场因素 市场竞争压力
- 全球AI视频生成市场竞争激烈,除了Sora和海螺AI之外,还有其他众多的竞争对手,如Runway、Pika等。这些竞争对手都在不断提升自己的技术水平和产品功能,争夺市场份额。Sora和海螺AI需要在这种激烈的竞争环境中不断创新和优化,以保持自己的竞争力。例如,它们需要不断提升视频生成的质量、增加新的功能(如图生视频、风格化视频生成等)、优化用户体验(如降低使用门槛、提高生成速度等)来吸引更多的用户。 商业化模式
- Sora:目前Sora的商业化模式还不明确,它需要探索一种可行的商业化路径,例如如何定价、如何与不同的行业(如影视制作、广告营销、自媒体等)进行合作等。如果Sora能够找到一种适合的商业化模式,将有助于其在市场上的长期发展。
- 海螺AI:海螺AI已经在商业化方面取得了一些成绩,它通过与其他企业合作(如与掌阅科技、值得买的合作)、吸引投资(MiniMax获得众多机构投资)等方式来推动自身的商业化发展。然而,它仍然需要不断探索新的商业化模式,例如如何进一步拓展海外市场、如何提高用户付费率等,以实现可持续的盈利和发展。