计算机视觉

计算机视觉

计算机视觉

计算机视觉相关

等 3 人订阅共10篇文章创建于2023-03-21

Sora文生视频模型深度剖析：全网独家指南，洞悉98%关键信息，纯干货

Sora文生视频模型深度剖析：全网独家指南，洞悉98%关键信息，纯干货 Sora是一个以视频生成为核心的多能力模型，具备以下能力：文/图生成视频视频生成视频 1分钟超长高质量视频生成视频裂变多视

2年前
898
2
1

Sora文生视频模型深度剖析：全网独家指南，洞悉98%关键信息，纯干货

探索AI视频生成新纪元：文生视频Sora VS RunwayML、Pika及StableVideo——谁将引领未来

探索AI视频生成新纪元：文生视频Sora VS RunwayML、Pika及StableVideo——谁将引领未来由于在AI生成视频的时长上成功突破到一分钟，再加上演示视频的高度逼真和高质量，Sor

2年前
520
点赞
评论

探索AI视频生成新纪元：文生视频Sora VS RunwayML、Pika及StableVideo——谁将引领未来

激发创新，助力研究：CogVLM，强大且开源的视觉语言模型亮相

激发创新，助力研究：CogVLM，强大且开源的视觉语言模型亮相 CogVLM 是一个强大的开源视觉语言模型（VLM）。CogVLM-17B 拥有 100 亿视觉参数和 70 亿语言参数。 CogVLM

2年前
1.2k
点赞
评论

激发创新，助力研究：CogVLM，强大且开源的视觉语言模型亮相

多模态对比语言图像预训练CLIP：打破语言与视觉的界限

多模态对比语言图像预训练CLIP：打破语言与视觉的界限一种基于多模态（图像、文本）对比训练的神经网络。它可以在给定图像的情况下，使用自然语言来预测最相关的文本片段，而无需为特定任务进行优化。CLIP

2年前
1.2k
点赞
评论

多模态对比语言图像预训练CLIP：打破语言与视觉的界限

大规模语言LLaVA：多模态GPT-4智能助手，融合语言与视觉，满足用户复杂需求

大规模语言LLaVA：多模态GPT-4智能助手，融合语言与视觉，满足用户复杂需求一个面向多模式GPT-4级别能力构建的助手。它结合了自然语言处理和计算机视觉，为用户提供了强大的多模式交互和理解。LL

2年前
1.4k
5
评论

大规模语言LLaVA：多模态GPT-4智能助手，融合语言与视觉，满足用户复杂需求

数字时代的自我呈现：探索个人形象打造的创新工具——FaceChain深度学习模型工具

数字时代的自我呈现：探索个人形象打造的创新工具——FaceChain深度学习模型工具 1.介绍 FaceChain是一个可以用来打造个人数字形象的深度学习模型工具。用户仅需要提供最低一张照片即可获得独

2年前
1.0k
2
评论

数字时代的自我呈现：探索个人形象打造的创新工具——FaceChain深度学习模型工具

FaceFusion：探索无限创意，创造独一无二的面孔融合艺术！

FaceFusion：探索无限创意，创造独一无二的面孔融合艺术！它使用先进的图像处理技术，允许用户将不同的面部特征融合在一起，创造有趣和令人印象深刻的效果。这个项目的潜在应用包括娱乐、虚拟化妆和艺术

2年前
545
点赞
评论

虚拟桌宠模拟器：VPet-Simulator，一个开源的桌宠软件, 可以内置到任何WPF应用程序

虚拟桌宠模拟器：VPet-Simulator，一个开源的桌宠软件, 可以内置到任何WPF应用程序虚拟桌宠模拟器一个开源的桌宠软件, 可以内置到任何WPF应用程序获取虚拟桌宠模拟器 OnSteam

2年前
4.9k
31
9

虚拟桌宠模拟器：VPet-Simulator，一个开源的桌宠软件, 可以内置到任何WPF应用程序

深度学习应用篇-计算机视觉-视频分类[8]：时间偏移模块（TSM）、TimeSformer无卷积视频分类方法、注意力机制

深度学习应用篇-计算机视觉-视频分类[8]：时间偏移模块（TSM）、TimeSformer无卷积视频分类方法、注意力机制 1.时间偏移模块（TSM）视频流的爆炸性增长为以高精度和低成本执行视频理解任

2年前
445
点赞
评论

深度学习应用篇-计算机视觉-视频分类[8]：时间偏移模块（TSM）、TimeSformer无卷积视频分类方法、注意力机制

人工智能：基于PaddleOCR的多视角集装箱箱号检测识别，实现检测识别模型串联推理

本文正在参加人工智能创作者扶持计划 ” 基于PaddleOCR的多视角集装箱箱号检测识别一、项目介绍集装箱号是指装运出口货物集装箱的箱号，填写托运单时必填此项。标准箱号构成基本概念：采用ISO6

3年前
499
1
评论