首页
首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
每日 AI 项目与应用实例
蚝油菜花
创建于2024-11-02
订阅专栏
分享最新 AI 资讯,收集 AI 模型、工具、框架等开源项目。
等 94 人订阅
共822篇文章
创建于2024-11-02
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
SmolDocling:256M多模态小模型秒转文档!开源OCR效率提升10倍
SmolDocling 是一款轻量级的多模态文档处理模型,能够将图像文档高效转换为结构化文本,支持文本、公式、图表等多种元素识别,适用于学术论文、技术报告等多类型文档。
Stable Virtual Camera:2D秒变3D电影!Stability AI黑科技解锁无限运镜,自定义轨迹一键生成
Stable Virtual Camera 是 Stability AI 推出的 AI 模型,能够将 2D 图像转换为具有真实深度和透视感的 3D 视频,支持自定义相机轨迹和多种动态路径,生成高质量且
UniAct:清华团队突破!跨平台机器人通用模型,仅需50条数据就能快速适配新环境
UniAct 是由清华、商汤、北大、上海AI Lab联合推出的具身基础模型框架,旨在解决不同机器人之间的行为异构性问题,通过学习通用行为实现跨平台控制。
Manus再遭复刻!开源多智能体协作工具,实时查看每个AI员工的"脑回路"
LangManus 是一个基于分层多智能体系统的 AI 自动化框架,支持多种语言模型和工具集成,能够高效完成复杂任务,适用于人力资源、房产决策、旅行规划等多个场景。
Instella:AMD开源30亿参数语言模型!训练效率碾压同级选手
Instella是AMD推出的30亿参数开源语言模型,基于自回归Transformer架构,支持多轮对话、指令跟随和自然语言理解,适用于智能客服、内容创作和教育辅导等多个领域。
GR00T N1:全球首个开源人形机器人基座模型!双系统架构解锁通用操作
GR00T N1 是英伟达推出的全球首个开源人形机器人基础模型,基于多模态输入和双系统架构,能够执行复杂操作任务,适用于物流、制造、零售等多个领域。
OLMo 2 32B:开源界新王!32B参数碾压GPT-4,1/3算力屠榜多任务
OLMo 2 32B 是 Allen Institute for AI 推出的最新开源语言模型,拥有 320 亿参数,性能超越 GPT-3.5-Turbo 和 GPT-4o-mini,支持多任务处理,
ReCamMaster:视频运镜AI革命!单镜头秒变多机位,AI重渲染颠覆创作
ReCamMaster 是由浙江大学与快手科技联合推出的视频重渲染框架,能够根据用户指定的相机轨迹重新生成视频内容,广泛应用于视频创作、后期制作、教育等领域,提升创作自由度和质量。
I2V3D:微软+港城大黑科技!单图秒变3D动态视频,相机轨迹自由操控
I2V3D 是由香港城市大学和微软联合开发的图像到视频生成框架,支持将静态图像转换为动态视频,基于3D几何引导实现精确的动画控制,适用于动画制作、视频编辑和内容创作等领域。
Hunyuan3D 2.0:腾讯混元开源3D生成大模型!图生/文生秒建高精度模型,细节纹理自动合成
Hunyuan3D 2.0 是腾讯推出的大规模 3D 资产生成系统,专注于从文本和图像生成高分辨率的 3D 模型,支持几何生成和纹理合成。
amis:百度开源低代码神器!JSON秒建后台,开发效率飙升300%
amis 是百度开源的低代码前端框架,基于 JSON 配置快速生成后台页面,支持表单、表格、图表等功能,提供丰富的组件和可视化编辑器,极大提升开发效率。
昆仑万维开源 Skywork R1V:开源多模态推理核弹!视觉链式分析超越人类专家
Skywork R1V 是昆仑万维开源的多模态思维链推理模型,具备强大的视觉链式推理能力,能够在多个权威基准测试中取得领先成绩,推动多模态推理模型的发展。
Chirp 3:248种真人级语音库!谷歌云语音合成黑科技秒杀机械音
Chirp 3 是谷歌云推出的高清语音合成模型,支持 248 种声音和 31 种语言,能生成自然流畅的语音,适用于智能语音助手、有声读物和视频配音等多种场景。
Mistral Small 3.1:240亿参数多模态黑马!128k长文本+图像分析,推理速度150token/秒
Mistral Small 3.1 是 Mistral AI 开源的多模态人工智能模型,具备 240 亿参数,支持文本和图像处理,推理速度快,适合多种应用场景。
OpenBioMed:开源生物医学AI革命!20+工具链破解药物研发「死亡谷」
OpenBioMed 是清华大学智能产业研究院(AIR)和水木分子共同推出的开源平台,专注于 AI 驱动的生物医学研究,提供多模态数据处理、丰富的预训练模型和多样化的计算工具,助力药物研发、精准医疗和
Cursor 上线最新 AI 模型 Claude 3.7 Max:200k上下文+200次工具调用!史上最强代码助手硬核上线
Claude 3.7 Max 是 Cursor 推出的最新 AI 模型,支持 200k 上下文窗口和 200 次工具调用,专为复杂代码任务设计,适合硬核开发者和大型项目。
AudioX:颠覆创作!多模态AI一键生成电影级音效+配乐,耳朵的终极盛宴
AudioX 是香港科技大学和月之暗面联合推出的扩散变换器模型,能够从文本、视频、图像等多种模态生成高质量音频和音乐,具备强大的跨模态学习能力和泛化能力。
MedRAG:医学AI革命!知识图谱+四层诊断,临床准确率飙升11.32%
MedRAG是南洋理工大学推出的医学诊断模型,结合知识图谱与大语言模型,提升诊断准确率11.32%,支持多模态输入与智能提问,适用于急诊、慢性病管理等多种场景。
MM-Eureka:多模态推理新纪元!54K训练量吊打百万级模型,K12数学能力暴增8.2%
MM-Eureka 是由上海人工智能实验室、上海创智学院、上海交通大学和香港大学联合开发的多模态推理模型,通过基于规则的强化学习,显著提升了多模态推理能力,尤其在数据效率和推理准确性方面表现突出。
Open-LLM-VTuber:宅男福音!开源AI老婆离线版上线,实时语音+Live2D互动还会脸红心跳
Open-LLM-VTuber 是一个开源的跨平台语音交互 AI 伴侣项目,支持实时语音对话、视觉感知和生动的 Live2D 动态形象,完全离线运行,保护用户隐私。
下一页