今日 AI 简报|苹果推出的新框架,智源开源千万级多模态数据集,字节推出图像编辑模型,开源大语言模型和实时对话系统等

504 阅读4分钟

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


App Intents:苹果推出的新框架

AppIntents.png

App Intents 是苹果推出的支持开发者在 iOS、macOS 等平台上集成 Siri 和 Apple Intelligence 的新框架,实现应用功能与系统体验的无缝融合。用户可以直接用 Siri 控制应用、搜索应用内容,创建自动化操作,提升应用的智能化和便捷性。

资源

  1. 项目官网:developer.apple.com/documentati…

Infinity-MM:智源的千万级多模态指令数据集

Infinity-MM .png

Infinity-MM 是智源研究院推出的千万级多模态指令数据集,包含 4300 万条样本,数据量达 10TB。数据集经过质量过滤和去重,能提升开源视觉-语言模型(VLMs)的性能。基于 Infinity-MM,智源成功训练 20 亿参数的多模态模型 Aquila-VL-2B,取得最先进的性能。

资源

  1. HuggingFace 模型库:huggingface.co/datasets/BA…
  2. arXiv 技术论文:arxiv.org/pdf/2410.18…

HK-O1aw:法律推理大模型

HK-O1aw.png

HK-O1aw 是由香港生成式 AI 研发中心和北京大学合作推出的法律推理大模型,在合同法、消费者权益保护法等多个法律领域表现出色。模型采用 O1 风格数据集和训练方式,侧重慢思考和链式推理,提供逻辑严密的法律意见。

资源

  1. GitHub 仓库:github.com/HKAIR-Lab/H…
  2. HuggingFace 模型库:huggingface.co/HKAIR-Lab/H…

VideoChat:实时数字人对话系统

videochat.png

VideoChat 是开源的实时数字人对话系统,支持语音输入和实时对话功能。用户可以自定义数字人的形象和音色,首包延迟低至 3 秒。系统支持流式视频输出,适配多种实时语音交互场景。

资源

  1. GitHub 仓库:github.com/Henry-23/Vi…
  2. 在线体验 Demo:www.modelscope.cn/studios/AI-…

FabricDiffusion:高保真度 3D 服装生成技术

favricdiffusion.png

FabricDiffusion 是谷歌和卡内基梅隆大学共同推出的高保真度 3D 服装生成技术,能将 2D 服装图像的纹理和印花高质量地转移到 3D 服装模型上。基于去噪扩散模型和大规模合成数据集,实现在不同光照条件下的精确渲染。

资源

  1. 项目官网:humansensinglab.github.io/fabric-diff…
  2. arXiv 技术论文:arxiv.org/pdf/2410.01…

OpenCoder:开源代码生成模型

OpenCoder.png

OpenCoder 是由墨尔本大学、复旦大学等高校联合无限光年推出的开源代码生成模型,能在多个编码基准测试中达到专有模型的性能,提供模型权重和推理代码,助力研究社区构建和创新。

资源

  1. 项目官网:opencoder-llm.github.io
  2. GitHub 仓库:github.com/OpenCoder-l…
  3. HuggingFace 模型库:huggingface.co/collections…
  4. arXiv 技术论文:arxiv.org/pdf/2411.04…

DimensionX:单图像生成 3D/4D 场景框架

DimensionX.png

DimensionX 是由香港科技大学、清华大学和生数科技共同推出的框架,能从单张图片生成高逼真度的 3D 和 4D 场景,基于视频扩散技术实现对空间和时间维度的精确控制。框架包含轨迹感知机制和身份保持去噪策略,增强场景的一致性和真实感。

资源

  1. 项目官网:chenshuo20.github.io/DimensionX
  2. GitHub 仓库:github.com/wenqsun/Dim…
  3. arXiv 技术论文:arxiv.org/pdf/2411.04…

SeedEdit:AI 图像编辑模型

seededit.png

SeedEdit 是字节豆包大模型团队推出的通用图像编辑模型,基于简单的自然语言指令编辑图像,支持局部替换、几何变换、重新照明、风格变化等操作。模型在图像编辑的通用性、可控性和高质量输出方面取得突破。

资源

  1. 项目官网:team.doubao.com/en/special/…
  2. 技术论文:lf3-static.bytednsdoc.com/obj/eden-cn…
  3. 在线体验 Demo:huggingface.co/spaces/Byte…

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦