20240924AI新闻无图无视频版

48 阅读3分钟

20240924AI新闻无图无视频版
大家好,现在4-5级号,因为粉丝数不够1000粉丝关注,群里找会做本地AI包集成的和开源素材,
每天有几十人看,麻烦点赞关注转发,3连1下好吗,每天更新需要3个小时,这里简单总节,简单快速做成,很费时,但也比较仓促,但是里面项目还是可以的,至少叫这里关注者到1000以上,非常感谢。
1MuCodec超低比特率音乐编解码器,MuCodec 使用 MuEncoder 提取声学和语义特征,使用 RVQ 对其进行离散化,并通过流匹配获得 Mel-VAE 特征。然后使用预先训练的 MEL-VAE 解码器和 HiFi-GAN 重建音乐。MuCodec 可以以超低 (0.35kbps) 或高比特率 (1.35kbps) 重建高保真音乐,在主观和客观指标上都达到迄今为止的最佳效果。
2新3DTopia-XL通过基元扩散生成高质量的 3D PBR 资产,使用基于富有表现力和高效的 3D 表示 PrimX 构建的 Diffusion Transformer (DiT) 扩展高质量的 3D 资产生成。降噪过程需要 5 秒钟才能从文本/图像输入生成 3D PBR 资产,以供图形管道使用。
3Oryx MLLM任意分辨率的按需时空理解,通过两个核心设计无缝高效地处理具有任意空间大小和时间长度的视觉输入:1) 预训练的 OryxViT 模型,可以将任何分辨率的图像编码为适合 LLM 的视觉表示;2) 一个动态压缩器模块,支持根据请求对视觉标记进行 1 到 16 倍的压缩。得益于这些设计,Oryx 可以容纳分辨率较低、压缩率高的视频等超长视觉上下文,同时保持对文档理解等任务的高识别精度,具有原始分辨率且无压缩。除了架构改进之外,增强的数据管理和有关长上下文检索和空间感知数据的专业培训还帮助 Oryx 同时实现了图像、视频和 3D 多模态理解方面的强大功能。
4InstantTexture(即时纹理)一个极简的 Python 库,用于将顶点颜色的 .obj 网格转换为 uv 映射的纹理 .glb 网格。
5phind中Phind-405B 以及一款新的 Phind Instant 型号,可为您的所有编程和好奇心问题提供闪电般的搜索速度。
6Coarse Correspondences Elicit 3D Spacetime Understanding in Multimodal Language Model粗略对应在多模态语言模型中引发 3D 时空理解
是一种简单、无需培训、有效且通用的视觉提示方法,可在多模态 LLM 中引发 3D 和时间理解。我们的方法使用轻量级跟踪模型来查找视频中帧之间或图像视点集之间的对象对应关系。
7新3d-arena真不知道是啥了
8Out of Focus v1.0 在 Gradio 中提供了一个灵活的工具来操作您的图像。这是我们的第一个版本的图像修改工具,通过扩散反转过程进行重建的提示操作。 我们建议在至少具有 15GB VRAM 的 GPU 上运行它,最好是 A100 GPU,以获得最佳体验。
9Prithvi WxC天气和气候的基础模型,是一款受 Hiera 启发的可扩展 2D 视觉转换器,它克服了处理非矩形数据拓扑的架构限制。它利用了带有注意力的预训练策略,并通过卷积进行微调,借鉴了 Hiera 和 MaxViT 方法。
10A Controlled Study on Long Context Extension and Generalization in LLMs是LLM 中长上下文扩展和泛化的对照研究
20240924AI新闻无图无视频版链接
xuyaoxun.github.io/MuCodec_dem…
github.com/3DTopia/3DT…
github.com/Oryx-mllm/O…
github.com/dylanebert/…
www.phind.com/blog/introd…
coarse-correspondence.github.io/
huggingface.co/datasets/dy…
github.com/OutofAi/Out…
github.com/NASA-IMPACT…
github.com/Leooyii/LCE…