获得徽章 0
- #每日快讯# PLLaVA: 高性能视频理解模型
PLLaVA是一个开源的能够为视频自动生成描述的智能系统,它使用了一种新颖的池化技术来提高视频内容的理解能力。
在 Video ChatGPT 和 MVBench 基准测试中均超越了 GPT4V (IG-VLM)pllava.github.io
展开评论1 - #每日快讯# MaPa:文本驱动真实感 3D 材质绘制
MaPa 是一种新技术,可以根据你给的文字描述,自动为3D模型设计出逼真的材质效果。它不用传统的方法去贴图,而是用一种程序化的方式来生成材质,这样不仅看起来更真实,还能让你随心所欲地调整材质的细节。zhanghe3z.github.io
展开评论1 - #每日快讯# anime.gf: 开源桌面聊天女友
一个开源的桌面应用程序,可以创建和管理虚拟角色卡片,支持多种人工智能 API,并且可以自定义聊天界面和主题。
GitHub:github.com
展开评论1 - #每日快讯# searchGPT:OpenAI 智能搜索引擎
@btibor91 发布了 OpenAI 的智能搜索引擎新的测试视频,可以通过聊天问答形式搜索全网内容,支持图像搜索、总结内容等评论1 - #挑战每日一条沸点# Perplexica: 开源智能搜索引擎
Perplexica 又是一个开源的 Perplexity Like 搜索引擎,使用 SearxNG 作为元搜索引擎。
同时支持本地大模型;包含多种搜索模式,包括学术搜索、视频搜索等专用模式适应不同的查询需求;未来还会支持 Copilot 模式(开发中)
GitHub:github.com
展开评论1 - #每日快讯# Layer Skip: 提速 Llama 7B 模型 2.16 倍
LayerSkip 研究提出了一种创新的方法来提高大型语言模型(LLM)的推理速度,通过在模型的不同层实施 early exit 策略,并利用剩余层进行错误校正。
人话:通过让模型的一部分先“下班”,另一部分来检查,速度提高了还保持了准确性。
论文:arxiv.org
展开评论1 - #每日快讯# CatLIP: 一种新的图像-文本数据预训练方法
苹果开源的一种让计算机学习图像和文字之间关系的新技术,比以前的方法快 2.7 倍,而且效果一样好。
官网:huggingface.co
GitHub:github.com
展开24 - #每日快讯# Make-it-Real: 使你的 3D 模型更真实
还记得 InstantMesh 吗,单图转 3D 模型,但是它生成的模型都比较乏味,即材质不够真实
Make-it-Real 利用多模态大型语言模型(MLLMs),特别是 GPT-4V 来识别和描述材质并构建详细的材质库,并使你的3D模型拥有真实质感和逼真的光照效果。
网站:sunzey.github.io
展开评论1 - #每日快讯# HATO:低成本双手多指遥控项目
UC Berkeley 的研究人员开发了一个低成本的双手多指遥控系统,网站中演示了通过 Meta Quest 手柄控制机器手开瓶、倒酒和玩游戏。
官网:toruowo.github.io
展开评论1 - #每日快讯# Vidu 发布:国内首个 Sora 级模型
生数科技携手清华大学研发出首个能生成 16 秒 1080P 高清视频的模型,模拟真实世界,还很有想象力,支持多镜头拍摄,画面流畅一致。
生数科技:www.shengshu-ai.com
展开评论1