获得徽章 6
赞了这篇沸点
1、北京大学董豪团队提出首个通用指令导航大模型系统InstructNav,该工作已被CoRL 2024会议录用,不同导航任务需要不同能力,之前研究针对特定指令设计导航方法,无法满足人类下达混合类型指令的实际需求,而InstructNav极具价值。

2、AI软件Readtheirlips可识别唇语,它能识别红毯明星小声说话的唇语,但实测中发现存在局限性:识别视频时间约一分钟左右;人物不正脸对镜头、语速过快时易出错。

3、法国Mistral公司发布首款多模态AI大语音模型Pixtral 12B,有120亿参数、约24GB大小,基于Nemo 12B构建,能回答任意图像相关问题,类似其他多模态模型可执行如为图像加描述、统计物体数量等任务。
展开
评论
赞了这篇沸点
我真是服了……公司的某个项目后端离职了,实施部的来问我问题,我说这问题我不懂,我是个卑微前端,人家说,公司没人了,只剩你能看了……
至于公司为啥快没人了,大家也能猜到……
[睡][睡][睡][睡][睡]
19
下一页
个人成就
文章被点赞 1
文章被阅读 1,617
掘力值 113
收藏集
22
关注标签
21
加入于