
获得徽章 6
赞了这篇沸点
1、北京大学董豪团队提出首个通用指令导航大模型系统InstructNav,该工作已被CoRL 2024会议录用,不同导航任务需要不同能力,之前研究针对特定指令设计导航方法,无法满足人类下达混合类型指令的实际需求,而InstructNav极具价值。
2、AI软件Readtheirlips可识别唇语,它能识别红毯明星小声说话的唇语,但实测中发现存在局限性:识别视频时间约一分钟左右;人物不正脸对镜头、语速过快时易出错。
3、法国Mistral公司发布首款多模态AI大语音模型Pixtral 12B,有120亿参数、约24GB大小,基于Nemo 12B构建,能回答任意图像相关问题,类似其他多模态模型可执行如为图像加描述、统计物体数量等任务。
2、AI软件Readtheirlips可识别唇语,它能识别红毯明星小声说话的唇语,但实测中发现存在局限性:识别视频时间约一分钟左右;人物不正脸对镜头、语速过快时易出错。
3、法国Mistral公司发布首款多模态AI大语音模型Pixtral 12B,有120亿参数、约24GB大小,基于Nemo 12B构建,能回答任意图像相关问题,类似其他多模态模型可执行如为图像加描述、统计物体数量等任务。
展开
评论
4
赞了这篇沸点
各位亲朋好友:
承蒙各位亲朋好友的支持与厚爱,本人谨定于农历八月初十(2024年9月12日)过星期四!随礼50即可。
欢迎各位亲朋好友参加
展开
6
6
赞了这篇文章
赞了这篇沸点