CLIP介绍
Image Caption简单来说就是看图说话:给定一张图片,生成该图片对应的自然语言描述。此任务涉及到了图像与自然语言两个模态,然而图像空间与自然语言空间本就十分庞大,并且两者之间存在巨大的语义鸿沟。如何将两个庞大的语义空间进行对齐,这是该任务的重点。
本项目对ClipCap: CLIP Prefix for Image Captioning 这篇论文代码进行复现,并且在英文数据集上进行实验复现,效果如下:
中文测试效果如下:
有需要使用自己数据集训练和测试的朋友,可以私信我,有偿帮忙训练和调试环境!!!