CLIP算法复现

530 阅读1分钟

CLIP介绍

Image Caption简单来说就是看图说话:给定一张图片,生成该图片对应的自然语言描述。此任务涉及到了图像与自然语言两个模态,然而图像空间与自然语言空间本就十分庞大,并且两者之间存在巨大的语义鸿沟。如何将两个庞大的语义空间进行对齐,这是该任务的重点。

本项目对ClipCap: CLIP Prefix for Image Captioning 这篇论文代码进行复现,并且在英文数据集上进行实验复现,效果如下:

a9dc0a7d51ee6a90443df0f57856922.png

中文测试效果如下:

image.png

有需要使用自己数据集训练和测试的朋友,可以私信我,有偿帮忙训练和调试环境!!!