阿里云 EasyNLP 跨模态学习能力再升级，电商文图检索效果刷新SOTA

近日，阿里云机器学习 PAI 开源框架 EasyNLP进行升级发布，推出了融合了丰富电商场景知识的CLIP模型，在电商文图检索效果上刷新了SOTA结果，并且将上述模型免费开源，贡献给开源社区。

CLIP（Contrastive Language-Image Pre-training）是一种经典的文图跨模态检索模型，它在大规模图文数据集上进行了对比学习预训练，具有很强的文图跨模态表征学习能力。EasyNLP借鉴CLIP的轻量化、易迁移的预训练架构，构建基于CLIP包含图像和文本Encoder两部分的双流模型，同时基于商品数据，以优化电商场景的文图检索优化。

Fashion-Gen数据集是一个大规模的时尚场景的图文数据集，以Fashion-Gen数据集为例，EasyNLP基于pai-clip-commercial-base-en和pai-clip-commercial-large-en这两个模型在Fashion-Gen数据集上进行了20个epoch的微调。实验结果表明，相比于现公布的SOTA模型（CommerceMM），电商CLIP-large模型在文到图和图到文的检索结果上均有显著提升，评测指标最高提升了8.7～15个百分点。

除此之外，电商base模型在文到图与CommerceMM相当检索结果下，使用了更少的参数量。由此可见，电商CLIP无论在large还是base图像Encoder的设置下，都取得了有竞争力的电商场景跨模态检索能力。

文到图检索评测结果

图到文检索评测结果

目前，电商CLIP可在EasyNLP中直接安装使用，在未来，EasyNLP框架会集成更多NLP的多模态的知识模型，覆盖各个常见领域和任务，同时也将集成更多SOTA模型（特别是中⽂模型），来⽀持各种NLP和多模态任务，共建NLP和多模态算法库。

Github地址：https://github.com/alibaba/EasyNLP