Chinese-CLIP
Chinese-CLIP copied to clipboard
Chinese version of CLIP which achieves Chinese cross-modal retrieval and representation generation.
如题,我本地使用cpu的情况下,发现fb16的速度要慢很多,这个原因是为啥
在GPU 推理报错 Segmentation fault,CPU上是没有问题的
[2024-04-23 12:06:31,944] torch.distributed.elastic.multiprocessing.redirects: [WARNING] NOTE: Redirects are currently not supported in Windows or MacOs. D:\Anaconda3\envs\Mlearn\lib\site-packages\torch\distributed\launch.py:183: FutureWarning: The module torch.distributed.launch is deprecated and will be removed in future. Use torchrun. Note...
我在使用build_lmdb_dataset.py时发生了如下报错 Traceback (most recent call last): File "...\cn_clip\preprocess\build_lmdb_dataset.py", line 50, in env_img = lmdb.open(lmdb_img, map_size=1024**4) lmdb.Error: ...DATAPATH/datasets/TBear_small\lmdb\test\imgs: \ufffd\ufffd\ufffd\u033f\u057c\u4cbb\ufffd\u3863 请问是我的前一步数据处理有问题吗
请问下这个原理是否是通过将问题转换为语义向量,然后去现有数据集中,对数据集的文本向量进行相似度匹配,然后的到相应的图片,是否能对一个随机路径下的图片集(未经过特征提取处理)进行文搜图?
#### 1.我准备了一些语句,都是返回张数不足50张的语句: 抱着孩子的男人 背包的女人 戴眼镜的男人 骑自行车的孩子 一个走在公园里的女孩 一群走在山里的男人 在河边的金发少女 包饺子 亲子活动 踏青 提行李箱的男人 在清晨跑步的女人 在水里盛开的花 在田野里的狗 #### 2.先是在demo里搜索,参数如下,并利用chrome的插件imageye,把返回的图片都下载下来: 返回图片数:50张,模型:中文CLIP(Base),返回缩略图:否 因为不同语句搜到的图片存在重复,所以我通过hash值进行了重命名,并用一张表保存每张图对应的语句列表 #### 3.把这些图片都加入一个新的向量库,在本地构建的搜索接口测试搜索: 图片和文本都是用的clip-vit-b-16进行向量化,利用余弦相似度进行降序,阈值0.2,结果是,返回的图片并不完全一样,大部分是差个一两张,但是“踏青”,结果差了9张图。详细见下图 
准备复现ChineseClip论文,以CLIP-VIT-B/16 初始化image encoder部分,下载对应的是 https://huggingface.co/openai/clip-vit-base-patch16/tree/main 但是加载模型参数时,发现image encoder部分参数加载不上。我打印发现对应参数名称以vision_model.encoder.layers.开头的,按照ChineseClip代码无法匹配上。而ChineseClip预训练好的模型,对应参数名称是包含visual.transformer.resblocks。请问论文初始化的模型文件链接是什么,麻烦发一下~ 下载的clip-vit-base-patch16中图像部分参数名称 ``` vision_model.embeddings.class_embedding torch.Size([768]) ** vision_model.embeddings.position_ids torch.Size([1, 197]) ** vision_model.embeddings.patch_embedding.weight torch.Size([768, 3, 16, 16]) ** vision_model.embeddings.position_embedding.weight torch.Size([197, 768]) ** vision_model.pre_layrnorm.weight torch.Size([768]) ** vision_model.pre_layrnorm.bias torch.Size([768])...