Chinese-CLIP issues

fb16速度比fb32要慢

如题，我本地使用cpu的情况下，发现fb16的速度要慢很多，这个原因是为啥

在GPU 推理报错 Segmentation fault

1

在GPU 推理报错 Segmentation fault，CPU上是没有问题的

[2024-04-23 12:06:31,944] torch.distributed.elastic.multiprocessing.redirects: [WARNING] NOTE: Redirects are currently not supported in Windows or MacOs. D:\Anaconda3\envs\Mlearn\lib\site-packages\torch\distributed\launch.py:183: FutureWarning: The module torch.distributed.launch is deprecated and will be removed in future. Use torchrun. Note...

Cupies

使用build_lmdb_dataset.py脚本转换lmdb文件的问题

13

我在使用build_lmdb_dataset.py时发生了如下报错 Traceback (most recent call last): File "...\cn_clip\preprocess\build_lmdb_dataset.py", line 50, in env_img = lmdb.open(lmdb_img, map_size=1024**4) lmdb.Error: ...DATAPATH/datasets/TBear_small\lmdb\test\imgs: \ufffd\ufffd\ufffd\u033f\u057c\u4cbb\ufffd\u3863 请问是我的前一步数据处理有问题吗

byraid218

文搜图的原理

请问下这个原理是否是通过将问题转换为语义向量，然后去现有数据集中，对数据集的文本向量进行相似度匹配，然后的到相应的图片，是否能对一个随机路径下的图片集（未经过特征提取处理）进行文搜图？

sx-zyf-123

请问怎么调用这个模型？怎么提供api服务？

gubinjie

可以使用lora方法来finetune吗

6

seasnakes

enhancement

您好，我想进行文搜图的任务。在notebook的演示流程中有需要8G显存的微调流程，但是我的笔记本只有6G，请问是否可以不进行微调，直接进行尝试？

3

qinghuanyyz

请问demo用的base模型跟本项目给的CN-CLIP（ViT-B/16）是同一个模型吗？跟我本地的测试结果不太一样

#### 1.我准备了一些语句，都是返回张数不足50张的语句：抱着孩子的男人背包的女人戴眼镜的男人骑自行车的孩子一个走在公园里的女孩一群走在山里的男人在河边的金发少女包饺子亲子活动踏青提行李箱的男人在清晨跑步的女人在水里盛开的花在田野里的狗 #### 2.先是在demo里搜索，参数如下，并利用chrome的插件imageye，把返回的图片都下载下来：返回图片数：50张，模型：中文CLIP(Base)，返回缩略图：否因为不同语句搜到的图片存在重复，所以我通过hash值进行了重命名，并用一张表保存每张图对应的语句列表 #### 3.把这些图片都加入一个新的向量库，在本地构建的搜索接口测试搜索：图片和文本都是用的clip-vit-b-16进行向量化，利用余弦相似度进行降序，阈值0.2，结果是，返回的图片并不完全一样，大部分是差个一两张，但是“踏青”，结果差了9张图。详细见下图 ![image](https://github.com/OFA-Sys/Chinese-CLIP/assets/89114157/7a2394d2-65ab-4c3b-b0b7-26314b9e5877)

xiuxiuxius

论文初始化image encoder的模型参数

2

准备复现ChineseClip论文，以CLIP-VIT-B/16 初始化image encoder部分，下载对应的是 https://huggingface.co/openai/clip-vit-base-patch16/tree/main 但是加载模型参数时，发现image encoder部分参数加载不上。我打印发现对应参数名称以vision_model.encoder.layers.开头的，按照ChineseClip代码无法匹配上。而ChineseClip预训练好的模型，对应参数名称是包含visual.transformer.resblocks。请问论文初始化的模型文件链接是什么，麻烦发一下~ 下载的clip-vit-base-patch16中图像部分参数名称 ``` vision_model.embeddings.class_embedding torch.Size([768]) ** vision_model.embeddings.position_ids torch.Size([1, 197]) ** vision_model.embeddings.patch_embedding.weight torch.Size([768, 3, 16, 16]) ** vision_model.embeddings.position_embedding.weight torch.Size([197, 768]) ** vision_model.pre_layrnorm.weight torch.Size([768]) ** vision_model.pre_layrnorm.bias torch.Size([768])...

gobigrassland

Chinese-CLIP
Chinese-CLIP copied to clipboard

Metadata

fb16速度比fb32要慢

在GPU 推理报错 Segmentation fault

执行finetune流程时报错

使用build_lmdb_dataset.py脚本转换lmdb文件的问题

文搜图的原理

请问怎么调用这个模型？怎么提供api服务？

可以使用lora方法来finetune吗

您好，我想进行文搜图的任务。在notebook的演示流程中有需要8G显存的微调流程，但是我的笔记本只有6G，请问是否可以不进行微调，直接进行尝试？

请问demo用的base模型跟本项目给的CN-CLIP（ViT-B/16）是同一个模型吗？跟我本地的测试结果不太一样

论文初始化image encoder的模型参数

← Metadata

Owner

Metadata

Chinese-CLIP Chinese-CLIP copied to clipboard

Metadata

← Metadata

Owner

Metadata

Chinese-CLIP
Chinese-CLIP copied to clipboard