DiffusionRet
DiffusionRet copied to clipboard
[ICCV 2023] DiffusionRet: Generative Text-Video Retrieval with Diffusion Model
大佬您好,冒昧打扰。 我看了您做的diffusionret的工作,思路非常的好, 在对评测指标里面我对里面的代码比较疑惑, 在进行msvd数据集技能型评估时, 在main_retrieval的595行sim_matrix = new_t2vmatrix这里,为什么这里不直接采用 indices = torch.argsort(sim_matrix , dim=1, descending=True) 这种方式直接取求它们的rank,而是采用了按照每个视频对应的文本的定位的地方进行切分, 然后利用了一个函数tensor_text_to_video_metrics,函数里面的就看的不是很理解了。 这里我直接使用sim_matrix进行衡量,利用了里面的cut_off_points, 我把sim_matrix的tensor和利用的函数存了起来 ~~~python q_ids = [] g_ids = [] k = 0 for idx, i...
大佬您好,将数据集更换为自定义数据集后,训练时会出现如下内容: [train] Unique sentence is 3483 , all num is 3486 Video number: 3486 Total Pairs: 3486 [mov,mp4,m4a,3gp,3g2,mj2 @ 0x114200e40] moov atom not found data/biology/video_split/2_8_12_(P12. 鸟(2))_6.mp4 data/biology/video_split/2_8_12_(P12. 鸟(2))_6.mp4 data/biology/video_split/2_8_12_(P12. 鸟(2))_6.mp4...
Hi authors and community, Thank you for sharing this excellent work. I’m currently reproducing the two-stage training process described in the paper “DiffusionRet: Generative Text-Video Retrieval with Diffusion Model” using...