128Ghe980 issues

Results 8 issues of


                                            128Ghe980

请问FT的数据大概应该准备多少呢?

现在打算使用BGE-base和BGE-large做大模型召回部分的embedding模型，希望在自己的数据集上ft一下，请问二者数据大概应该准备多少呢？另外负例大小有推荐的值吗？还是说默认10就不错？

bge-large-zh 在微调中loss间接出现0.0，这是正常现象吗？

![微信图片_20240123104453](https://github.com/FlagOpen/FlagEmbedding/assets/44698199/1ae0f7e9-5bd8-40a1-a0e8-4e42de07668a) train下来的模型是可以用的，单纯想问一下

请问BGE embedding中eval_msmarco里为什么要用train和dev两个数据集测试

在eval_msmarco中出现: eval_data = datasets.load_dataset("namespace-Pt/msmarco", split="dev") corpus = datasets.load_dataset("namespace-Pt/msmarco-corpus", split="train") 之后将corpus作为faiss_index，eval_data 作为query。为什么会这样验证呢？我自己的理解的验证应该是一个QA对数据，将Q作为query，A作为corpus，然后检索，计算各个指标。应该使用一个数据集就够了，为什么不只使用namespace-Pt/msmarco呢？它有query和positive。还是说以下这些指标就是需要两个数据集这么算。 { 'MRR@1': 0.2330945558739255, 'MRR@10': 0.35786976395142633, 'MRR@100': 0.3692618036917553, 'Recall@1': 0.22606255969436478, 'Recall@10': 0.6412965616045848, 'Recall@100': 0.9012774594078318 }

使用sh文件复现时，修改DATA_DIR, BERT_DIR, OUTPUT_DIR后依旧无法运行

使用msra.sh 错误信息： 404 Client Error: Not Found for url: https://huggingface.co/D:/Program%20Files/Git/pretrainmodel/chinese-roberta-wwm-ext/resolve/main/config.json REPO_PATH=D:/PycharmWorkplace/NER/mrc-for-flat-nested-ner-master export PYTHONPATH="D:/PycharmWorkplace/NER/mrc-for-flat-nested-ner-master" 我的DATA_DIR： DATA_DIR=/data/zh_msra 我的BERT_DIR： /pretrainmodel/chinese-roberta-wwm-ext （在项目文件夹下）我的OUTPUT_DIR： OUTPUT_DIR=/output/zh_msra/zh_msra_bertlarge_lr${LR}20200913_dropout${DROPOUT}_maxlen${MAXLEN} 主要是这个“D:/Program%20Files/Git/”不知道怎么出来的

Qwen1.5-0.5b-chat 使用example中fintune.py 报错

bash文件中的--lazy_preprocess试过True和False，都是报同样的错 ``` #!/bin/bash export CUDA_DEVICE_MAX_CONNECTIONS=1 DIR=`pwd` # Guide: # This script supports distributed training on multi-gpu workers (as well as single-worker training). # Please set the options below according to...

RLHF problems when using Qwen model

I'm trying to use DeepSpeed-Chat stage2 scripts to do rlhf with Qwen1.8b-chat model，I change some parts in dschat and main.py to load my model, the most different part is: ```...

请问qwen2vl在处理高分辨率图片时，会增大每张图片的所占的token数量吗？

请问qwen2vl在处理高分辨率图片时，会增大每张图片的所占的token数量吗？是否有最大限制呢？有的话，最大是多少？另外有部署参数调节这个大小吗？

请问如何在bash文件中设置wandb的相关参数呢

现在训练需要放到集群上跑，集群没法提前登录wandb，也需要提前设置好所有的参数，应该怎么设置才好呢当前bash： WANDB_API_KEY="XXX" wandb login --relogin $WANDB_API_KEY deepspeed --hostfile=/root/hostfile_remote \ /root/ms-swift/swift/cli/rlhf.py \ --rlhf_type dpo \ --model $MODEL \ --model_type $LLM_TYPE \ --train_type full \ --dataset $DATA \ --num_train_epochs 1 \...