刘阳
刘阳
I have the sam question, waiting solve...
同问,想知道预训练数据集的格式 另外我在仓库里看到了预训练脚本的命令行里dataset是wiki_demo,是不是就是表示数据集是data/wiki_demo.txt,下面是我看到的  
@1737686924 你的预训练数据是必须手动按回车才算一行,如果一段话连在一起是不是就不算一行,并且还要注意一行的长度不能超过待训练模型的最大toke是吗?
> > @1737686924 你的预训练数据是必须手动按回车才算一行,如果一段话连在一起是不是就不算一行,并且还要注意一行的长度不能超过待训练模型的最大toke是吗? > > 图1 图2 图1是一本书转化为txt形式的,这样拿去预训练能行不?不行的话应该怎样处理?图2的预训练数据格式能否如此? 我对比了下cc4_demo里的格式,也是你图2里的,然后我自己也构造了一份新的预训练数据集,但是预训练的时候一直提示我找不到数据样本 data_set.json中配置 "harry_potter_pt_zh": { "file_name": "harry_potter_pt_zh.json", "file_sha1": "", "columns": { "prompt": "text" } }, 训练参数 python src/train_bash.py \ 130 ↵ --stage...
> > > @1737686924 你的预训练数据是必须手动按回车才算一行,如果一段话连在一起是不是就不算一行,并且还要注意一行的长度不能超过待训练模型的最大toke是吗? > > > > > > 图1 图2 图1是一本书转化为txt形式的,这样拿去预训练能行不?不行的话应该怎样处理?图2的预训练数据格式能否如此? > > 我对比了下cc4_demo里的格式,也是你图2里的,然后我自己也构造了一份新的预训练数据集,但是预训练的时候一直提示我找不到数据样本 > > data_set.json中配置 "harry_potter_pt_zh": { "file_name": "harry_potter_pt_zh.json", "file_sha1": "", "columns": { "prompt": "text"...
我重新验证了下,因为llama.cpp在mac os默认开启了metal,然后llama.cpp编译的main推理时默认使用了mac os系统的显卡推理,就会出现回答看不懂的情况,但关闭macos的显卡推理,就回答一切正常,请官方也帮忙看看是不是有这个问题 完整启动命令 ### 关闭mac os显卡推理,添加 -ngl 0参数 `./main -m ./models/Qwen-1_8B-Chat/ggml-model-q4_0.gguf -n 512 --color -i -cml -ngl 0 -f prompts/chat-with-qwen.txt` 
> > 看了一眼,似乎是同一个函数,但是top_k默认值不同 函数默认参数是20,web会指定成5,api用了默认值的20 > > 改完top_k后效果有提升吗? 我打印了下config里的top_k,默认也是5,但是也有开头吞字的情况,这个有别的解决办法吗?
> I was able to get my Mac working again by doing the following: > > * NOTE: if you're stuck with the `"Docker" is damaged message`, popping up over...