刘阳

Results 8 comments of 刘阳

I have the sam question, waiting solve...

同问,想知道预训练数据集的格式 另外我在仓库里看到了预训练脚本的命令行里dataset是wiki_demo,是不是就是表示数据集是data/wiki_demo.txt,下面是我看到的 ![image](https://github.com/hiyouga/LLaMA-Factory/assets/18082104/db02f787-cce0-441a-8265-83422936aaf2) ![image](https://github.com/hiyouga/LLaMA-Factory/assets/18082104/7463c59f-c7af-4501-98fe-b61b0bf52678)

@1737686924 你的预训练数据是必须手动按回车才算一行,如果一段话连在一起是不是就不算一行,并且还要注意一行的长度不能超过待训练模型的最大toke是吗?

> > @1737686924 你的预训练数据是必须手动按回车才算一行,如果一段话连在一起是不是就不算一行,并且还要注意一行的长度不能超过待训练模型的最大toke是吗? > > 图1![image](https://private-user-images.githubusercontent.com/156283920/314328141-41cd6eb3-afe0-4fd8-ad21-5fe8c0404bf9.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MTA5MDgzNzksIm5iZiI6MTcxMDkwODA3OSwicGF0aCI6Ii8xNTYyODM5MjAvMzE0MzI4MTQxLTQxY2Q2ZWIzLWFmZTAtNGZkOC1hZDIxLTVmZThjMDQwNGJmOS5wbmc_WC1BbXotQWxnb3JpdGhtPUFXUzQtSE1BQy1TSEEyNTYmWC1BbXotQ3JlZGVudGlhbD1BS0lBVkNPRFlMU0E1M1BRSzRaQSUyRjIwMjQwMzIwJTJGdXMtZWFzdC0xJTJGczMlMkZhd3M0X3JlcXVlc3QmWC1BbXotRGF0ZT0yMDI0MDMyMFQwNDE0MzlaJlgtQW16LUV4cGlyZXM9MzAwJlgtQW16LVNpZ25hdHVyZT1lYzYxNjg1MWUzOGYyMjc5ZDk2NzA2ZDM0N2JlNzVjNTljNzhkN2YxZjlmMmNiN2MzYjQ1ZWUyOGZjYTJjMWNiJlgtQW16LVNpZ25lZEhlYWRlcnM9aG9zdCZhY3Rvcl9pZD0wJmtleV9pZD0wJnJlcG9faWQ9MCJ9.uU21VrRdY2NgKCZ8yvuI3RC69ejv-iyjo_nduQ9JmCE) 图2![image](https://private-user-images.githubusercontent.com/156283920/314329875-f72eeb59-ac42-4d13-b71e-bca114cc190b.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MTA5MDgzNzksIm5iZiI6MTcxMDkwODA3OSwicGF0aCI6Ii8xNTYyODM5MjAvMzE0MzI5ODc1LWY3MmVlYjU5LWFjNDItNGQxMy1iNzFlLWJjYTExNGNjMTkwYi5wbmc_WC1BbXotQWxnb3JpdGhtPUFXUzQtSE1BQy1TSEEyNTYmWC1BbXotQ3JlZGVudGlhbD1BS0lBVkNPRFlMU0E1M1BRSzRaQSUyRjIwMjQwMzIwJTJGdXMtZWFzdC0xJTJGczMlMkZhd3M0X3JlcXVlc3QmWC1BbXotRGF0ZT0yMDI0MDMyMFQwNDE0MzlaJlgtQW16LUV4cGlyZXM9MzAwJlgtQW16LVNpZ25hdHVyZT01MWZlMzFlNTkzMTQ3OTlhNjljOWZkZjFhYzM3ZGYzNTRmZDUxYTNiZGI1ZDJmNTkwYzY1NDQ2NDdiNjUxMDdkJlgtQW16LVNpZ25lZEhlYWRlcnM9aG9zdCZhY3Rvcl9pZD0wJmtleV9pZD0wJnJlcG9faWQ9MCJ9.vPkMJGC-amvOpp5PU4Qwcve5L1tpO9JXfo2KkIz6PX4) 图1是一本书转化为txt形式的,这样拿去预训练能行不?不行的话应该怎样处理?图2的预训练数据格式能否如此? 我对比了下cc4_demo里的格式,也是你图2里的,然后我自己也构造了一份新的预训练数据集,但是预训练的时候一直提示我找不到数据样本 data_set.json中配置 "harry_potter_pt_zh": { "file_name": "harry_potter_pt_zh.json", "file_sha1": "", "columns": { "prompt": "text" } }, 训练参数 python src/train_bash.py \ 130 ↵ --stage...

> > > @1737686924 你的预训练数据是必须手动按回车才算一行,如果一段话连在一起是不是就不算一行,并且还要注意一行的长度不能超过待训练模型的最大toke是吗? > > > > > > 图1![image](https://private-user-images.githubusercontent.com/156283920/314328141-41cd6eb3-afe0-4fd8-ad21-5fe8c0404bf9.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MTA5MDgzNzksIm5iZiI6MTcxMDkwODA3OSwicGF0aCI6Ii8xNTYyODM5MjAvMzE0MzI4MTQxLTQxY2Q2ZWIzLWFmZTAtNGZkOC1hZDIxLTVmZThjMDQwNGJmOS5wbmc_WC1BbXotQWxnb3JpdGhtPUFXUzQtSE1BQy1TSEEyNTYmWC1BbXotQ3JlZGVudGlhbD1BS0lBVkNPRFlMU0E1M1BRSzRaQSUyRjIwMjQwMzIwJTJGdXMtZWFzdC0xJTJGczMlMkZhd3M0X3JlcXVlc3QmWC1BbXotRGF0ZT0yMDI0MDMyMFQwNDE0MzlaJlgtQW16LUV4cGlyZXM9MzAwJlgtQW16LVNpZ25hdHVyZT1lYzYxNjg1MWUzOGYyMjc5ZDk2NzA2ZDM0N2JlNzVjNTljNzhkN2YxZjlmMmNiN2MzYjQ1ZWUyOGZjYTJjMWNiJlgtQW16LVNpZ25lZEhlYWRlcnM9aG9zdCZhY3Rvcl9pZD0wJmtleV9pZD0wJnJlcG9faWQ9MCJ9.uU21VrRdY2NgKCZ8yvuI3RC69ejv-iyjo_nduQ9JmCE) 图2![image](https://private-user-images.githubusercontent.com/156283920/314329875-f72eeb59-ac42-4d13-b71e-bca114cc190b.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MTA5MDgzNzksIm5iZiI6MTcxMDkwODA3OSwicGF0aCI6Ii8xNTYyODM5MjAvMzE0MzI5ODc1LWY3MmVlYjU5LWFjNDItNGQxMy1iNzFlLWJjYTExNGNjMTkwYi5wbmc_WC1BbXotQWxnb3JpdGhtPUFXUzQtSE1BQy1TSEEyNTYmWC1BbXotQ3JlZGVudGlhbD1BS0lBVkNPRFlMU0E1M1BRSzRaQSUyRjIwMjQwMzIwJTJGdXMtZWFzdC0xJTJGczMlMkZhd3M0X3JlcXVlc3QmWC1BbXotRGF0ZT0yMDI0MDMyMFQwNDE0MzlaJlgtQW16LUV4cGlyZXM9MzAwJlgtQW16LVNpZ25hdHVyZT01MWZlMzFlNTkzMTQ3OTlhNjljOWZkZjFhYzM3ZGYzNTRmZDUxYTNiZGI1ZDJmNTkwYzY1NDQ2NDdiNjUxMDdkJlgtQW16LVNpZ25lZEhlYWRlcnM9aG9zdCZhY3Rvcl9pZD0wJmtleV9pZD0wJnJlcG9faWQ9MCJ9.vPkMJGC-amvOpp5PU4Qwcve5L1tpO9JXfo2KkIz6PX4) 图1是一本书转化为txt形式的,这样拿去预训练能行不?不行的话应该怎样处理?图2的预训练数据格式能否如此? > > 我对比了下cc4_demo里的格式,也是你图2里的,然后我自己也构造了一份新的预训练数据集,但是预训练的时候一直提示我找不到数据样本 > > data_set.json中配置 "harry_potter_pt_zh": { "file_name": "harry_potter_pt_zh.json", "file_sha1": "", "columns": { "prompt": "text"...

我重新验证了下,因为llama.cpp在mac os默认开启了metal,然后llama.cpp编译的main推理时默认使用了mac os系统的显卡推理,就会出现回答看不懂的情况,但关闭macos的显卡推理,就回答一切正常,请官方也帮忙看看是不是有这个问题 完整启动命令 ### 关闭mac os显卡推理,添加 -ngl 0参数 `./main -m ./models/Qwen-1_8B-Chat/ggml-model-q4_0.gguf -n 512 --color -i -cml -ngl 0 -f prompts/chat-with-qwen.txt` ![image](https://github.com/QwenLM/Qwen/assets/18082104/f4bf4c25-6d65-442c-8ec0-18bf8852fe86)

> > 看了一眼,似乎是同一个函数,但是top_k默认值不同 函数默认参数是20,web会指定成5,api用了默认值的20 > > 改完top_k后效果有提升吗? 我打印了下config里的top_k,默认也是5,但是也有开头吞字的情况,这个有别的解决办法吗?

> I was able to get my Mac working again by doing the following: > > * NOTE: if you're stuck with the `"Docker" is damaged message`, popping up over...