刘阳

Results 8 comments of


                                            刘阳

Upgrading to V2, torch version conflicts with MeloTTS

I have the sam question, waiting solve...

预训练阶段，对书籍的处理有什么要求吗？比如，段落之间需要加\n吗，每条样本必须保持段落的完整吗，还是有截断也行呢？

同问，想知道预训练数据集的格式另外我在仓库里看到了预训练脚本的命令行里dataset是wiki_demo，是不是就是表示数据集是data/wiki_demo.txt，下面是我看到的 ![image](https://github.com/hiyouga/LLaMA-Factory/assets/18082104/db02f787-cce0-441a-8265-83422936aaf2) ![image](https://github.com/hiyouga/LLaMA-Factory/assets/18082104/7463c59f-c7af-4501-98fe-b61b0bf52678)

预训练阶段，对书籍的处理有什么要求吗？比如，段落之间需要加\n吗，每条样本必须保持段落的完整吗，还是有截断也行呢？

@1737686924 你的预训练数据是必须手动按回车才算一行，如果一段话连在一起是不是就不算一行，并且还要注意一行的长度不能超过待训练模型的最大toke是吗？

预训练阶段，对书籍的处理有什么要求吗？比如，段落之间需要加\n吗，每条样本必须保持段落的完整吗，还是有截断也行呢？

> > @1737686924 你的预训练数据是必须手动按回车才算一行，如果一段话连在一起是不是就不算一行，并且还要注意一行的长度不能超过待训练模型的最大toke是吗？ > > 图1![image](https://private-user-images.githubusercontent.com/156283920/314328141-41cd6eb3-afe0-4fd8-ad21-5fe8c0404bf9.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MTA5MDgzNzksIm5iZiI6MTcxMDkwODA3OSwicGF0aCI6Ii8xNTYyODM5MjAvMzE0MzI4MTQxLTQxY2Q2ZWIzLWFmZTAtNGZkOC1hZDIxLTVmZThjMDQwNGJmOS5wbmc_WC1BbXotQWxnb3JpdGhtPUFXUzQtSE1BQy1TSEEyNTYmWC1BbXotQ3JlZGVudGlhbD1BS0lBVkNPRFlMU0E1M1BRSzRaQSUyRjIwMjQwMzIwJTJGdXMtZWFzdC0xJTJGczMlMkZhd3M0X3JlcXVlc3QmWC1BbXotRGF0ZT0yMDI0MDMyMFQwNDE0MzlaJlgtQW16LUV4cGlyZXM9MzAwJlgtQW16LVNpZ25hdHVyZT1lYzYxNjg1MWUzOGYyMjc5ZDk2NzA2ZDM0N2JlNzVjNTljNzhkN2YxZjlmMmNiN2MzYjQ1ZWUyOGZjYTJjMWNiJlgtQW16LVNpZ25lZEhlYWRlcnM9aG9zdCZhY3Rvcl9pZD0wJmtleV9pZD0wJnJlcG9faWQ9MCJ9.uU21VrRdY2NgKCZ8yvuI3RC69ejv-iyjo_nduQ9JmCE) 图2![image](https://private-user-images.githubusercontent.com/156283920/314329875-f72eeb59-ac42-4d13-b71e-bca114cc190b.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MTA5MDgzNzksIm5iZiI6MTcxMDkwODA3OSwicGF0aCI6Ii8xNTYyODM5MjAvMzE0MzI5ODc1LWY3MmVlYjU5LWFjNDItNGQxMy1iNzFlLWJjYTExNGNjMTkwYi5wbmc_WC1BbXotQWxnb3JpdGhtPUFXUzQtSE1BQy1TSEEyNTYmWC1BbXotQ3JlZGVudGlhbD1BS0lBVkNPRFlMU0E1M1BRSzRaQSUyRjIwMjQwMzIwJTJGdXMtZWFzdC0xJTJGczMlMkZhd3M0X3JlcXVlc3QmWC1BbXotRGF0ZT0yMDI0MDMyMFQwNDE0MzlaJlgtQW16LUV4cGlyZXM9MzAwJlgtQW16LVNpZ25hdHVyZT01MWZlMzFlNTkzMTQ3OTlhNjljOWZkZjFhYzM3ZGYzNTRmZDUxYTNiZGI1ZDJmNTkwYzY1NDQ2NDdiNjUxMDdkJlgtQW16LVNpZ25lZEhlYWRlcnM9aG9zdCZhY3Rvcl9pZD0wJmtleV9pZD0wJnJlcG9faWQ9MCJ9.vPkMJGC-amvOpp5PU4Qwcve5L1tpO9JXfo2KkIz6PX4) 图1是一本书转化为txt形式的，这样拿去预训练能行不？不行的话应该怎样处理？图2的预训练数据格式能否如此？我对比了下cc4_demo里的格式，也是你图2里的，然后我自己也构造了一份新的预训练数据集，但是预训练的时候一直提示我找不到数据样本 data_set.json中配置 "harry_potter_pt_zh": { "file_name": "harry_potter_pt_zh.json", "file_sha1": "", "columns": { "prompt": "text" } }, 训练参数 python src/train_bash.py \ 130 ↵ --stage...

预训练阶段，对书籍的处理有什么要求吗？比如，段落之间需要加\n吗，每条样本必须保持段落的完整吗，还是有截断也行呢？

> > > @1737686924 你的预训练数据是必须手动按回车才算一行，如果一段话连在一起是不是就不算一行，并且还要注意一行的长度不能超过待训练模型的最大toke是吗？ > > > > > > 图1![image](https://private-user-images.githubusercontent.com/156283920/314328141-41cd6eb3-afe0-4fd8-ad21-5fe8c0404bf9.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MTA5MDgzNzksIm5iZiI6MTcxMDkwODA3OSwicGF0aCI6Ii8xNTYyODM5MjAvMzE0MzI4MTQxLTQxY2Q2ZWIzLWFmZTAtNGZkOC1hZDIxLTVmZThjMDQwNGJmOS5wbmc_WC1BbXotQWxnb3JpdGhtPUFXUzQtSE1BQy1TSEEyNTYmWC1BbXotQ3JlZGVudGlhbD1BS0lBVkNPRFlMU0E1M1BRSzRaQSUyRjIwMjQwMzIwJTJGdXMtZWFzdC0xJTJGczMlMkZhd3M0X3JlcXVlc3QmWC1BbXotRGF0ZT0yMDI0MDMyMFQwNDE0MzlaJlgtQW16LUV4cGlyZXM9MzAwJlgtQW16LVNpZ25hdHVyZT1lYzYxNjg1MWUzOGYyMjc5ZDk2NzA2ZDM0N2JlNzVjNTljNzhkN2YxZjlmMmNiN2MzYjQ1ZWUyOGZjYTJjMWNiJlgtQW16LVNpZ25lZEhlYWRlcnM9aG9zdCZhY3Rvcl9pZD0wJmtleV9pZD0wJnJlcG9faWQ9MCJ9.uU21VrRdY2NgKCZ8yvuI3RC69ejv-iyjo_nduQ9JmCE) 图2![image](https://private-user-images.githubusercontent.com/156283920/314329875-f72eeb59-ac42-4d13-b71e-bca114cc190b.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MTA5MDgzNzksIm5iZiI6MTcxMDkwODA3OSwicGF0aCI6Ii8xNTYyODM5MjAvMzE0MzI5ODc1LWY3MmVlYjU5LWFjNDItNGQxMy1iNzFlLWJjYTExNGNjMTkwYi5wbmc_WC1BbXotQWxnb3JpdGhtPUFXUzQtSE1BQy1TSEEyNTYmWC1BbXotQ3JlZGVudGlhbD1BS0lBVkNPRFlMU0E1M1BRSzRaQSUyRjIwMjQwMzIwJTJGdXMtZWFzdC0xJTJGczMlMkZhd3M0X3JlcXVlc3QmWC1BbXotRGF0ZT0yMDI0MDMyMFQwNDE0MzlaJlgtQW16LUV4cGlyZXM9MzAwJlgtQW16LVNpZ25hdHVyZT01MWZlMzFlNTkzMTQ3OTlhNjljOWZkZjFhYzM3ZGYzNTRmZDUxYTNiZGI1ZDJmNTkwYzY1NDQ2NDdiNjUxMDdkJlgtQW16LVNpZ25lZEhlYWRlcnM9aG9zdCZhY3Rvcl9pZD0wJmtleV9pZD0wJnJlcG9faWQ9MCJ9.vPkMJGC-amvOpp5PU4Qwcve5L1tpO9JXfo2KkIz6PX4) 图1是一本书转化为txt形式的，这样拿去预训练能行不？不行的话应该怎样处理？图2的预训练数据格式能否如此？ > > 我对比了下cc4_demo里的格式，也是你图2里的，然后我自己也构造了一份新的预训练数据集，但是预训练的时候一直提示我找不到数据样本 > > data_set.json中配置 "harry_potter_pt_zh": { "file_name": "harry_potter_pt_zh.json", "file_sha1": "", "columns": { "prompt": "text"...

[BUG] Qwen-1.8-Chat，用llama.cpp量化为f16，然后推理回答错乱，请问1.8在llama.cpp还不支持吗？

我重新验证了下，因为llama.cpp在mac os默认开启了metal，然后llama.cpp编译的main推理时默认使用了mac os系统的显卡推理，就会出现回答看不懂的情况，但关闭macos的显卡推理，就回答一切正常，请官方也帮忙看看是不是有这个问题完整启动命令 ### 关闭mac os显卡推理，添加 -ngl 0参数 `./main -m ./models/Qwen-1_8B-Chat/ggml-model-q4_0.gguf -n 512 --color -i -cml -ngl 0 -f prompts/chat-with-qwen.txt` ![image](https://github.com/QwenLM/Qwen/assets/18082104/f4bf4c25-6d65-442c-8ec0-18bf8852fe86)

一句里面，丢字现象还是很严重，就像抽卡

> > 看了一眼,似乎是同一个函数,但是top_k默认值不同函数默认参数是20,web会指定成5,api用了默认值的20 > > 改完top_k后效果有提升吗？我打印了下config里的top_k，默认也是5，但是也有开头吞字的情况，这个有别的解决办法吗？

Docker is damaged and can’t be opened. You should move it to the Bin.

> I was able to get my Mac working again by doing the following: > > * NOTE: if you're stuck with the `"Docker" is damaged message`, popping up over...