levishen comments

Results 9 comments of


                                            levishen

finetune的时候加上 --fp16报错，RuntimeError: expected scalar type Half but found Float

v100 finetune.py设置load_in_8bit=False，可以正常训练但是，推理的时候，会抱着个错误：RuntimeError: expected scalar type Half but found Float

反馈一个bug，关于Tokenizer

> > @ztxz16 请帮忙看看这个小问题 V100测试LLama: [ user: "Below is an instruction that describes a task. Write a response that appropriately completes the request. > > ### Instruction: > > Building...

chinese-llama-alpaca 模型 BUG

1. 通过在 response 接口中限制 max_length=400, 不会出现爆显存的情况了。 2. 但是生成的内容质量很差 ![image](https://github.com/ztxz16/fastllm/assets/26927385/7be28986-1123-4d55-8caa-92120e4dffc1)

使用楼主的代码测试我的硬件环境： cuda 11.2 gcc 7.5 v100 CmakeLists.txt 文件第20行修改为：set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -pthread --std=c++17 -O2") 测试速度如下： fp16 generate token number 2330 time consume 43.830317974090576 s 18.81129526785003 ms/token int4 generate token number 2200...

python版测试约13ms/tokens

> > 使用楼主的代码测试我的硬件环境： cuda 11.2 gcc 7.5 v100 CmakeLists.txt 文件第20行修改为：set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -pthread --std=c++17 -O2") > > 测试速度如下： fp16 generate token number 2330 time consume 43.830317974090576 s 18.81129526785003 ms/token >...

首token耗时

使用的模型是llama-7b

levishen

无监督训练为什么会有label呢？

finetune的时候加上 --fp16报错，RuntimeError: expected scalar type Half but found Float

反馈一个bug，关于Tokenizer

cmake .. -DUSE_CUDA=ON ERROR

chinese-llama-alpaca 模型 BUG

chinese-llama-alpaca 模型 BUG

python版测试约13ms/tokens

python版测试约13ms/tokens

首token耗时