CallmeZhangChenchen issues

Results 11 issues of


                                            CallmeZhangChenchen

请问这些文件如何更换

现在我手里面有一个带rk1808芯片的ununtu aarch64板子，不是计算棒，也不是rk3399，是一个厂家集成的（厂家领导不说），现在需要升级一下驱动的版本。我已经把/driver/linux-aarch64/usr/*下面的文件放到了板子的文件下面发现在pc上进行预编译还是不行，RKNNAPI: rknn_init, driver open fail! ret = -9(ERROR_PIPE)! Exception: RKNN init failed. error code: RKNN_ERR_DEVICE_UNAVAILABLE，会报这样的错误，查看文档，我好像需要输入这样的命令 dmesg | grep -i galcore 查询 NPU 驱动版本结果我的什么输出都没有，就算是说我的板子开机启动的时候根本没有启动npu driver 所以感觉上应该是rknpu文件夹下面一些ko文件的缘故，所以相文以下...

结果跟原版Darknet有出入

测试了一张bmp图片，结果跟原版darknet有出入，有些时候得分不能精确到小数点后一位，使用的为 yolodet::RUN_MODE::FLOAT32; 不太确定是您这个工程里面使用了什么策略，还是Darknet 框架本身并不稳定！

GPU算力占用，多Batch

代码跑起来速度很快，很赞。但是GPU算力占用100%，代码风格很好，但是能不能教一下多Batch代码应该怎么改哈哈，不是不想改，是改了，改得面目全非

请问一下谁可以共享一下在config.enable_cuda_graph = True的情况下切换Lora已经可用的Demo嘛

不是我懒，而是我研究了好几天没做出来 config.enable_cuda_graph = True的情况下 sd1.5推理只需要700ms， config.enable_cuda_graph = False的情况下 sd1.5推理需要3s，所以必须要有一种config.enable_cuda_graph = True的情况下，可行的切换Lora的解决方案 ``` def update_state_dict(dst, src): for key, value in src.items(): dst[key].copy_(value) ``` README里面的切换Lora的代码，有好多疑问，不同的Lora结构不一样，dst与src里面的key的名字貌似不一样，它是如何copy_的貌似只有用同一套代码训练的同样结构的Lora才能切换成功 TODO：我将做一些尝试，依据现有代码，共享指针，只需要替换底层数据，深入研究一下Lora的原理，提供一个可行的切换Lora的PR

convert qwen 110b gptq checkpoint的时候，qkv_bias 的shape不能被3整除

![094c99ee1cd6bcfd56a550c1a68d80c2](https://github.com/NVIDIA/TensorRT-LLM/assets/57712520/4cb57a97-bee3-4bc6-ab09-e6779f0fda76)

支持 sd3

1. 支持sd3 2. T5模块 text_encoder_3 不能使用sfast，优化的代码不会debug，出来的结果全为nan，所以现在直接这样写的 m.text_encoder_3.forward = m.text_encoder_3.forward 3. SCHEDULER 设置为 FlowMatchEulerDiscreteScheduler 4. config.enable_xformers = True 需要关闭xformers，要不跑不通，维度对不齐 5. 希望指条明路，方便去debug T5 以及 xformers

infer_request.exec() run slowly

**Description** infer_request.exec() run slowly **Triton Information** nvcr.io/nvidia/tritonserver:24.05-py3 **To Reproduce** ```shell /usr/src/tensorrt/bin/trtexec --onnx=test_static.onnx --builderOptimizationLevel=5 --useCudaGraph --noDataTransfers --useSpinWait --fp16 --saveEngine=test.engine ``` GPU latency ```shell [07/04/2024-01:59:40] [I] Average on 10 runs - GPU...

TensorRT 10.3 is 3+ times slower than p ytorch when running inference on Gpus A30 and 4090

## Description Under the same conditions, my model inference speed tensort is several times slower than pytorch ## Environment **TensorRT Version**: TensorRT.trtexec [TensorRT v100300] **NVIDIA GPU**: A30 & 4090 **NVIDIA...

Performance

triaged

internal-bug-tracked

About cuLibraryLoadFromFile

Hi! Thank you for your great work. Do you have a call method with this function? It seems to be used in a different way in the warehouse. That's all...

Sampler gets all tokens

the Sampler compute in this project, need all the generated tokens ``` class Sampler(nn.Module): def __init__(self): super().__init__() self.use_nan_detectioin = global_server_args_dict["enable_nan_detection"] def forward( self, logits_output: LogitsProcessorOutput, sampling_info: SamplingBatchInfo, return_logprob: bool, top_logprobs_nums:...