CallmeZhangChenchen
CallmeZhangChenchen
现在我手里面有一个带rk1808芯片的ununtu aarch64板子,不是计算棒,也不是rk3399,是一个厂家集成的(厂家领导不说),现在需要升级一下驱动的版本。 我已经把/driver/linux-aarch64/usr/*下面的文件放到了 板子的文件下面发现在pc上进行预编译还是不行,RKNNAPI: rknn_init, driver open fail! ret = -9(ERROR_PIPE)! Exception: RKNN init failed. error code: RKNN_ERR_DEVICE_UNAVAILABLE,会报这样的错误, 查看文档,我好像需要输入这样的命令 dmesg | grep -i galcore 查询 NPU 驱动版本 结果我的什么输出都没有,就算是说我的板子开机启动的时候根本没有启动npu driver 所以感觉上应该是rknpu文件夹下面一些ko文件的缘故,所以相文以下...
测试了一张bmp图片 ,结果跟原版darknet有出入,有些时候得分不能精确到小数点后一位, 使用的为 yolodet::RUN_MODE::FLOAT32; 不太确定是您这个工程里面使用了什么策略,还是Darknet 框架本身并不稳定!
代码跑起来速度很快,很赞。 但是GPU算力占用100%, 代码风格很好,但是能不能教一下多Batch代码应该怎么改 哈哈,不是不想改,是改了,改得面目全非
不是我懒,而是我研究了好几天没做出来 config.enable_cuda_graph = True的情况下 sd1.5推理只需要700ms, config.enable_cuda_graph = False的情况下 sd1.5推理需要3s, 所以必须要有一种config.enable_cuda_graph = True的情况下 ,可行的切换Lora的解决方案 ``` def update_state_dict(dst, src): for key, value in src.items(): dst[key].copy_(value) ``` README里面的切换Lora的代码,有好多疑问,不同的Lora结构不一样,dst与src里面的key的名字貌似不一样,它是如何copy_的 貌似只有用同一套代码训练的同样结构的Lora才能切换成功 TODO:我将做一些尝试,依据现有代码,共享指针,只需要替换底层数据,深入研究一下Lora的原理,提供一个可行的切换Lora的PR

支持 sd3
1. 支持sd3 2. T5模块 text_encoder_3 不能使用sfast,优化的代码不会debug,出来的结果全为nan,所以现在 直接这样写的 m.text_encoder_3.forward = m.text_encoder_3.forward 3. SCHEDULER 设置为 FlowMatchEulerDiscreteScheduler 4. config.enable_xformers = True 需要关闭xformers,要不跑不通,维度对不齐 5. 希望指条明路,方便去debug T5 以及 xformers
**Description** infer_request.exec() run slowly **Triton Information** nvcr.io/nvidia/tritonserver:24.05-py3 **To Reproduce** ```shell /usr/src/tensorrt/bin/trtexec --onnx=test_static.onnx --builderOptimizationLevel=5 --useCudaGraph --noDataTransfers --useSpinWait --fp16 --saveEngine=test.engine ``` GPU latency ```shell [07/04/2024-01:59:40] [I] Average on 10 runs - GPU...
## Description Under the same conditions, my model inference speed tensort is several times slower than pytorch ## Environment **TensorRT Version**: TensorRT.trtexec [TensorRT v100300] **NVIDIA GPU**: A30 & 4090 **NVIDIA...
Hi! Thank you for your great work. Do you have a call method with this function? It seems to be used in a different way in the warehouse. That's all...
the Sampler compute in this project, need all the generated tokens ``` class Sampler(nn.Module): def __init__(self): super().__init__() self.use_nan_detectioin = global_server_args_dict["enable_nan_detection"] def forward( self, logits_output: LogitsProcessorOutput, sampling_info: SamplingBatchInfo, return_logprob: bool, top_logprobs_nums:...