nihui comments

Results 477 comments of


                                            nihui

pnnx转换模型，pnnx模型输出与torch 原模型输出不一致

已确认 pnnx 在折叠常量过程中没有考虑 slice tensor 的情形

NaN on ARM FP16, but Successful on x86_64 Linux

Hi, please provide the problematic model files (param and bin) You can also extract the intermediate blobs and observe which operator caused the NaN result

armv7 平台上ncnn推理速度比onnxruntime慢

请提供ncnn模型的 param 内容

在PNNX中新增Attention的融合逻辑失败

``` torch.unbind op_3 1 3 4 5 6 7 dim=0 ``` 这里的输出 5 没有使用到？

Android下的build，为什么默认关闭exception呢？

关闭exception能减小二进制体积

Android下的build，为什么默认关闭exception呢？

> > 关闭exception能减小二进制体积 > > 好的，性能没有影响吧？建议跑模型实际测试下 ncnn编译时可以通过 cmake `-DNCNN_DISABLE_RTTI=OFF -DNCNN_DISABLE_EXCEPTION=OFF` 控制是否开启 rtti/exception

鲲鹏920环境，yolov8n模型int8量化速度比默认的fp16慢了50%

yolov8 激活层使用 relu / leakyrelu 会变快些，swish 无法量化，退回fp16计算导致更大的 overhead

> > > > NCNN的GPU推理是基于vulkan的，可能是你的P40的驱动不支持vulkan导致可以通过vulkaninfo命令查看vulkan识别到的设备 > > > > > > > > > vulkaninfo 也只能看到一个GPU，那这样的话是不是无解了 > > > ================= VK_LAYER_NV_optimus (NVIDIA Optimus layer) Vulkan version 1.3.277, layer version...

[WIP] rnn/lstm/gru dynamic quantization

```python import torch import torch.nn as nn import torch.nn.functional as F import pnnx class Model(nn.Module): def __init__(self): super(Model, self).__init__() self.rnn = nn.RNN(input_size=256, hidden_size=256, num_layers=30) self.lstm = nn.LSTM(input_size=256, hidden_size=256, num_layers=30) self.gru...

nihui

是否支持在国产化电脑上部署ncnn呢？比如麒麟、统信

pnnx转换模型，pnnx模型输出与torch 原模型输出不一致

NaN on ARM FP16, but Successful on x86_64 Linux

armv7 平台上ncnn推理速度比onnxruntime慢

在PNNX中新增Attention的融合逻辑失败

Android下的build，为什么默认关闭exception呢？

Android下的build，为什么默认关闭exception呢？

鲲鹏920环境，yolov8n模型int8量化速度比默认的fp16慢了50%

我有3个GPU，但get_gpu_count()=1

[WIP] rnn/lstm/gru dynamic quantization