bingyanghuang
bingyanghuang
Attached the baseline profile results: - FP32 with Gaowei's padding patch Event | Calls | Total | Min. | Max. | Ave. | Ratio. -- | -- | -- |...
1. FP32 ERNIE model and INT8 ERNIE model have slightly different on inputs numbers 2. INT8 optimized latency is slower than FP32 optimized latency because - elementwise_add takes a lot...
Schedule plan of ERNIE INT8 optimization: ERNIE INT8 Task | Status | Plan to Finish | Risk | Developer -- | -- | -- | -- | -- Accuracy check...
MKL-DNN 0.20 from paddle | | | -- | -- | -- | -- aef88b7c2 | | | **20 threads** | | | **Dimension** | **128x768x768** | **128x3072x768** | **128x768x3072**...
MKL-DNN master (v 1.1) | | | -- | -- | -- | -- 1ee831fa6a2f802de1d399fe1de4e6cc629ad855 | | | **20 threads** | | | **problem descriptor** | **128x768x768** | **128x3072x768** |...
@GaoWei8 Could you please paste your profile log of FP32 baseline in this issue? Let's try to align our baseline.
The latest FP32 results for the clean develop branch (c7b03d308c, Jan 2nd) on CLX 6248 4-dimensional input (fp32_model, test_ds): 1 thread profile: ``` I0103 04:47:21.063290 111775 inference.cc:354] Run 5010 samples,...
根据骆涛给出的paddle上的vtune log, 我们可以看到有一个主线程和两个子线程较忙:  在vtune的Bottom-up中我们可以看到,虽然起了非常多的thread,但是真正运行的只有前四个线程。(绿色为没有任务,褐色表示正忙,红色表示在等)  其中PID 8702和PID 8701对应的是我们第一张图中那两个较繁忙的子线程。 我们选择一段三个线程都较为繁忙的时间来查看具体某一个线程做了什么。 - 线程PID 8701 主要在feed data 对应data_feeder.py这个文件,其中有有些时间在等待,可以从彩色条形图里看到一些红色cpu spin time  - 线程PID 8702 这个线程主要在read data,对应pyramid_data_reader.py这个文件,同样可以看到有部分等待时间。  - 主线程 主线程基本在忙,主要在做memcpy,bllomfilter_get和CPUSearchPyramidHash  所以这个是训练的过程,是因为用了parallel...