l241025097

Results 5 comments of l241025097

This error occurs when I use both --lora_rank and --grad_checkpoint. Either use --lora_rank or --grad_checkpoint.

我发现,通过DS_BUILD_OPS=1参数去build的话会失败,于是我逐个op的去build。 DS_BUILD_CPU_ADAM=1 DS_BUILD_FUSED_ADAM=1 DS_BUILD_FUSED_LAMB=1 DS_BUILD_SPARSE_ATTN=1 DS_BUILD_UTILS=1 DS_BUILD_AIO=1 这些op加上都能build成功,一旦加上DS_BUILD_TRANSFORMER、DS_BUILD_TRANSFORMER_INFERENCE、DS_BUILD_STOCHASTIC_TRANSFORMER等XX_TRANSFORMER的op就会报build失败,具体为什么失败也看不出来。 另外,执行single_gpu时能正常运行,但是执行single_node时报错,如下: [2023-05-02 10:11:48,598] [INFO] [logging.py:96:log_dist] [Rank 0] DeepSpeed info: version=0.9.2+b0d9c4d0, git-hash=b0d9c4d0, git-branch=master [2023-05-02 10:11:48,599] [INFO] [comm.py:616:init_distributed] Distributed backend already initialized [2023-05-02 10:11:49,907]...

> 我发现,通过DS_BUILD_OPS=1参数去build的话会失败,于是我逐个op的去build。 DS_BUILD_CPU_ADAM=1 DS_BUILD_FUSED_ADAM=1 DS_BUILD_FUSED_LAMB=1 DS_BUILD_SPARSE_ATTN=1 DS_BUILD_UTILS=1 DS_BUILD_AIO=1 这些op加上都能build成功,一旦加上DS_BUILD_TRANSFORMER、DS_BUILD_TRANSFORMER_INFERENCE、DS_BUILD_STOCHASTIC_TRANSFORMER等XX_TRANSFORMER的op就会报build失败,具体为什么失败也看不出来。 > > 另外,执行single_gpu时能正常运行,但是执行single_node时报错,如下: [2023-05-02 10:11:48,598] [INFO] [logging.py:96:log_dist] [Rank 0] DeepSpeed info: version=0.9.2+b0d9c4d0, git-hash=b0d9c4d0, git-branch=master [2023-05-02 10:11:48,599] [INFO] [comm.py:616:init_distributed] Distributed backend already...

mineru/cli/fast_api.py 源码修改:app = FastAPI(docs_url=None, redoc_url=None),不知道有没有影响。

分批处理大PDF:这些参数都加上了 调低并发和批量参数:这些参数都加上了 增加Docker内存限制:linux系统没有这个限制 监控GPU/CPU资源:cpu、内存占用不高,内存128g 开启debug日志:加--log-level debug,但是没有看到其他报错明细 升级MinerU版本:已经是2.6.4版本了 避免超大页或异常PDF结构:1.3.6版本的时候这个文档能够正常工作