Shaohon Chen
Shaohon Chen
## 🤪 Features description [Please make everyone to understand it] 对于一些常见的超参数or指标,比如epoch,batchsize等,我们是否有可能构建一些专用的接口来展示呢。 ## 👍 What problem does this feature solve 比如针对epoch,我们可以做成进度条而非现在只能用折线图来记录
## 🐛 Bug description [Please make everyone to understand it] `swanlab task list`命令在win11的命令提示符或者powershell中会出现显示抖动问题。等到右下方 Log Messages 刷新到最大时会消失。目前推测是因为 Log Messages 的框的刷新方式会导致抖动。 https://github.com/user-attachments/assets/53f350b8-09f0-4414-877a-6d8b599d7235
## 🐛 Bug description [Please make everyone to understand it] 在windows上进行单元测试时会出现temp文件占用问题,在MAC上测试未发现这个问题 推测原因是`test\unit\conftest.py`中setup_each函数删除时,上一个进程未完全执行完成或者资源未完成释放造成的。 ## 🧑💻 Step to reproduce ``` =========================================================== short test summary info =========================================================== ERROR test/unit/log/test_log.py::TestSwanLogInstall::test_write_logging_to_file - PermissionError: [WinError 32]...
SwanLab在进行性能监控时, 能否增加以下磁盘相关功能: * 磁盘用量监控,到90%左右报警,防止训练到一半磁盘占满无法保存checkpoints * 磁盘传输极限监控,许多服务器的磁盘带宽不足,会导致训练速度变慢,建议监控起来
按照官方文档给出的mmengine实现,增强mm系列框架的datasample能力 参考链接https://mmengine.readthedocs.io/zh-cn/latest/advanced_tutorials/visualization.html#id7
@jingyaogong 感谢作者的开源工作!堪称小模型领域的奇迹😂 我希望增加[SwanLab](https://github.com/swanhubx/swanlab)作为模型的训练参数可视化工具,国内使用起来网络环境会好一些。SwanLab不仅支持在线的训练看板也支持在训练服务器无法联网时使用离线看板模式。此外为了记录不同超参数对于模型训练产生的影响,我在SwanLab中增加了超参数可视化模块。下面是目前运行的效果: 我已将我的训练日志开放出来,可以通过[此链接访问](https://swanlab.cn/@ShaohonChen/MiniMind-Pretrain/runs/crjbsb09ksdk5s30y4p83/chart)
感谢DeepSeek团队优秀的工作! 我在阅读HuggingFace上DeepSeek-V3模型的代码时,发现在`modeling_deepseek.py`中DeepseekV3PreTrainedModel类中声明了支持`supports_gradient_checkpointing = True`,但是在DeepseekV3Model类中似乎默认关闭了gradient checkpointing. (1372行)代码的切片如下: ```python class DeepseekV3Model(DeepseekV3PreTrainedModel): """ Transformer decoder consisting of *config.num_hidden_layers* layers. Each layer is a [`DeepseekV3DecoderLayer`] Args: config: DeepseekV3Config """ def __init__(self, config: DeepseekV3Config): super().__init__(config)...
在使用Evalscope时,无法完整记录Percentile results。 ⬇️终端打印的信息  ⬇️使用SwanLab的log记录打印的信息  ⬇️使用WandB记录的信息 