DeepSeek-R1-FineTuning
DeepSeek-R1-FineTuning copied to clipboard

Published 11 months ago •

→

Fine-Tuning of DeepSeek-Style Reasoning Models | RL + Quantization Implementation

Finetune Deepseek_R1_8b on _QuantumMechanics Dataset

Demo NoteBook

Fine-Tuning of DeepSeek-Style Reasoning Models | RL + Quantization Implementation

reinforcement-learning

lora

qlora

unsloth

deepseek-r1

Stars

Forks

Watchers

Stars

Forks

Watchers

Fine-Tuning of DeepSeek-Style Reasoning Models | RL + Quantization Implementation