BAPO
BAPO copied to clipboard

Published 3 months ago •

→

Metadata

Codes for the paper "BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping" by Zhiheng Xi et al.

Reame
Issues

Results 0 BAPO issues

Sort by recently updated

About

Codes for the paper "BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping" by Zhiheng Xi et al.

reasoning

llm

rlvr

Stars

Forks

Watchers

Owner

WooooDyy

← Metadata

Stars

Forks

Watchers

Owner

WooooDyy

Metadata

Codes for the paper "BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping" by Zhiheng Xi et al.

Back

BAPO BAPO copied to clipboard

Metadata

← Metadata

Owner

Metadata

BAPO
BAPO copied to clipboard