OpenAI Alignment shows RL training yields broadly beneficial models

AnalysisPolicy

5 hours ago

OpenAI Alignment shows RL training yields broadly beneficial models

Training targeting beneficial behavior in realistic scenarios produces broad alignment improvements that generalize across domains and persist under adversarial pressure. The method shows robustness to adversarial attacks.

5 hours ago