CHASE: RL-based red-blue teaming for LLM safety

AnalysisPolicyAI Models

6 days ago

CHASE: RL-based red-blue teaming for LLM safety

Paper introduces CHASE, a framework using reinforcement learning for adversarial red-blue teaming to generate prompt-rewriting attacks like persona modulation. Experiments show it improves safety alignment against such bypass attacks on frontier models.

6 days ago