Sparse MoE reward models enable personalized preference modeling

AnalysisAI Models

7 days ago

Sparse MoE reward models enable personalized preference modeling

The paper introduces a Sparse Mixture-of-Experts reward model that learns specialized experts for diverse user preferences, aiming to overcome the limitations of universal reward functions in RLHF. It promises more interpretable and personalized alignment.

Large Language Models Should Learn Personalized Rather Than Aggregated Human Preferences2 days agoCristina Garbacea

Re-Centering Humans in LLM Personalization3 days agoLechen Zhang, Jiarui Liu, Tal August

Whose Norms? Disentangling Cultural and Personal Alignment in Large Language Models2 days agoAngana Borah, Isabelle Augenstein, Rada Mihalcea

PAFO: Pareto Fairness Optimization for Personalized Reward Modeling2 days agoXiaoyan Zhao, Haoting Ni, Yang Zhang, Chunyuan Zheng, Haoxuan Li, Fuli Feng

What Do People Actually Want From AI? Mapping Preference Plurality3 days agoJulia Sep\'ulveda Coelho, Scott A. Hale

7 days ago