Trajectory-Aware RL for Diffusion Language Models

AnalysisAI Models

7 days ago

Trajectory-Aware RL for Diffusion Language Models

Proposes trajectory-aware reinforcement learning method for diffusion language models, using the denoising trace (confidence dynamics of tokens) to guide policy updates. The approach leverages the iterative unmasking process to improve generation quality beyond standard policy gradient methods.

WaveFilter: Enhancing the Long-Context Capability of Diffusion LLMs via Wavelet-Guided KV Cache Filtering8 days agoJinnan Yang, Yan Wang, Zhen Bi, Kehao Wu, Xiaojie Li, Jungang Lou, Zechao Li, Jing Liu

FAIR-Calib: Frontier-Aware Instability-Reweighted Calibration for Post-Training Quantization of Diffusion Large Language Models3 days agoHaoyu Huang, Linlin Yang, Sheng Xu, Boyu Liu, Guodong Guo, Zhongqian Fu, Hang Zhou, Baochang Zhang

ScaleSweep: Accurate NVFP4 Post-Training Quantization of LLMs via Block Scale Initialization2 days agoLi Lin, Xiaojun Wan

Rethinking LoRA Memory Through the Lens of KV Cache Compression5 days agoChunsheng Zuo, Liaoyaqi Wang, William Jurayj, William Fleshman, Benjamin Van Durme

Beyond Output Matching: Preserving Internal Geometry in NVFP4 LLM Distillatio6 days agoFangbo Tu, Junhua Zhao, Chi Liu, Xin Chen, Haifeng Wu, Jian Wan, Srinivasan Manoharan

Chatterbox-Flash: Prior-Calibrated Block Diffusion for Streaming Zero-Shot TTS9 days agoDeokjin Seo, Gangin Park, Kihyun Nam

TAPS: Target-Aware Prefix Tree Selection for Diffusion-Drafted Speculative Decoding8 days agoZhuoyu Wang, Junnan Huang, Xinyu Chen

Fast-dLLM++: Fr\'{e}chet Profile Decoding for Faster Diffusion LLM Inference8 days agoSiva Rajesh Kasa, Yasong Dai, Sumit Negi, Hongdong Li

SENSE: Semantic Embedding Navigation with Soft-gated Evaluation for Retrieval-based Speculative Decoding8 days agoShaowen Chen, Zhicheng Liao, Hongwei Wang

Experience-Driven Dynamic Exits for LLMs with Reinforcement Learning8 days agoYanyu Zhu, Hoilam Pao, Niu Hu, Wei Guo, Shaoxiong Zhan, Boyu Lai, Zitai Wang, Yongqin Zeng, Hai-Tao Zheng

Threshold-Based Exclusive Batching for LLM Inference8 days agoWeifang Zhang, Yuzhou Nie, Bowen Pang, Guangrui Ma, Shining Wu

BudgetDraft: Acceptance-Aware Multi-View Training for Sparse-KV Speculative Decoding8 days agoLiang He, Jingbo Wen, Qishi Zhan, Yixiong Chen, Kangning Cui, Qizhen Lan, Xilu Wang

Dynamic Infilling Anchors for Format-Constrained Generation in Diffusion Large Language Models7 days agoBoyan Han, Yiwei Wang, Yi Song, Yujun Cai, Chi Zhang

Supportive Token Revealing for Fast Diffusion Language Model Decoding7 days agoGiries Abu Ayoub, Mario Barbara, Llu\'is Pastor-P\'erez, Tanja Bien, Aneesh Barthakur, Alaa Maalouf, Loay Mualem

7 days ago