MOSS-Audio: Unified audio-language model for speech, sound, music

AnalysisAI ModelsMusic

9 days ago

MOSS-Audio: Unified audio-language model for speech, sound, music

The MOSS-Audio technical report presents a unified audio-language model for speech, environmental sound, and music understanding. It supports audio captioning, time-aware question answering, timestamped transcription, and audio-grounded reasoning.

MOSS-Audio Technical Report8 days agoChen Yang, Chufan Yu, Hanfu Chen, Jie Zhu, Jingqi Chen, Ke Chen, Wenxuan Wang, Yang Wang, Yaozhou Jiang, Yi Jiang, Zhengyuan Lin, Ziqi Chen, Zhaoye Fei, Chenghao Liu, Jun Zhan, Kang Yu, Kexin Huang, Mingshu Chen, Qinyuan Cheng, Ruixiao Li, Shimin Li, Songl

Probing Spatial Structure in Pretrained Audio Representations6 days agoChuyang Chen, Sivan Ding, Adrian S. Roman, Juan Pablo Bello

Foley-Omni: A Unified Multimodal Generation Model from Task-Level Audio Synthesis to Complete Video Soundtrack Generation8 days agoYe Tao, Lupeng Liu, Xuenan Xu, Jiasun Feng, Jiarui Wang, Ying Qin, Shuiyang Mao, Wei Liu, Shuai Wang

Audio Interaction Model7 days agoZhifei Xie, Zihang Liu, Ze An, Xiaobin Hu, Yue Liao, Ziyang Ma, Dongchao Yang, Mingbao Lin, Deheng Ye, Shuicheng Yan, Chunyan Miao

USAD 2.0: Scaling Representation Distillation for Universal Audio Understanding6 days agoHeng-Jui Chang, Alexander H. Liu, Saurabhchand Bhati, Mrudula Athi, Anton Ratnarajah, Amit Chhetri, James Glass

EntangleCodec: A Unified Discrete Audio Tokenizer via Semantic-Acoustic Entanglement8 days agoHui Li, Yangfan Gao, Junlin Shang, Changhao Jiang, Tao Gui, Qi Zhang, Xuanjing Huang

SpeechJBB: Probing Safety Alignment and Comprehension in Large Audio Language Models under Code-Switched Speech6 days agoVirginia Ceccatelli, Yejin Jeon, David Ifeoluwa Adelani

Echo: A Joint-Embedding Predictive Architecture for Speaker Diarization and Speech Recognition in a Shared Latent Space8 days agoLouis Mouchon

F3-Tokenizer: Taming Audio Autoencoder Latents for Understanding and Generation6 days agoDinghao Zhou, Xingchen Song, Di Wu, Pengyu Cheng, Shengfan Shen, Sixiang Lv

UNISON: A Unified Sound Generation and Editing Framework via Deep LLM Fusion8 days agoZhaoqing Li, Haoning Xu, Jingran Su, Yaofang Liu, Zhefan Rao, Huimeng Wang, Jiajun Deng, Tianzi Wang, Zengrui Jin, Rui Liu, Haoxuan Che, Xunying Liu

Omni-Embed-Audio: Leveraging Multimodal LLMs for Robust Audio-Text Retrieval8 days agoHaeJun Yoo, Yongseop Shin, Insung Lee, Myoung-Wan Koo, Du-Seong Chang

LaSR: Context-Aware Speech Recognition via Latent Reasoning8 days agoHeyang Liu, Ziyang Cheng, Jiayi Huang, Wenyang Xiao, Ronghua Wu, Qunshan Gu, Yanfeng Wang, Yu Wang

UniVocal: Unified Speech-Singing Code-Switching Synthesis8 days agoYufei Shi, Qian Chen, Wen Wang, Xiangang Li, Zhen-Hua Ling, Yang Ai

Beyond Text Following: Repairable Arbitration Reversals in Audio-Language Models7 days agoYichen Gao, Yiqun Zhang, Zijing Wang, Yujia Li, Heng Guo, Xi Wu, Xiaocui Yang, Shi Feng, Yifei Zhang, Daling Wang

9 days ago