VGGSounder: Audio-Visual Evaluations for Foundation Models

AnalysisAI Models

7 days ago

VGGSounder: Audio-Visual Evaluations for Foundation Models

Proposes VGGSounder, an evaluation methodology for audio-visual foundation models. It reveals that the VGGSound benchmark has significant labeling errors and ambiguities, affecting reliability of prior evaluations.

7 days ago