Experiment

Overview Baseline Models

Music-to-Text Evaluations

Text-to-Music Evaluations Results

$Dataset$	$Model$	${FAD}_{V}^{MC} ↓$	${FAD}_{V}^{FMA} ↓$	${FAD}_{M}^{FMA} ↓$	${FAD}_{E}^{FMA} ↓$	$KLD ↓$	$Vendi ↑$	$CS ↑$
$MusicCaps$	$MusicLM$	$5.70$	$21.57$	$87.39$	$249.72$	$1.79$	$\underset{―}{1.55}$	$0.28$
$MusicCaps$	$Stable Audio$	$6.97$	$15.60$	$82.21$	$377.02$	$1.90$	$1.31$	$\underset{―}{0.31}$
$MusicCaps$	$MusicGen$	$7.03$	$\underset{―}{16.29}$	$73.22$	$354.07$	$\underset{―}{0.90}$	$1.57$	$0.29$
$MusicCaps$	$AudioLDM 2$	$\underset{―}{3.29}$	$19.31$	$\underset{―}{60.02}$	$\underset{―}{202.11}$	$0.61$	$1.57$	$0.36$
$MusicCaps$	$Mustango$	$1.27$	$22.96$	$55.84$	$161.47$	$1.51$	$1.48$	$0.27$
$MusicCaps$	$Mureka$	$9.45$	$-$	$-$	$-$	$-$	$-$	$-$
$SongDescriber$	$MusicLM$	$7.20$	$20.59$	$87.12$	$241.95$	$0.89$	$1.49$	$0.28$
$SongDescriber$	$Stable Audio$	$4.42$	$14.90$	$79.16$	$341.92$	$1.07$	$1.29$	$0.31$
$SongDescriber$	$MusicGen$	$2.64$	$\underset{―}{14.60}$	$65.74$	$354.07$	$\underset{―}{0.66}$	$1.50$	$0.35$
$SongDescriber$	$AudioLDM 2$	$2.74$	$17.19$	$57.88$	$184.03$	$0.62$	$\underset{―}{1.48}$	$\underset{―}{0.34}$
$SongDescriber$	$Mustango$	$2.58$	$18.50$	$\underset{―}{56.69}$	$\underset{―}{170.27}$	$1.48$	$1.46$	$0.29$
$SongDescriber$	$Mureka$	$2.42$	$9.85$	$35.58$	$47.84$	$1.38$	$1.38$	$0.23$
$MusicSem (Ours)$	$MusicLM$	$7.25$	$22.57$	$86.97$	$248.42$	$1.00$	$\underset{―}{1.46}$	$0.27$
$MusicSem (Ours)$	$Stable Audio$	$5.50$	$14.96$	$79.35$	$342.53$	$1.15$	$1.28$	$0.31$
$MusicSem (Ours)$	$MusicGen$	$3.75$	$\underset{―}{14.67}$	$68.11$	$229.29$	$\underset{―}{1.74}$	$1.50$	$\underset{―}{0.30}$
$MusicSem (Ours)$	$AudioLDM 2$	$\underset{―}{3.47}$	$17.66$	$57.71$	$181.11$	$0.55$	$1.46$	$0.28$
$MusicSem (Ours)$	$Mustango$	$5.06$	$19.15$	$\underset{―}{55.11}$	$\underset{―}{157.32}$	$1.46$	$1.41$	$0.20$
$MusicSem (Ours)$	$Mureka$	$2.70$	$9.69$	$34.75$	$44.75$	$1.40$	$1.33$	$0.18$

Inference Latency For T2M Models

Retrieval Eval

CLAP Score Sensitivity Tests

Category	Metric	Score
Descriptive	$C^{d}$	0.55
Atmospheric	$C^{a}$	0.36
Situational	$C^{s}$	0.32
Contextual	$C^{c}$	0.29
Metadata	$C^{m}$	0.36