7B 小模子 +3.8 万条试验数据开云体育(中国)官方网站,就能让音频理会和推断评测基准 MMAU 榜单王座易主?
受到 DeepSeek-R1 中强化学习算法的启发,小米大模子团队对阿里的 Qwen2-Audio-7B 模子进行了微调。
搁置模子在 MMAU 上的准确率从 49.2% 升迁到了 64.5%(涨幅 31%),比曩昔霸榜的 GPT-4o 还逾越近 10 个百分点。
MMAU 是一个由一万条涵盖语音、环境声和音乐的音频样本组成的评测基准,难度十分高,东谈主类大家的得益为 82.2%。

来自阿里的Qwen2-Audio-7B模子在此评测集上的准确率为 49.2%,经小米大模子团队用清华大学发布的 AVQA 数据集,使用 SFT 微调后升迁到了 51.8%。
这么的升迁并不较着,而当小米团队遴荐改用 DeepSeek-R1 的 GRPO 算法时,发现获取了巨大的性能升迁,一举达到了 MMAU 的新 SOTA。
当今,小米大模子团队照旧把试验代码、模子参数开源,并提供了本事施展、在线 Demo。

7B 小模子拿下 MMAU 榜单 SOTA
如前所述,小米大模子团队通过 SFT,使用清华 AVQA 数据集对遴荐了来自阿里的 Qwen2-Audio-7B 进行了微调,得益升迁了 2.6 个百分点。
直到 DeepSeek-R1 的发布,为小米在该项任务上的探讨带来了启发。
DeepSeek-R1 的 Group Relative Policy Optimization(GRPO)设施,让模子仅通过"试错 - 奖励"机制就能使自主进化,败泄露近似东谈主类的反念念、多步考据等推明智商。
在并吞时期,卡内基梅隆大学发布的预印本论文(arxiv:2503.01067),通过小巧的实验得出了一个意念念的论断:
当任务存在较着的生成 - 考据差距(Generation-Verification Gap),即任务生成搁置的难度弘大于考据搁置正确性的难度时,强化学习比起有监督微调具有特有上风。
而 AQA 任务,偶合是完满的生成 - 考据差距显贵的任务。
离线微调设施,如 SFT,有点像背题库,你只可把柄已有的题目和谜底试验,但遭逢新题可能不会作念;
而强化学习设施,如 GRPO,像真诚在条款你多想几个谜底,然后真诚告诉你哪一个谜底好,让你主动念念考,引发出自己的智商,而不是被"填鸭式"教训。
虽然,若是试验量饱和,比如有学生忻悦花许多年的时期来死记硬背题库,也许最终也能达到可以的效劳,但效劳太低,阔绰太多时期。
而主动念念考,更容易快速地达到举一反三的效劳。强化学习的实时响应可能会匡助模子更快锁定高质地谜底的散播区域,而离线设施需要遍历统共可能性空间,效劳要低得多。
基于上述细察,小米尝试将 DeepSeek-R1 的 GRPO 算法挪动到 Qwen2-Audio-7B 模子上。
令东谈主惊喜的是,在仅使用 AVQA 的 3.8 万条试验样本的情况下,强化学习微调后的模子在 MMAU 评测集上杀青了 64.5% 的准确率,这一得益比当今榜单上第别称的营业闭源模子 GPT-4o 有近 10 个百分点的上风。
意念念的是,若是在试验中强制条款模子输出包含 thinking 标签的推理经由时,准确率反而下落至 61.1%。这说较着式的念念维链搁置输出可能并不利于模子的试验。
小米大模子团队的实验揭示了几个和传统贯通不同的论断:
对于微调设施:强化学习在 3.8 万条数据集上的发扬,显贵越过监督学习在 57 万条数据集上的搁置;
对于参数范畴:比拟千亿级模子,7B 参数的模子通过强化学习也可展现强推明智商;
对于隐式推理:显式念念维链输出反而成为性能瓶颈。
尽管现时准确率已打破 64%,但距离东谈主类大家 82% 的水平仍有差距。
小米大模子团队暗示,在现时的实验中,强化学习政策照旧比较粗鄙,试验经由对念念维链的指导并不充分,咱们会在后续作念进一步探索。
这次实验考据了强化学习在音频理会和判断规模的特有价值,也为后续探讨大开了一扇新的大门。
小米团队期待,当机器不仅能"听见"声息,还能"听懂"声息背后的因果逻辑时,实在的智能听觉时期将会降临。
东谈主类大家准确率 82.23%
MMAU(Massive Multi-Task Audio Understanding and Reasoning)评测集由好意思国马里兰大学和 Adobe 的探讨东谈主员于昨年聚合坑诰,是音频理会和推断智商的量化标尺。
它通过一万条涵盖语音、环境声和音乐的音频样本,结合东谈主类大家标注的问答对,测试模子在 27 种手段,如跨场景推理、专科常识等运用上的发扬,盼愿模子达到接近东谈主类大家的逻辑分析水平。
靠近一段汽车行驶中的座舱灌音,AI 能否判断出汽车是否存在潜在的故障?
在交响乐献艺现场,AI 能否臆测出作曲家创造这首音乐时的激情?
在早岑岭地铁站浩大的脚步声潮中,AI 能否预判闸机口可能发生的冲撞风险?

在大模子时期,东谈主们照旧不知足于机器只是识别言语的推行、声息的种类,更盼愿机器用备复杂的理会和判断智商,MMAU 权衡的等于这种智商。
这是一个很难的评测集,四肢基准上限,东谈主类大家在 MMAU 上的准确率为 82.23%。
当今 MMAU 官网榜单上发扬最佳的模子是 GPT-4o,准确率为 57.3%。紧随后来的是谷歌的 Gemini 2.0 Flash,准确率为 55.6%。
试验代码:
https://github.com/xiaomi-research/r1-aqa
模子参数:
https://huggingface.co/mispeech/r1-aqa
本事施展:
https://arxiv.org/abs/2503.11197
交互 Demo:
http://120.48.108.147:7860/
— 完 —
学术投稿请于使命日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿推行
附上论文 / 形貌主页讨好,以及掂量式样哦
咱们会(尽量)实时回报你

一键顺心 � � 点亮星标
科技前沿进展逐日见
一键三连「点赞」「转发」「着重心」
接待在批驳区留住你的倡导!开云体育(中国)官方网站
