指日,超大范畴的 MoE 模子(羼杂专家模子)通义千问 Qwen2.5-Max 正式上线,通义千问团队运用抢先 20 万亿 token 的预练习数据及尽心打算的后练习计划实行练习。
通义千问团队展现,“这日,咱们很安笑能给行家分享 Qwen2.5-Max 目前所赢得的劳绩。行家能够正在Qwen Chat 直接体验,或是通过阿里云百炼平台移用 API 供职。”
同时,通义千问还将 Qwen2.5-Max 与业界当先的模子(无论是闭源如故开源)正在一系列广受体贴的基准测试进步行了比照评估。这些基准测试征求测试大学秤谌学问的 MMLU-Pro、评估编程才能的 LiveCodeBench,周全评估归纳才能的 LiveBench,以及近似人类偏好的 Arena-Hard。评估结果涵盖了基座模子和指令模子的机能得分。
起首,通义千问直接比照了指令模子的机能显露。指令模子即咱们泛泛运用的能够直接对话的模子。通义千问将 Qwen2.5-Max 与业界当先的模子(征求 DeepSeek V3、GPT-4o 和 Claude-3.5-Sonnet)的机能结果实行了比照。
通义千问的基座模子正在大大都基准测试中都表示出了明显的上风。“咱们信赖,跟着后练习身手的不竭提高,下一个版本的 Qwen2.5-Max 将会抵达更高的秤谌。”
通义千问展现,将不断提拔数据范畴和模子参数范畴或许有用提拔模子的智能秤谌。“接下来,咱们将不断研究,除了正在预练习的 scaling 一直研究表,将大举参加深化进修的 scaling,愿望能达成超越人类的智能,驱动 AI 研究未知之境。”