阿里发布通义千问2.5，号称赶超GPT-4 Turbo

2024-05-24 17:56:41玩技站长

玩技站长

管理员, Keymaster

关注

7170
文章

1
粉丝

科技圈子评论92字数 418阅读1分23秒阅读模式

摘要阿里云在 2024 年 5 月 9 日正式发布了通义千问 2.5。该版本在模型性能上全面超越了 GPT-4Turbo，成为地表最强中文大模型。

阿里云在 2024 年 5 月 9 日正式发布了通义千问 2.5。该版本在模型性能上全面超越了 GPT-4Turbo，成为地表最强中文大模型。此外，通义千问最新开源的 1100 亿参数模型在多个基准测评中收获最佳成绩，超越 Meta 的 Llama-3-70B，成为开源领域最强大模型。

阿里发布通义千问2.5，号称赶超GPT-4 Turbo

性能提升

相比于之前的通义千问 2.1 版本，通义千问 2.5 在理解能力、逻辑推理、指令遵循、代码能力等方面分别提升了 9%、16%、19%、10%，其中文能力更是持续领先业界。在权威基准 OpenCompass 上，通义千问 2.5 的得分追平了 GPT-4Turbo，这是该基准首次录得国产大模型取得如此出色的成绩。

开源模型

除了通义千问 2.5 之外，阿里云还发布了 1100 亿参数的开源模型 Qwen1.5-110B。该模型在 MMLU、TheoremQA、GPQA 等基准测评中超越了 Meta 的 Llama-3-70B 模型，并在 HuggingFace 推出的开源大模型排行榜 OpenLLMLeaderboard 上冲上了榜首，这再次证明了通义开源系列业界最强的竞争力。

多模态模型和专有能力模型

通义的多模态模型和专有能力模型也具备业界顶尖影响力。例如，通义千问视觉理解模型 Qwen-VL-Max 在多个多模态标准测试中超越了 GeminiUltra 和 GPT-4V，目前已在多家企业落地应用。此外，通义千问代码大模型 CodeQwen1.5-7B 则是 HuggingFace 代码模型榜单 BigCode 的头名选手，还是国内用户规模第一的智能编码助手通义灵码的底座。

测试交流

测试分享

百科知识

经验总结

阿里发布通义千问2.5，号称赶超GPT-4 Turbo

性能提升

开源模型

多模态模型和专有能力模型

发表评论