2025 年 1 月 29 日凌晨,阿里云发布了通义千问旗舰版模型 Qwen2.5-Max。以下是关于该模型的详细介绍:
基准测试领先:在与目前领先的开源 MoE 模型 DeepSeek V3、最大的开源稠密模型 Llama-3.1-405B,以及 Qwen2.5-72B 的 11 项基准测试对比中,Qwen2.5-Max 全部超越了对比模型。
多项评测出色:在测试大学水平知识的 MMLU - Pro、评估编程能力的 LiveCodeBench、综合能力评估的 LiveBench,以及近似人类偏好的 Arena - Hard 等多个权威评测中,展现出与 DeepSeek V3、GPT-4 和 Claude-3.5-Sonnet 比肩,甚至领先的性能。
技术层面:是阿里云在 AI 领域的重要突破,展示了其在模型架构及训练理念上的深厚积累,尤其是对大规模数据处理和算法优化的创新,提升了模型的推理速度,增强了对复杂任务的处理能力。
行业层面:作为继 DeepSeek 之后的又一开源力量,为开源模型的发展注入新动力,或改变全球 AI 技术格局,推动行业进一步发展。
商业层面:阿里云采用开源策略,有利于吸引更多开发者使用,进而推动阿里云相关服务的应用,同时阿里巴巴股价也因新模型的发布一度涨超 7%,收涨 6.71%,体现了市场对其的认可