通义千问2.5 | 声称性能全面赶超GPT-4 Turbo

来源:IT之家圈子:AI前沿 2024-05-10 13:45:08 428阅读 举报

阿里云发布了通义千问2.5版本,声称其模型性能已经全面超越了GPT-4 Turbo,成为地表上最强大的中文模型。

据报道,通盈千问2.5最新发布的规模达1100亿参数的模型,在多个基准测试中均表现出色,超越了Meta的Llama-3-70B模型,被认为是开源领域的新榜样。

与通义千问2.1版本相比,通义千问2.5在上述四个领域的能力分别提高了9%、16%、19%和10%,特别是在中文能力方面,更是一直保持领先地位。

开源领域最强大模型!阿里云发布通义千问2.5:全面赶超GPT-4 Turbo

在权威基准OpenCompass上,通用问答2.5的得分与GPT-4 Turbo并列,打破了这一基准在国内首次有大型模型取得如此显著成绩的先例。这不仅证明了通用问答2.5在中文环境下的出色表现,也展示了阿里云在人工智能领域的创新实力。

除了通用问答数据集TQA 2.5版本之外,阿里云最近还发布了全新的开源模型Qwen1.5-110B。这个模型拥有1100亿个参数,在MMLU、TheoremQA、GPQA等基准测试中均超越了Meta的Llama-3-70B模型,并且在HuggingFace发布的开源大型模型排行榜Open LLM Leaderboard上荣登榜首,进一步巩固了通用问答开源系列在行业中的领先地位。

通用多模态模型和专属能力模型在业界展现出了强大影响力。其中,通用问题视觉理解模型Qwen-VL-Max在多项多模态标准测试中超过了Gemini Ultra和GPT-4V,目前已被多家企业采用,并为各行各业带来了实际的帮助。

另外,有一个值得一提的亮点是通义千问代码大模型CodeQwen1.5-7B。该模型在HuggingFace的Big Code代码模型榜单中排名靠前,并且是中国用户规模最大的智能编码助手通义灵码的基础。


合作联络微:vapehome
链接:https://www.aiddithome.com/p/d040e3de97ab9.html
版权归原作者所有,未经允许请勿转载。若此文章存在违规行为,您可以点击 “举报”

登录 后发表评论
0条评论
还没有人评论过~