当前位置：首页 > 社会 > 正文内容

中文多模态理解榜单发布腾讯混元国内第一

admin8个月前 (08-07)社会145

腾讯混元大模型荣登中文多模态大模型榜首，引领国内AI技术新高度

8月2日，中文多模态大模型SuperCLUE-V基准8月榜单正式发布，腾讯混元大模型以其在多模态理解方面的卓越表现，一举夺得国内大模型排名第一的佳绩，稳居卓越领导者象限。此次评测涵盖了国内外最具代表性的12个多模态理解大模型，腾讯混元大模型在多模态基础能力和应用能力方面表现出色，获得总分71.95的高分，彰显了其在技术和应用层面的综合优势。

多模态理解，即“图生文”，要求模型能够准确识别图像元素并理解它们之间的关系，进而生成自然语言描述。这不仅考验图像识别的精确度，还体现了对场景的全面理解和对细节的深度洞察。本次评测通过开放式问题对多模态大模型进行全面评估，腾讯混元大模型在各项指标中均表现出色，尤其是在应用能力维度上，凭借对中文语境的深刻理解和在通用、常识、图像等多领域的综合能力，展现出巨大的实际应用潜力。

据SuperCLUE官方介绍，评估标准涵盖了理解准确性、回应相关性和推理深度等多个维度，打分规则结合了自动化定量评分与专家复核，确保了评估的科学性和公正性。评测结果显示，国内大模型在多模态理解的基础能力方面已经逼近海外顶尖模型，腾讯混元大模型更是凭借其强大的技术底座，成为国内领先的多模态理解模型。

腾讯公司副总裁蒋杰表示，多模态理解是腾讯混元大模型的“必答题”，目前正积极部署从多模态到全模态的技术，用户将很快在腾讯元宝App、腾讯内部业务及场景中体验到这一先进技术。同时，腾讯混元大模型还将通过腾讯云向外部应用开放，推动AI技术的广泛应用和发展。

依托腾讯混元大模型的技术支持，AI原生应用腾讯元宝在发布之初就具备了强大的多模态理解能力，无论是文档截图、人像风景、收银小票，还是任意一张随手拍的照片，元宝都能基于图中内容给出深入的理解和分析。腾讯混元大模型已扩展至万亿级参数规模，率先采用混合专家模型（MoE）结构，依托腾讯大语言模型的能力，不断提升多模态理解能力，达到国内领先水平。

此次腾讯混元大模型在SuperCLUE-V基准评测中的优异表现，标志着国内AI技术在多模态理解领域取得了重要突破，为未来AI技术的应用和发展提供了坚实的基础。腾讯将继续致力于AI技术的研究和创新，推动人工智能在各个领域的广泛应用，为社会进步和经济发展贡献力量。