中文多模态理解榜单发布 腾讯混元国内第一
腾讯混元大模型荣登中文多模态大模型榜首,引领国内AI技术新高度
8月2日,中文多模态大模型SuperCLUE-V基准8月榜单正式发布,腾讯混元大模型以其在多模态理解方面的卓越表现,一举夺得国内大模型排名第一的佳绩,稳居卓越领导者象限。此次评测涵盖了国内外最具代表性的12个多模态理解大模型,腾讯混元大模型在多模态基础能力和应用能力方面表现出色,获得总分71.95的高分,彰显了其在技术和应用层面的综合优势。
多模态理解,即“图生文”,要求模型能够准确识别图像元素并理解它们之间的关系,进而生成自然语言描述。这不仅考验图像识别的精确度,还体现了对场景的全面理解和对细节的深度洞察。本次评测通过开放式问题对多模态大模型进行全面评估,腾讯混元大模型在各项指标中均表现出色,尤其是在应用能力维度上,凭借对中文语境的深刻理解和在通用、常识、图像等多领域的综合能力,展现出巨大的实际应用潜力。
据SuperCLUE官方介绍,评估标准涵盖了理解准确性、回应相关性和推理深度等多个维度,打分规则结合了自动化定量评分与专家复核,确保了评估的科学性和公正性。评测结果显示,国内大模型在多模态理解的基础能力方面已经逼近海外顶尖模型,腾讯混元大模型更是凭借其强大的技术底座,成为国内领先的多模态理解模型。
腾讯公司副总裁蒋杰表示,多模态理解是腾讯混元大模型的“必答题”,目前正积极部署从多模态到全模态的技术,用户将很快在腾讯元宝App、腾讯内部业务及场景中体验到这一先进技术。同时,腾讯混元大模型还将通过腾讯云向外部应用开放,推动AI技术的广泛应用和发展。
依托腾讯混元大模型的技术支持,AI原生应用腾讯元宝在发布之初就具备了强大的多模态理解能力,无论是文档截图、人像风景、收银小票,还是任意一张随手拍的照片,元宝都能基于图中内容给出深入的理解和分析。腾讯混元大模型已扩展至万亿级参数规模,率先采用混合专家模型(MoE)结构,依托腾讯大语言模型的能力,不断提升多模态理解能力,达到国内领先水平。
此次腾讯混元大模型在SuperCLUE-V基准评测中的优异表现,标志着国内AI技术在多模态理解领域取得了重要突破,为未来AI技术的应用和发展提供了坚实的基础。腾讯将继续致力于AI技术的研究和创新,推动人工智能在各个领域的广泛应用,为社会进步和经济发展贡献力量。