让「GPT-4V」跑在手机上,这家中国大模型公司做到了
面壁发布MiniCPM-V 2.6,端侧视频理解全面超越GPT-4V
近日,面壁公司正式发布了MiniCPM-V 2.6,这款新模型在端侧性能上实现了对GPT-4V的全面超越。MiniCPM-V 2.6在单图、多图、视频理解等多模态核心能力上取得了显著突破,三项能力均达到了20B以下的SOTA成绩。该模型的单图理解能力已经可以与Gemini 1.5 Pro和GPT-4o mini相媲美。
此次发布的MiniCPM-V 2.6不仅在性能上有所提升,还在视觉token方面进行了优化,比同类模型低75%。这使得MiniCPM-V 2.6在编码像素密度上取得了两倍于GPT-4o的成绩。更重要的是,面壁将“实时”视频理解、多图联合理解、多图ICL等能力首次搬到了端侧,使大模型具备了实时看到真实世界的能力,这对于实现AGI具有重要意义。
MiniCPM-V 2.6的端侧内存占用仅为6GB,端侧推理速度达到18tokens/s,比上一代模型快33%。该模型还支持llama.cpp、ollama、vllm推理,并且兼容多种语言。此外,MiniCPM-V 2.6还具备强大的视频OCR功能,能够识别视频画面中的密集文字,为用户提供关键信息总结。
通过这些创新,面壁公司展示了其在端侧视频理解领域的技术优势,推动了多模态大模型在实际应用中的发展。未来,随着技术的不断进步,我们可以期待更多类似的技术突破,为人工智能的发展注入新的动力。