国产AI杀疯了！以小博大对战GPT，或为对抗AI iPhone的最强后援

2024-05-21 10:49:17yc888

yc888

作者

关注

19047
文章

0
粉丝

科技圈子评论57字数 528阅读1分45秒阅读模式

摘要昨日，全球最强端侧多模态模型再次刷新，仅用8B参数，击败OpenAI的GPT-4V和谷歌的Gemini Pro，而且，OCR长难图识别刷新SOTA，图像编码速度暴涨150倍，而这个...

昨日，全球最强端侧多模态模型再次刷新，仅用8B参数，击败了OpenAI的GPT-4V和谷歌的Gemini Pro，而且，其OCR长难图识别刷新SOTA，图像编码速度暴涨150倍，而这个全球最强端侧多模态模型不是国外大厂的出品，而是国内大模型研发实力最头部的公司面壁智能，最新打造出来的面壁小钢炮MiniCPM-Llama3-V 2.5。

国产AI杀疯了！以小博大对战GPT，或为对抗AI iPhone的最强后援-图片1

据了解，面壁小钢炮MiniCPM-Llama3-V 2.5仅凭8B量级的端侧模型，在评测平台OpenCompass得分65.1，与闭源模型Qwen-VL-Max或可一战，综合性能直接力压重量级选手GPT-4V和Gemini Pro。在OCR综合基准测试中，又取得了725分的成绩，大幅远超GPT-4V，并在大模型的“顽疾”幻觉能力上也获得了重大改进，还有各种基准测试，数据都远超GPT-4V和Gemini Pro。

国产AI杀疯了！以小博大对战GPT，或为对抗AI iPhone的最强后援-图片2

简单来说，MiniCPM-Llama3-V 2.5能看、能读、速度快、更会思考，而且，还用最小的参数撬动了最强性能！那么，抛开这些基准测试，这个小钢炮到底能给我们普通人带来啥？首先，它能支持30+种语言，包括德语、法语、西班牙语、意大利语、俄语等主流语言；其次，它支持难图、长图、长文本的精准识别，比如你在看一个吃瓜长文，总因为“太长不看”而烦恼，丢给它，它就能快速汇总出关键内容；如果是一张英文版的图文信息，它也能根据你的需求，给出非常精准的汇总；而且，它能够在一张拥有多种要素信息的图片中，“一眼”看懂图片的主题内容，并推理出图片的来源信息，再把“思考”后的信息整理汇总给我们。当它搭载到手机上，将能直接在设备端快速、实时运行，减少数据泄露风险，而且，即使没有网络连接，也能正常工作，还适用于多种设备，或成为真正的AI“贴身助理”。

国产AI杀疯了！以小博大对战GPT，或为对抗AI iPhone的最强后援-图片3

玩技站长微信

发送[PLAYEZU]入群

rainbow-shownow

微信号已复制

玩技官方公众号

官方微信公众号

PLAYEZU

公众号已复制

测试交流

测试分享

百科知识

经验总结