眼脑并用！Qwen 开源 QVQ 刷新视觉推理想象力

特工宇宙 • 2024-12-27 16:11 • 产品 • 56 views

眼脑并用！Qwen 开源 QVQ 刷新视觉推理想象力

近两年，大模型的发展从单模态进化到多模态，从基础对话进化到深度推理，AI 正在持续突破人类认知的边界（特别是在 23 年下半年，随着 GPT-4V、Claude-3 等新一代多模态模型的出现，“视觉智能”便成为了行业关注的焦点）。

然而，真正的技术突破不仅在于看得见，更在于想得透。在多模态领域，大多数模型仍处于“看图说话”的阶段，而能将视觉信息与深度推理相结合的凤毛麟角。

更值得注意的是，目前领先的多模态模型几乎都选择了闭源路线。一个能在视觉推理领域达到前沿水平的开源模型，无疑将为这个方向注入新的活力。

而就在 23 年年末的圣诞节，通义千问带来了一个重磅答案——QVQ（也太可爱了叭）。

眼脑并用！Qwen 开源 QVQ 刷新视觉推理想象力

眼脑并用！Qwen 开源 QVQ 刷新视觉推理想象力

继上个月的 QwQ 之后，12 月 25 日，阿里云通义千问又发布了全球首个开源多模态推理模型 QVQ-72B-Preview（不愧是源神）。

第一次看到这个讯息还是在 AK 大佬的帖子上，“这可能是第一个用于视觉推理的开放权重模型”。

眼脑并用！Qwen 开源 QVQ 刷新视觉推理想象力

也有网友表示：“QVQ 将视觉推理带到了下一个阶段”。

眼脑并用！Qwen 开源 QVQ 刷新视觉推理想象力

不得不说 Qwen 在海外是真火，还登上了 Hacker News 第二名。

眼脑并用！Qwen 开源 QVQ 刷新视觉推理想象力

QVQ 在 MMMU、MathVista 等权威评测集上的成绩单也是相当亮眼，都取得了超预期的视觉理解和推理能力。

眼脑并用！Qwen 开源 QVQ 刷新视觉推理想象力

👀是睿智的狸，还是乡下的猹？让我们来实测一下‼️

体验地址：https://modelscope.cn/studios/Qwen/QVQ-72B-preview

眼脑并用！Qwen 开源 QVQ 刷新视觉推理想象力

不知道大家会不会有时候看到一个电影片段，或者刷到一个视频台词截图，但死活找不到片名。现在有了 AI 之后方便很多！

比如拿了个《Her》的片段截图，问了问 Claude 先生，很遗憾没答对。

眼脑并用！Qwen 开源 QVQ 刷新视觉推理想象力

但 QVQ 正确的回答了出来。

眼脑并用！Qwen 开源 QVQ 刷新视觉推理想象力

同理拿游戏画面测试，识别的也是相当准确。

眼脑并用！Qwen 开源 QVQ 刷新视觉推理想象力

甚至细节也描述的非常到位。

眼脑并用！Qwen 开源 QVQ 刷新视觉推理想象力

小试牛刀之后，让我们再来上点强度，来数数椅子！（说实话我一个真人都数成了四把）。

眼脑并用！Qwen 开源 QVQ 刷新视觉推理想象力

眼脑并用！Qwen 开源 QVQ 刷新视觉推理想象力

QWQ 正确的回答出了五把，并且逐步思考的非常全面！而隔壁的 Claude 和 GPT o1 都回答错了。

眼脑并用！Qwen 开源 QVQ 刷新视觉推理想象力

说到思考全面，我们尝试复刻网友展示的一个 Case，拍了一张地铁上的照片，让 QVQ 告诉我该咋去唐人街。

没想到 QVQ 观察的十分细致，通过图片上一些人眼都很难注意到的细节，推理出当前的站点以及列车行驶方向。从多角度分析，并不断反思，最后总结出了一个合理的答案（看来是个心思缜密的 J 人？）

眼脑并用！Qwen 开源 QVQ 刷新视觉推理想象力

让我们再整点烧脑的数学题，就决定是你了，图论！

眼脑并用！Qwen 开源 QVQ 刷新视觉推理想象力

稍微有点糊咳咳（反正大家应该看不懂 bushi）但是经过 QVQ 详尽的分析，结果是对滴！

再来个硬核的物理题，发现 QvQ 依然不在话下（比我在搜题软件上得到的答案详尽的多！）

眼脑并用！Qwen 开源 QVQ 刷新视觉推理想象力

除了数理逻辑之外，情商和艺术鉴赏能力也十分在线。

眼脑并用！Qwen 开源 QVQ 刷新视觉推理想象力

让 QVQ 判断画作的作家也是手拿把掐。

眼脑并用！Qwen 开源 QVQ 刷新视觉推理想象力

眼脑并用！Qwen 开源 QVQ 刷新视觉推理想象力

在 AI 发展的众多突破中，QVQ 的出现让人眼前一亮。不是因为它有多少参数，也不是因为它在某个基准测试上刷新了记录，而是因为它展示了一种难得的可能性：当图像和语言在机器的”大脑”里不再是两条平行线，会擦出怎样的火花？

这个问题的意义远超技术本身。就像一个人，光是会说话还不够，光是会看东西也不够，关键是要把所见所闻融会贯通，形成自己的认知和判断。QVQ在这方面迈出了关键的一步——它不只是能看能说，更重要的是开始学会用看到的东西来思考和推理。

不过，在 QVQ 的官方博客中也有写道：尽管 QVQ 的性能超出了预期，但仍存在一些局限性（语言混合和代码切换、递归推理导致陷入循环没有响应等问题）。通义千问的愿景是开发一个全方位的智能模型（A Omni and Smart Model），“在不久的将来，我们计划将更多模式整合到一个统一的模型中，使其更加智能，能够应对复杂的挑战并参与科学探索。”

Blog：https://qwenlm.github.io/blog/qvq-72b-preview/

从这个角度看，或许 QVQ 的价值不在于它有多完美，而在于它为通往 AGI 的漫漫长路，铺下了一块重要的基石！

–完–

眼脑并用！Qwen 开源 QVQ 刷新视觉推理想象力

眼脑并用！Qwen 开源 QVQ 刷新视觉推理想象力

眼脑并用！Qwen 开源 QVQ 刷新视觉推理想象力

眼脑并用！Qwen 开源 QVQ 刷新视觉推理想象力

原创文章，作者：特工宇宙，如若转载，请注明出处：https://www.agent-universe.cn/2024/12/28811.html

Like (0)

0

关于作者

特工宇宙

大模型日报（12月26日学术篇）

Previous 2024-12-26 18:37

大模型日报（12月27日资讯篇）

Next 2024-12-27 19:17

产品

大模型日报（11月18日学术篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。「奇绩大模型日报」知识库现已登陆飞书官方社区： https://www.feishu.…

2024-11-18
1340
产品

浪潮已至，抬头看路｜「真格精酿·出海冒险家」开启招募

“海上”的风浪越来越大。在激烈的竞争博弈下，唯有回归理性的长期主义者，才能蓬勃发展。蒙头狂奔之际，别忘了「抬头看路」。中国出海人如何在出海创业中准确定位自己的路径，快速破局以发现新…

2023-03-16
1430
产品

浅谈当下国内 AI Agent 现状，钉钉和扣子走在前列

两个多月前，我写过一篇文章：字节的Coze、扣子和GPTs，有什么区别？浅谈了我对 Agent 和 GPTs 的一些思考。两个月后的今天，我们可以看到，GPTs 逐渐过气，字节的扣…

2024-04-22
6240
产品

腾讯元宝 APP 今日上线，后来者能否居上？

上午在看百度某大会直播时，有一种“食之无味，弃之可惜”的无力感，无聊水群之余，发现腾讯混元也在直播。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍ 没有硕大的屏幕，没有宽大的舞台，在一间会议室里…

2024-05-30
3970
产品

MolarData| AI领域资讯速递

MOLAR NEWS 2020年第29期 MolarData人工智能每周见闻分享，每周一更新。好好的人，说没就没了：这个视频「橡皮擦」让你瞬间消失，头发丝都不留近日，弗吉尼…

2020-09-07
1760
产品

AI漫画AI进化史之“缘起”

这个系列是为所有爱好人工智能的同学写的AI通识，我试图用最简单的语言和大家讲述历史以及AI的基本技术原理，文中一半插图为AI工具所作，所以命名这一系列为：《AI漫画AI进化史》。 …

2023-11-21
1490
产品

闪耀进博会的 N+1 种黑科技｜Z News

Z News 是真格的新闻栏目。 11 月 5 日- 10 日，第六届中国国际进口博览会举行。以「新时代，共享未来」为主题，数千家参展商相聚上海，创新产品、创新技术、创新服务集中亮…

2023-11-13
1610
产品

这款App开了视频模型超市，免费，还抽大奖？！

最近周鸿祎非常痴迷AI视频，甚至在拍AI短剧期间每天能生成几百条！不信你看看：　　看得我笑出猪声！老周为了推广纳米AI搜索真的是不遗余力！前几年人们过年在微信抢红包、在支付宝里…

2025-01-26
610
产品

MolarData| 热“AI”身边新鲜事新鲜趣闻周五见

MOLAR FRESH 2020年第20期 MolarData人工智能新鲜趣闻，每周五更新。 AI 全自动翻译漫画文字，二次元界福音最近，由东京大学 Mantra 团队、雅虎（…

2021-01-16
2430
产品

AI Agent 如何入门？来看看这本新书！！！

半个月前，粗心的我细心地发现，有一本关于 Agent 的书籍竟然在上市预售，作者还是熟悉的咖哥（黄佳老师，当年拜读过他的《零基础学机器学习》）果断下单。而在昨天，我终于收到了！立…

2024-05-24
2830