眼脑并用!Qwen 开源 QVQ 刷新视觉推理想象力

眼脑并用!Qwen 开源 QVQ 刷新视觉推理想象力
近两年,大模型的发展从单模态进化到多模态,从基础对话进化到深度推理,AI 正在持续突破人类认知的边界(特别是在 23 年下半年,随着 GPT-4V、Claude-3 等新一代多模态模型的出现,“视觉智能”便成为了行业关注的焦点)。
然而,真正的技术突破不仅在于看得见,更在于想得透。在多模态领域,大多数模型仍处于“看图说话”的阶段,而能将视觉信息与深度推理相结合的凤毛麟角。
更值得注意的是,目前领先的多模态模型几乎都选择了闭源路线。一个能在视觉推理领域达到前沿水平的开源模型,无疑将为这个方向注入新的活力。
而就在 23 年年末的圣诞节,通义千问带来了一个重磅答案——QVQ(也太可爱了叭)
眼脑并用!Qwen 开源 QVQ 刷新视觉推理想象力
眼脑并用!Qwen 开源 QVQ 刷新视觉推理想象力
继上个月的 QwQ 之后,12 月 25 日,阿里云通义千问又发布了全球首个开源多模态推理模型 QVQ-72B-Preview(不愧是源神)
第一次看到这个讯息还是在 AK 大佬的帖子上,“这可能是第一个用于视觉推理的开放权重模型”。
眼脑并用!Qwen 开源 QVQ 刷新视觉推理想象力
也有网友表示:“QVQ 将视觉推理带到了下一个阶段”。
眼脑并用!Qwen 开源 QVQ 刷新视觉推理想象力
不得不说 Qwen 在海外是真火,还登上了 Hacker News 第二名。
眼脑并用!Qwen 开源 QVQ 刷新视觉推理想象力
QVQ 在 MMMU、MathVista 等权威评测集上的成绩单也是相当亮眼,都取得了超预期的视觉理解和推理能力。
眼脑并用!Qwen 开源 QVQ 刷新视觉推理想象力
👀是睿智的狸,还是乡下的猹?让我们来实测一下‼️
体验地址:https://modelscope.cn/studios/Qwen/QVQ-72B-preview
眼脑并用!Qwen 开源 QVQ 刷新视觉推理想象力
不知道大家会不会有时候看到一个电影片段,或者刷到一个视频台词截图,但死活找不到片名。现在有了 AI 之后方便很多!
比如拿了个《Her》的片段截图,问了问 Claude 先生,很遗憾没答对。
眼脑并用!Qwen 开源 QVQ 刷新视觉推理想象力
但 QVQ 正确的回答了出来。
眼脑并用!Qwen 开源 QVQ 刷新视觉推理想象力
同理拿游戏画面测试,识别的也是相当准确。
眼脑并用!Qwen 开源 QVQ 刷新视觉推理想象力
甚至细节也描述的非常到位。
眼脑并用!Qwen 开源 QVQ 刷新视觉推理想象力
小试牛刀之后,让我们再来上点强度,来数数椅子!(说实话我一个真人都数成了四把)
眼脑并用!Qwen 开源 QVQ 刷新视觉推理想象力
眼脑并用!Qwen 开源 QVQ 刷新视觉推理想象力
QWQ 正确的回答出了五把,并且逐步思考的非常全面!而隔壁的 Claude 和 GPT o1 都回答错了。
眼脑并用!Qwen 开源 QVQ 刷新视觉推理想象力

说到思考全面,我们尝试复刻网友展示的一个 Case,拍了一张地铁上的照片,让 QVQ 告诉我该咋去唐人街。

没想到 QVQ 观察的十分细致,通过图片上一些人眼都很难注意到的细节,推理出当前的站点以及列车行驶方向。从多角度分析,并不断反思,最后总结出了一个合理的答案(看来是个心思缜密的 J 人?)

眼脑并用!Qwen 开源 QVQ 刷新视觉推理想象力
让我们再整点烧脑的数学题,就决定是你了,图论!
眼脑并用!Qwen 开源 QVQ 刷新视觉推理想象力
稍微有点糊咳咳(反正大家应该看不懂 bushi)但是经过 QVQ 详尽的分析,结果是对滴!
再来个硬核的物理题,发现 QvQ 依然不在话下(比我在搜题软件上得到的答案详尽的多!)
眼脑并用!Qwen 开源 QVQ 刷新视觉推理想象力
除了数理逻辑之外,情商和艺术鉴赏能力也十分在线。
眼脑并用!Qwen 开源 QVQ 刷新视觉推理想象力
让 QVQ 判断画作的作家也是手拿把掐。
眼脑并用!Qwen 开源 QVQ 刷新视觉推理想象力
眼脑并用!Qwen 开源 QVQ 刷新视觉推理想象力
在 AI 发展的众多突破中,QVQ 的出现让人眼前一亮。不是因为它有多少参数,也不是因为它在某个基准测试上刷新了记录,而是因为它展示了一种难得的可能性:当图像和语言在机器的”大脑”里不再是两条平行线,会擦出怎样的火花?
这个问题的意义远超技术本身。就像一个人,光是会说话还不够,光是会看东西也不够,关键是要把所见所闻融会贯通,形成自己的认知和判断。QVQ在这方面迈出了关键的一步——它不只是能看能说,更重要的是开始学会用看到的东西来思考和推理。
不过,在 QVQ 的官方博客中也有写道:尽管 QVQ 的性能超出了预期,但仍存在一些局限性(语言混合和代码切换、递归推理导致陷入循环没有响应等问题)通义千问的愿景是开发一个全方位的智能模型(A Omni and Smart Model),在不久的将来,我们计划将更多模式整合到一个统一的模型中,使其更加智能,能够应对复杂的挑战并参与科学探索。”
Blog:https://qwenlm.github.io/blog/qvq-72b-preview/
从这个角度看,或许 QVQ 的价值不在于它有多完美,而在于它为通往 AGI 的漫漫长路,铺下了一块重要的基石!眼脑并用!Qwen 开源 QVQ 刷新视觉推理想象力
–完–
眼脑并用!Qwen 开源 QVQ 刷新视觉推理想象力
眼脑并用!Qwen 开源 QVQ 刷新视觉推理想象力
眼脑并用!Qwen 开源 QVQ 刷新视觉推理想象力
眼脑并用!Qwen 开源 QVQ 刷新视觉推理想象力



原创文章,作者:特工宇宙,如若转载,请注明出处:https://www.agent-universe.cn/2024/12/28811.html

Like (0)
Previous 2024-12-26 18:37
Next 2024-12-27 19:17

相关推荐

  • 大模型日报(11月18日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-11-18
    134
  • 浪潮已至,抬头看路|「真格精酿·出海冒险家」开启招募

    “海上”的风浪越来越大。在激烈的竞争博弈下,唯有回归理性的长期主义者,才能蓬勃发展。蒙头狂奔之际,别忘了「抬头看路」。中国出海人如何在出海创业中准确定位自己的路径,快速破局以发现新…

    2023-03-16
    143
  • 浅谈当下国内 AI Agent 现状,钉钉和扣子走在前列

    两个多月前,我写过一篇文章:字节的Coze、扣子和GPTs,有什么区别?浅谈了我对 Agent 和 GPTs 的一些思考。两个月后的今天,我们可以看到,GPTs 逐渐过气,字节的扣…

    2024-04-22
    624
  • 腾讯元宝 APP 今日上线,后来者能否居上?

    上午在看百度某大会直播时,有一种“食之无味,弃之可惜”的无力感,无聊水群之余,发现腾讯混元也在直播。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍ 没有硕大的屏幕,没有宽大的舞台,在一间会议室里…

    2024-05-30
    397
  • MolarData| AI领域资讯速递

    MOLAR NEWS 2020年第29期   MolarData人工智能每周见闻分享,每周一更新。 好好的人,说没就没了:这个视频「橡皮擦」让你瞬间消失,头发丝都不留 近日,弗吉尼…

    2020-09-07
    176
  • AI漫画AI进化史之“缘起”

    这个系列是为所有爱好人工智能的同学写的AI通识,我试图用最简单的语言和大家讲述历史以及AI的基本技术原理,文中一半插图为AI工具所作,所以命名这一系列为:《AI漫画AI进化史》。 …

    2023-11-21
    149
  • 闪耀进博会的 N+1 种黑科技|Z News

    Z News 是真格的新闻栏目。 11 月 5 日- 10 日,第六届中国国际进口博览会举行。以「新时代,共享未来」为主题,数千家参展商相聚上海,创新产品、创新技术、创新服务集中亮…

    2023-11-13
    161
  • 这款App开了视频模型超市,免费,还抽大奖?!

    最近周鸿祎非常痴迷AI视频,甚至在拍AI短剧期间每天能生成几百条!不信你看看:    看得我笑出猪声!老周为了推广纳米AI搜索真的是不遗余力!前几年人们过年在微信抢红包、在支付宝里…

    2025-01-26
    61
  • MolarData| 热“AI”身边新鲜事 新鲜趣闻周五见

    MOLAR FRESH 2020年第20期   MolarData人工智能新鲜趣闻,每周五更新。 AI 全自动翻译漫画文字,二次元界福音最近,由东京大学 Mantra 团队、雅虎(…

    2021-01-16
    243
  • AI Agent 如何入门?来看看这本新书!!!

    半个月前,粗心的我细心地发现,有一本关于 Agent 的书籍竟然在上市预售,作者还是熟悉的咖哥(黄佳老师,当年拜读过他的《零基础学机器学习》)果断下单。 而在昨天,我终于收到了!立…

    2024-05-24
    283