大模型日报(12月16日 资讯篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

学术分析报告:ResearchFlow — 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(12月16日 资讯篇)

行云季宇:谁困住了 AI 产业——大型机化的计算机形态与变革的可能性 | 奇绩潜空间活动报名

【奇绩潜空间】是 GenAI 时代冲得最快的一批科研学者/从业者/创业者聚集的 AI 人才社区,潜空间定期邀请大模型前沿创业者分享产品实践探索,邀请前沿科研学者分享最新技术进展。

第五季第二期潜空间邀请到的嘉宾是行云创始人兼 CEO ——季宇,在本次活动中季宇将在北京现场与大家面对面交流,他分享的主题是《谁困住了 AI 产业——大型机化的计算机形态与变革的可能性》。

大模型日报(12月16日 资讯篇)

资讯

01

Kimi 发布视觉思考模型 k1,多项理科测试行业领先


Kimi 发布的 K1 视觉思考模型是一款基于强化学习技术的创新模型,旨在提升图像理解和推理能力。该模型支持端到端图像处理,不需要额外的OCR或视觉模型,可以直接从图像中提取信息并进行思考,极大提升了用户体验。K1 模型在多个基础科学领域(如数学、物理、化学)的基准测试中表现优异,超过了OpenAI的O1、GPT-4O和Claude 3.5 Sonnet等全球领先模型。
K1 视觉思考模型的训练分为两阶段:首先进行预训练以优化字符识别能力,然后通过强化学习进一步提升模型的推理链(CoT)能力。K1 在OCRBench等基准测试中取得了903分的领先成绩,并且在多个其他测试集如MathVista-testmini和DocVQA中也位居全球第一梯队。强化学习技术的引入使得模型能够生成更加详细的推理步骤,从而显著提高了模型在解决复杂问题时的成功率。
为了测试模型在基础科学领域的能力,Kimi团队构建了名为Science Vista的标准化测试集,涵盖数学、物理和化学等学科的图形问题。该测试集展示了K1模型在解决复杂图形题时的卓越能力,尤其在噪声环境下的表现,相比OpenAI和Anthropic的视觉语言模型,K1在处理模糊图像、倾斜拍摄等干扰因素时展现了更高的稳定性和准确度。
在图像理解方面,K1突破了传统模型的局限,能够通过图像中的细节进行深入推理。例如,在物理、化学和几何题的测试中,K1模型不仅能够准确解答,还能展示推理过程,帮助用户理解思考的步骤。尤其是在处理复杂科学图表和公式时,K1通过精准的视觉识别和推理链,能够迅速从图像中提取信息,进行合理的分析。
尽管如此,K1 视觉思考模型仍然面临一些局限,尤其是在处理更复杂的多轮问答、分布外(out-of-distribution)泛化和噪声场景时。与OpenAI的O1系列相比,K1在这些方面仍有改进空间。
K1的发布不仅是Kimi在图像理解和推理能力方面的一次重要突破,还展示了该模型在基础科学学科中的广泛应用潜力。未来,用户可以通过拍照或上传图片,向K1提出涉及复杂图形、手稿、未知物体等多种问题,体验更加智能的解答与推理过程。
大模型日报(12月16日 资讯篇)
https://mp.w‍eixin‍.q‍q.com/s/c39MbjULBW5M_8vdO-VUXQ
02

全球第一款端侧全模态理解模型开源!向大家介绍Megrez-3B-Omni

Megrez-3B-Omni是专为端侧设备设计的全模态理解模型,具备处理图片、音频、文本三种模态数据的能力,并在多个测试基准中取得领先表现。该模型使用了30亿参数的黄金尺寸,特别适合手机、平板等端设备,其推理速度比同精度模型领先最多300%。在图片理解方面,尽管模型体量仅为3B,其表现已超越了大规模的34B模型,如LLaVA-NeXT-Yi-34B,成为多个主流测试集中的精度领先者。它在图像理解、场景分析和OCR任务中表现优异,能够准确处理模糊印刷和复杂手写字。
在文本理解方面,Megrez-3B-Omni优化了上一代14B模型的能力,保持高效计算,同时显著降低了计算资源消耗,能够在C-EVAL、MMLU等测试集上取得全球领先精度。其音频理解功能也具备行业顶级性能,支持中文和英文的语音输入,并能处理复杂的多轮对话,支持图像或文字内容的语音提问,增强了模态间的自由切换。
该模型采用软硬件协同优化策略,确保其推理效率最大化,与同精度模型相比,推理速度有显著提升。通过集成WebSearch功能,Megrez-3B-Omni能够智能判断何时调用外部网页搜索,从而提供最新信息,避免知识不足或幻觉问题。此外,它还具备在上下文理解和结构化输出方面的优势,支持通过系统提示灵活切换功能,提升用户体验。
Megrez-3B-Omni是无问芯穹“端模型+端软件+端IP”智能一体化解决方案的重要组成部分。该解决方案通过深度优化模型压缩、推理加速和硬件能耗管理,确保在资源有限的设备上高效运行。无问芯穹团队具备在模型轻量化和软硬协同优化领域的深厚经验,未来将持续迭代Megrez系列模型,推动端侧设备实现更高的推理速度与更低能耗,从而加速端侧智能技术的发展。

大模型日报(12月16日 资讯篇)

https://‍mp.weixin.q‍q.com/s/DeB6t9304gxQmkAI82CrrA
03
元资助

AICon 2024

技术热点与趋势: 霍太稳总结了2024年AI领域的热点,指出生成式AI的细分方向,如RAG(Retrieval-Augmented Generation)和AI Agent的应用,逐渐成为关注焦点。同时,数据治理和算力需求持续攀升,尤其是GPU和异构计算对AI企业的支持变得尤为重要。
大模型可控生成的挑战与创新: 阿里国际的骆卫华博士探讨了大模型可控生成的进展,指出如何平衡生成质量与指令遵循,解决模型训练中的高成本和复杂控制问题。他的团队在文本和图像生成领域取得了技术突破,推动了大模型的商业应用。
智能算力服务的优化: 英博数科的李少鹏分析了高算力成本与低利用率问题,并提出“单位有效算力成本”评价标准。他分享了通过标准化、模块化的智算中心与智能调度平台,提升算力利用率的实践,帮助企业降低算力成本。
大模型安全与风险管理: 360智脑总裁张向征详细讨论了大模型的安全挑战,提出了全链路安全框架“检、防、攻、测”,以应对数据泄露、模型窃取、生成恶性内容等安全问题。他强调,大模型的安全问题不仅是技术难题,更关乎企业的社会责任。
AI与数据库的融合: 腾讯云的罗云介绍了AI时代数据库技术的创新方向,特别是向量数据库如何支持大模型应用,提升数据处理能力,并与RAG技术结合,推动AI应用的广泛落地。
AI Native产品的创新: 产品战略专家梁宁分享了AI时代的产品商业模式演化,指出AI企业需要超越简单的“+AI”模式,专注于数据和技术成熟度高的应用场景,从而推动商业价值的落地。
大模型应用的挑战与前景: 专题讨论涵盖了大模型在不同行业的落地应用,如多模态大模型的崛起、AI模型的成本优化、数据生命周期管理等,探索如何在实际生产环境中优化AI模型的效能和应用。
重要发布与展望: 本次大会还揭晓了2024中国技术力量年度榜单,表彰在AI和数字化领域的优秀实践,推动了生成式AI和大模型的商业化应用。同时,极客邦科技发布了升级版“极客搜索 AI版”,为用户提供智能检索服务,推动AI技术在知识服务领域的应用。
大模型日报(12月16日 资讯篇)
https:‍//mp.weixin.qq.c‍om/s/nQPih7eV_gGKbUmVWcG7gg
04
元资助

对话肖特特:从伯克利到PromptAI创业,发明创造下一代视觉智能

Meta AI于2023年发布的“Segment Anything Model” (SAM),标志着视觉智能领域的重要进展。SAM能通过交互方式对任意物体进行分割,而无需类别标签,体现了对空间信息的深刻理解。这一模型获得了ICCV 2023 Best Paper Honorable Mention的荣誉,标志着计算机视觉的新纪元的开始。
SAM的出现,放弃了传统的分类标注方式,开启了通用视觉模型的新篇章。它不仅能够应对不同任务和物体,而且能够在零样本情况下泛化,显示出超越传统视觉系统的能力。这一成果为下一代具身智能应用,如机器人、自动驾驶和无人机的视觉感知系统提供了基础。
肖特特博士,作为SAM的主要参与者之一,曾在北京大学和加州大学伯克利分校完成学术训练,后在Facebook AI研究院工作。2023年,他决定创立PromptAI,旨在打造一种通用视觉智能平台,使机器具备类人的视觉感知能力。PromptAI获得了UC Berkeley的投资和技术支持,并由一群年轻的AI研究员组成,致力于推动计算机视觉技术的前沿发展。
肖特特认为,未来5-10年,计算机视觉将专注于解决现实世界中的问题,尤其是如何让AI像人类一样感知物理空间。这将使AI能够理解物体的空间布局、时间的连续性等,从而更准确地与现实世界互动。特别是具身智能的发展,让机器人和智能设备具备人类一样的视觉能力,并能够进行更复杂的任务。
从CV1.0到CV2.0的转变,体现在对视觉信息的处理方式上。CV1.0时代主要解决特定任务(如物体分类),但每个任务所需的系统都是独立的,无法互通。而CV2.0则采用更加通用的视觉模型,可以解决多种任务,并且通过自然语言描述,减少了对大量标注数据的依赖。2021年,OpenAI的CLIP模型通过将语言和视觉信息结合,提出了新的视觉模型思路,这为CV2.0的到来铺平了道路。
在肖特特看来,计算机视觉的真正突破将在于让AI不仅仅是识别静态图像,而是能够理解视频中的时间动态信息。这要求AI能够处理视频中的动作、物体的空间位置等信息,实现对现实世界的全面感知。而这不仅仅是学术研究的挑战,也是工业界面临的重要课题。
大模型日报(12月16日 资讯篇)
https://mp.wei‍xin‍.qq.com/s/DzAviLp9nPcOZTFk3YWHQg

推特

01
00Arxiver开源:包含 138,830 篇 arXiv 论文的多Markdown格式

Fabian分享o1prompting 技巧:要求“在回应之前至少生成5000个逻辑tokens”

机构

技巧:如果你想让o1 认真思考你的问题,可以在你的请求中添加以下内容:
逻辑指令:在回应之前至少生成5000个逻辑tokens。
这可以有效地将10秒的推理过程延长到几分钟。
大模型日报(12月16日 资讯篇)
https://x.com/fabianstelzer/status/1868214722308219061
02 

llama.cpp支持Qwen2-VL模型

好消息关于Qwen2-VL:它终于被 llama.cpp 支持了!我们正在测试以确保一切正常,然后可能会为大家提供 GGUF!迫不及待想看到它在 Ollama、LMStudio 等平台上的应用。
详情请查看此 PR:https://github.com/ggerganov/llama.cpp/pull/10361
大模型日报(12月16日 资讯篇)
https://x.com/JustinLin610/status/1867969723427959277
03

Reddit热帖:谷歌 Gemini 2.0 AI 通过 CT 诊断胰腺炎

谷歌的 Gemini 2.0 AI 刚刚通过 CT 诊断出胰腺炎!这是放射学的未来吗?

大模型日报(12月16日 资讯篇)

https://x.com/kimmonismus/status/1867952384363860472
04

Clone Alpha:以100 PSI水压驱动的人形机器人,配备合成器官和人工肌肉

波兰的 Clone Robotics 刚刚发布了 Clone Alpha,这是一款以100 PSI水压驱动的人形机器人,配备合成器官和人工肌肉。
该机器人采用 Myofiber 技术,通过将人工肌肉精确连接到206个骨骼点,模拟了动物的骨骼、肌肉、血管和神经系统,逼真度接近真实生物。

大模型日报(12月16日 资讯篇)

https://x.com/BrianRoemmele/status/1867953966354694556


产品

01

Animate AI 世界上第一个动画系列 AI 视频生成器

Animate AI 是全球首款集成式 AI 动画视频生成器,为动画系列创作提供一站式解决方案。它以“快速、简单、惊艳”为核心特点,帮助创作者轻松实现创意构想。从剧本到成品视频,只需几步操作,即可快速生成专业级动画作品,无需复杂的软件或专业技能支持。用户可以免费开始创作旅程,亲身体验创意与技术的完美结合,让动画制作变得前所未有的高效和神奇!无繁琐步骤,只需一点“魔法”,Animate AI 为创作者打开无限可能的大门。
大模型日报(12月16日 资讯篇)https://animateai.pro
02

Doctronic AI + 人类医生 应用

Doctronic 致力于为用户提供即时、准确的居家医疗护理服务。首先,用户可以通过免费的 AI 智能助手进行初步健康咨询,快速获得专业建议。随后,只需 29 美元,即可通过平台预约全天候的视频问诊服务,由持牌医生为您提供全面的健康诊断和治疗建议,无需长时间等待。我们的服务覆盖全美 50 个州,无论身处何地,您都能随时随地享受快捷、便捷且价格合理的医疗解决方案,让健康管理变得更加轻松高效。
大模型日报(12月16日 资讯篇)https://www.doctronic.ai

投融资

01

清思智能数千万融资

北京清思智能科技有限公司(简称:清思智能)宣布完成数千万元A轮融资,由君联资本与京国瑞共管的北京信产基金独家投资。这轮融资资金将主要用于人工智能产品升级和市场开拓。清思智能由清华大学电子工程系孵化,聚焦视觉领域AI大小模型混合应用,提供城市级视觉认知解决方案。公司已实现盈利,并保持良好的现金流,为未来发展做好准备。清思智能的全栈技术解决方案已全面国产化,覆盖多个场景,包括治安防控、刑侦追踪等,并已在多个地区积累丰硕战果。公司未来计划布局海外市场。
大模型日报(12月16日 资讯篇)
https://mp.weixin.qq.com/s/tOIPnlt_ldpgC8gWprnQ3w

推荐阅读

— END —

1.   The theory of LLMs|朱泽园ICML演讲整理

2.   「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

3.   「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

快速获得3Blue1Brown教学动画?Archie分享:使用 Manim 引擎和 GPT-4o 将自然语言转换为数学动画

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/12/28947.html

Like (0)
Previous 2024-12-16 13:12
Next 2024-12-16 20:54

相关推荐