我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。
https://www.feishu.cn/community/article/wiki?id=7355065047338450972
点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送
如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。
欢 迎 大 家 一 起 交 流 !
资讯
Meta:Neuromnia 如何通过 Llama 3.1 改变 ABA 疗法
Neuromnia是一个创新的人工智能驱动平台,它开创性地解决了自闭症护理中最紧迫的一些挑战。每36名儿童中就有一名患有自闭症,Neuromnia 为临床医生、家长和教师提供了强大的人工智能驱动工具,以提高工作效率、改善治疗质量并增加自闭症患者获得护理的机会。
利用Llama 3.1,Neuromnia 最近开发了 Nia,这是一款以人为本的应用行为分析(ABA)疗法Al 副驾驶员。Nia 提高了临床医生的工作效率并改善了医疗服务,使临床医生能够专注于大规模提供优质医疗服务。
https://ai.meta.com/blog/neuromnia-autism-aba-therapy-built-with-llama/?utm_source=twitter&utm_medium=organic_social&utm_content=image&utm_campaign=builtwithllama
together.ai:使用 Llama 3.2 Vision 和 ColQwen2 的多模式文档 RAG
为了让人工智能模型有效地完成专业任务,它们通常需要特定领域的知识。例如,金融咨询聊天机器人需要了解市场趋势和特定银行提供的产品,而人工智能法律助理必须具备法规、法规和过去判例法的知识。
一种常见的解决方案是检索增强生成 (RAG),它从知识库中检索相关数据并将其与用户的提示相结合,从而改进模型的输出。然而,企业知识通常以 PDF、PowerPoint 演示文稿或扫描文档等格式存在,这使得检索和准备相关部分以注入我们可以发送给 LLM 的提示变得很困难。
传统上,解决这个问题的方法是使用管道提取文本,这些管道结合了光学字符识别 (OCR) 来识别扫描文本、语言视觉模型来解释图表和表格等视觉元素,并使用页码和章节号等结构化元数据来增强文本和描述。挑战在于,这个过程因文档的性质和组织的存储格式而异。
在本文中,我们将探索一种名为 ColPali 的新方法,它允许我们直接索引和嵌入文档页面,而无需复杂的提取管道。结合 Llama 3.2 视觉系列等尖端多模态模型,ColPali 使 AI 系统能够推理文档图像,从而实现更灵活、更强大的多模态 RAG 框架。
https://www.together.ai/blog/multimodal-document-rag-with-llama-3-2-vision-and-colqwen2
Anthropic:新的消息批处理API
我们推出了一种新的消息批次API——一种强大且经济高效的异步处理大量查询的方法。
开发人员可以批量发送最多10,000个查询,每个批次的处理时间不到24小时,成本比标准API 调用低50%。这使得处理非时间敏感型任务更加高效且经济高效。
Batches API 现已推出公测版,支持 Anthropic API 上的 Claude 3.5 Sonnet、Claude 3 Opus 和 Claude 3Haiku。在Amazon Bedrock 中使用Claude 的客户可以使用批量推理。Google Cloud 的 Vertex AI 上即将推出对Claude 的批处理支持
https://www.anthropic.com/news/message-batches-api
推特
Jim Fan:从机器学习到统计力学的奇妙旅程
https://x.com/DrJimFan/status/1843681423443800315
DeepLearningAI课程:《介绍多模态Llama 3.2》
《介绍多模态Llama 3.2》:如两周前承诺的那样,以下是Meta最新开源模型的简短课程!
这门课程由@Meta制作,并由Meta的AI合作伙伴工程总监@asangani7授课。
Meta的Llama模型家族正在引领开源模型的潮流,任何人都可以下载、定制、微调或在其基础上构建新的应用。
在这门课程中,您将了解Llama 3.2的视觉功能,并将其用于图像分类、提示、分词和工具调用。您还将学习开源的Llama堆栈,它为LLM应用生命周期的各个阶段提供了构建模块。
• 了解Meta最新的四款模型的特点,并掌握在不同场景下如何选择合适的Llama模型。
• 学习多模态提示的最佳实践,并通过多个例子展示其在高级图像推理中的应用:例如理解汽车仪表盘上的错误信息、计算拍摄的餐馆账单总额、批改书写的数学作业。
• 掌握如何在Llama 3.1和3.2模型中使用不同的角色——系统、用户、助手、ipython,以及区分这些角色的提示格式。
• 理解Llama如何使用tiktoken分词器,并如何扩展至128k的词汇量,以提高编码效率和多语言支持。
• 学习如何提示Llama调用内置和自定义工具(函数),通过网络搜索和数学问题求解等例子加以演示。
• 了解Llama Stack,这是一个标准化接口,适用于常见的工具链组件,如微调或合成数据生成,对构建具备代理能力的应用大有裨益。
通过这门课程,您将掌握使用Llama 3.2构建新应用的能力。
请在此注册!https://deeplearning.ai/short-courses/introducing-multimodal-llama-3-2/
https://x.com/AndrewYNg/status/1844092080987177409
Alex Reibman 分享:Meta新加坡比赛入围决赛选手
Meta邀请了13家使用Llama3的AI初创公司前往新加坡,展示开源AI的影响力。
以下是@cerebral_valley x @AIatMeta Llama Impact Grant新加坡决赛选手的项目:
基于Llama3的对话式银行应用,服务23,000多名新加坡用户。
3/ traversaal.ai – 巴基斯坦团队 🇵🇰
模块化训练系统,生产如UrduLlama和ArabicLlama等专用模型。
https://x.com/AlexReibman/status/1844091367133458891
从零开始讲解扩散模型:基于评分的生成模型解析数学详解
我终于发布了关于扩散模型/基于评分的生成模型的新视频,已经上传到YouTube了!
https://youtube.com/watch?v=B4oHJpEJBAA
这个视频我计划了一整年,投入了很多精力。我觉得这种扩散模型的讲解方式非常直观,强烈推荐大家看看!
视频时长38分钟,所以你可能需要点时间来观看,哈哈。
https://x.com/dome_271/status/1844019518005211455
Podcastfy AI:开源的 Python 包,利用生成式 AI (GenAI) 将网页内容、PDF 和文本转化为引人入胜的多语言音频对话
Podcastfy AI
Podcastfy 是一个开源的 Python 包,利用生成式 AI (GenAI) 将网页内容、PDF 和文本转化为引人入胜的多语言音频对话。
与主要专注于笔记整理或研究汇总的 UI 工具(例如 NotebookLM ❤️)不同,Podcastfy 专注于通过多种文本来源以编程方式定制生成对话式的文字记录和音频,从而实现定制化和规模化。
https://x.com/_akhaliq/status/1843830270882898004
产品
GodmodeHQ
GodmodeHQ 是一个专注于销售 的人工智能平台,通过自定义 AI 代理提供个性化的客户研究,替代传统的外展销售方法,提高销售效率和效果。
https://godmodehq.com/
Miro
Miro 是一个可视化协作平台,可以帮助团队在共享工作空间中进行创意、计划和项目管理。它支持实时协作,提供多种模板和工具,允许用户进行头脑风暴、绘制流程图和项目规划,并能与其他应用程序集成。
https://miro.com/
— END —
原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/10/21565.html