IntellAgent: A Multi-Agent Framework for Evaluating Conversational AI Systems
大型语言模型 (LLM) 正在改变人工智能,演变为能够自主规划和执行的面向任务的系统。LLM 的主要应用之一是对话式 AI 系统,它必须导航多轮次对话,集成特定于领域的 API,并遵守严格的策略约束。然而,评估这些代理仍然是一项重大挑战,因为传统方法无法捕捉到现实世界交互的复杂性和可变性。我们介绍了 IntellAgent,这是一个可扩展的开源多代理框架,旨在全面评估对话式 AI 系统。IntellAgent 通过结合策略驱动的图形建模、真实事件生成和交互式用户代理模拟,自动创建多样化的综合基准。这种创新方法提供精细的诊断,解决了静态和手动策划的基准与粗粒度指标的局限性。IntellAgent 代表了评估对话式 AI 的范式转变。通过仿真不同复杂程度的真实多策略场景,IntellAgent 捕获了代理功能和策略约束之间的细微相互作用。与传统方法不同,它采用基于图形的策略模型来表示策略交互的关系、可能性和复杂性,从而实现高度详细的诊断。IntellAgent 还可以识别关键的性能差距,为有针对性的优化提供可操作的见解。其模块化开源设计支持新域、策略和 API 的无缝集成,从而促进可重复性和社区协作。我们的研究结果表明,IntellAgent 通过解决桥接研究和部署中的挑战,成为推进对话式 AI 的有效框架。原文链接:http://arxiv.org/abs/2501.11067v1
HuggingFace&Github
0100Arxiver开源:包含 138,830 篇 arXiv 论文的多Markdown格
Hunyuan3D 2.0——生成高分辨率3D资产
Hunyuan3D 2.0 是一款用于生成高分辨率纹理 3D 资产的大规模的 3D 合成系统。该系统包括两个基础组件:大规模形状生成模型 – Hunyuan3D-DiT 和大规模纹理合成模型 – Hunyuan3D-Paint。