一文讲清大模型AI应用架构

产品二姐

读完需要

分钟

速读仅需 4 分钟

讲在开头：关于大模型 AI 应用架构的文章目前并不多，在经过几次小的项目探索后，这篇文章拿出来抛砖引玉，欢迎大家指正，一起探讨。

如果说 2023 年是大模型大爆发的一年，这一年的机会主要给了大厂或者拿到大笔融资的创业者；那么 2024 年将是 AI 应用大爆发的一年，也意味着普通人有更多的机会加入这一浪潮。今天结合基于大模型的 AI 产品架构来看看普通人的机会在哪里，这些普通人包括：

AI 应用开发者

AI 产品经理、提示词工程师

希望通过 AI 来提效增收的中小老板

在讲述 AI 产品架构之前，我们先来看看客户的诉求。因为一切的设计都是从需求出发，大模型AI 产品也不例外。

从 AI 产品的诉求出发看 AI 产品设计

最近接触到最多的诉求是：如何基于自己的知识库构建自己的问答机器人，比如：

绘本馆老板希望通过机器人对话来推荐书籍，提高社群活跃度。

面向大学生的留学咨询机构希望通过机器人解答专业论文难题来获取留学线索。

企业内部的 HR 希望通过机器人来进行日常的答疑解惑。

实际上，这些需求早已存在，只是一直没有被很好地解决，大模型之前做出来的机器人是”人工智障”，大模型出来之后，“人工智障”变成了”人工幻觉”。可喜的是现在”幻觉”这一现象某种程度上正在被更好地解决，这一点本文会讲到，而解决幻觉问题也是 2024 年 AI 技术的一大趋势。

1.1

为什么不用 ChatGPT

你可能会说：问答工具用 ChatGPT 不就好了吗？

但如果你让一个绘本馆老板评价 ChatGPT 推荐书籍的能力，他估计会一笑了之，一是 ChatGPT 的推荐能力值得商榷，二是 ChatGPT 并不能让用户落在自己的绘本馆里。绘本馆老板真正的诉求是：

为什么 ChatGPT 不能按照我的资料库推荐，我的资料比 ChatGPT 专业多了。

我有精准的用户数据，比如用户之前看了什么书，用户的孩子多大了，而且还要结合馆内的库存状态给每个用户做不同的推荐。

我这里还有丰富的书籍的推荐话术，但是我希望结合每个客户的不同习惯，同一本书籍用不同的话术推荐。

以上几点构成了基于大模型 AI 产品的三个诉求：

个性化诉求：问答中所用到的知识库和数据（客户标签，客户阅读历史）希望用自己的。

需要结合传统互联网数据洞察能力给出更精准的回答。

强大的知识检索、整合、表达能力，其实只有最后一点才是”大模型特色”的能力。

而解决这三个问题的背后要依托的是一个完整 AI 产品架构，架构的每一层里都可以负责解决不同的问题。

一图说明基于大模型的 AI 产品架构

下面这张图就是我总结的优秀的 AI 产品架构(以问答机器人为例)，如果你比较了解 AI 应用的现状，应该很容易理解。

一文讲清大模型AI应用架构

接下来的内容就主要围绕这张图的深入讨论，你会发现看似简单的产品背后其实并不容易。首先我们按照调用时序来展开产品每一层的动作，以及由谁来做哪些事情。

2.1

用户层（前端）提问

这一层的目标是营造良好的用户体验，主要是产品经理，UE，UI 负责，和传统互联网产品没有区别。

需要注意的是，让用户感受不到 AI 的存在是最好的。在问答这个产品中，可能就是一个简单的对话框，甚至可能融入微信、钉钉等产品中。而推送仅仅在必要时进行，比如在绘本馆的这个例子中，我们仅仅在借阅书籍即将到期进行提醒，同时推荐合适的书籍。

当然，也有可能用户会主动提问：”有哪些适合 3-5 岁男孩看的绘本”，这时用户层就会唤起应用层。

2.2

应用层提问

这一层是不同于传统互联网的一层，也是 AI 应用开发者，产品经理的重头戏。它的目标是将用户的提问加工，发给适合模型层的 Prompt 提示词，这里会分几步走：

第一步：将 “有哪些适合 3-5 岁男孩看的绘本”这个问题转化成专业提示词。

比如按照 CRISPE 结构进行提问（CRISPE 是一种提示词结构，可百度），这一步主要由提示词工程师完成，在小产品中由产品经理兼任，提示词能力是大模型 AI 产品经理的必备技能。

提示词需要根据不同领域、不同场景、不同的知识库、不同模型进行反复实验，同时要具备结构化特征，抽象成模板，以适用于不同的参数值，比如把”3-5 岁”抽象为参数 Age，把”男孩”抽象为参数”gender” 。专业提示词的目标是让开发能用，同时还能让应用给出的回答尽可能准确、可控。

以下是一个提示词模板的示例(摘自 Github 9000 STAR 的项目:https://github.com/yzfly/wonderful-prompts?tab=readme-ov-file#prompt-%E5%B7%A5%E7%A8%8B%E5%B8%88) 。

一文讲清大模型AI应用架构

实际中你绝对不可能让用户输入这么长的提示词。作为产品经理出身，稍后也会有文章专门讲提示词的各种套路（关注我不迷路）。

第二步：根据提示词去检索客户已有知识库，数据库的内容。

这一步是解决用户的个性化诉求，即引用自有知识库、数据库内容，同时着重降低幻觉。

当下解决这一问题的武器主要是 RAG(Retrieval-Augmented Generation，检索增强生成，Augmented AI 也被认为是 2024 年 AI 发展的大趋势之一）。这一步的工作最繁重，会涉及三项：

第一项：客户(希望通过 AI 来提效增收的中小老板)准备适合大模型理解和阅读的知识库，通常需要条理清晰，结构化，图片视频要配文字等，这里不仅仅是为了让机器人的回答更准确，更重要的是一定程度上可以节约大模型 token 的消耗成本。后面会整理文章专门说这一点，或许也可以找到合适的工具来做这个事情。

第二项：主要是研发同学来做，负责知识库导入、分块、向量化处理(Embedding)，建索引、检索等，而这其中的每一步都有不同方法，且会影响回答的效果（参考文章《RAG行业交流中发现的一些问题和改进方法》）。

第三项：因为不同方法会有不同效果，所以最后还需要拉上产品经理同学一起进行评测（参考文章《LangChain应用开发指南-TruLens用量化对抗幻觉》）。