AGI产品经理知识手册精选(一):深入浅出deepseek原理及黑客酷玩!

今天打算开个系列,分享平时看到的好项目、好文章、好产品,拿着具体例子和大家分享我从中受到的启发会更直观,同时可以更高频更新~
这些内容的原文,也会以PDF附件的方式更新在我的飞书个人知识库(https://a8o6k6y8gp.feishu.cn/wiki/Gxtnw2DiYitiTjkx0UKcTupnnwg),有需要的同学可以收藏起来。
其中大部分文章需要魔法阅读,推荐大家阅读原文,当然你也可以在我的知识库里搜索文章标题查看中英对照的全文。
今天是第一期,欢迎你来!

第一篇:黑客酷玩之 “复刻Claude的Computer Use”


文章标题:创建一个能像人类一样使用计算机的人工智能代理。

原文地址:https://levelup.gitconnected.com/creating-an-ai-agent-that-uses-a-computer-like-people-do-288f7ad97169


推荐语

2024年10月,claude 发布computer use,智谱紧接着发布AutoGLM:比如可以帮你在美团上点咖啡,在大众点评上发好评。


但如果这些事情能被一个独立的开发者完成,你是不是觉得有点黑客感,为自己带来那么一丝丝的情绪价值呢?


写文章的老哥就完成了这件事,并开源了全部步骤和代码,文章非常完整,包括了agent的视觉、大脑、执行器。更重要的是,它能帮你直观理解一个Agent组成,其中提到的各种工具也值得大家收藏,未来可有用武之地。


工具/代码库 作用
OmniParser
屏幕解析工具,用于检测和提取用户界面元素(如按钮、文本框等)的结构化信息。
OmniTool
基于 OmniParser 的高级工具,用于实现复杂的自动化任务和虚拟桌面环境。
pyautogui
模拟鼠标和键盘操作,实现计算机的自动化交互。
base64
将图像数据编码为 Base64 格式,便于传输和处理。
Pillow (PIL)
处理图像数据,用于加载和保存屏幕截图。
EasyOCR/PaddleOCR 用于从屏幕截图中提取文本内容的光学字符识别工具。


延伸思考

目前为止,在媒体看到的大部分Agent都非常擅长思考、对话,真正像computer Use一样能执行具体事务似乎并不多见,原因是具体事务的执行要求安全、可靠,因此需要各种工程层模型层的约束,而这种约束确实需要时间。


当下能让Agent执行具体事务的方式有三种,我们来分别看看它们能否让Agent执行更为可靠。


  • 一是通过视觉操作的方式,本文说的这种方法就属于这种。

AGI产品经理知识手册精选(一):深入浅出deepseek原理及黑客酷玩!


不过在我看来这并非主流途径。一是因为视觉操作在性能上本身有局限性(比如我操作某个网页,可能必须要等待页面加载完毕才能执行),二是因为AGI时代,GUI在未来将不会是主流,通过视觉传达出来的信息量也会大大下降,那么,通过视觉来操作计算机的需求就会降低。


  • 第二种方式是通过对页面元素进行操作的方式。

    AGI产品经理知识手册精选(一):深入浅出deepseek原理及黑客酷玩!


比如开源的Mind2Web项目会把网页的HTML代码发给大语言模型,从中找到需要操作的页面元素,然后借助JavaScript脚本执行点击、输入等操作。


这种方式需要从几百个网页元素中找到正确元素,这个过程中难免会发生提取错误。即使对模型进行微调,准确率也不算高。比如在Mind2Web项目中,作者收集了137个网站的页面信息,执行了2350个自然语言指令,并记录了这些指令背后的页面操作步骤,随后用这些数据对模型进行微调,目前他们在论文中公布的准确率为55%。


另外,这种方式也会把大量的无效信息(几百个网页元素的HTML代码)发送给模型,造成token浪费。我下载了部分数据后发现,仅仅一条自然语言指令对应的数据量大小大约是40万Token数,即使有压缩,成本依然不能忽视,因此也不算是主流的操作模式。


  • 三是函数调用方式。


函数调用的概念不再赘述,简单来说是把自然语言转换成函数调用语言来实现。这些函数可能是cmd,linux命令,也可能是API request,还可能是SQL语言。 对于AI来说,让计算机使用计算机自己的语言来做事情,直观就显得比较合理。


这是目前主流的能让Agent执行具体事务的方式,也是我们自己的产品Chat2API的前进方向,这种方式在目前简单任务的执行中准确率可达90%, 参考2024年度总结:我们用Chat2API的最后一行代码开启AI Agent之年


第二篇:黑客酷玩之 “一招破解提示词?”


文章标题:当我与 Perplexity AI 分享自己的认知漏洞时,我黑进了它的完整系统提示程

原文地址(源自同一作者的两篇文章):


https://generativeai.pub/how-does-perplexity-ais-deep-research-tool-actually-work-let-me-show-you-inside-its-system-prompt-790abf92862c


https://medium.com/the-generator/prompt-hacking-perplexity-ai-system-instructions-7aa6ee923060


推荐语:

如果你看到一个好产品,想破解它的提示词,或者你想测试自己产品提示词被泄露的风险,可以试一下文中提到的操作步骤。


破解思路是:持续发问直到发现特殊标记符,然后把它作为一个”暗号“,伪装成产品的开发人员向产品套取提示词。比如回复中会出现<formatting>类似的文字,抓住这个”小辫子“, 进一步探查,就会套出提示词。


其次,如果你想对某个话题做生成深度研究,可以直接copy文中的提示词,下图为部分提示词。

AGI产品经理知识手册精选(一):深入浅出deepseek原理及黑客酷玩!


扩展思考:提示词重要吗?


提示词是否应该被保护?业界仍然没有标准答案。在我看来,提示词很重要,但重要并不意味着值得被保护起来。


一个产品仅靠提示词很难走长远,即使是包含了垂直领域know-how方法论的提示词也是如此。


好的AI产品在我看来是一项综合工程,需要考验:

  • 一、能否提供足够的上下文。

  • 二、提示词是否能保证稳定输出法。

  • 三、用户交互是否流畅称。


以Cursor作为一个正面案例来讲:


  • 上下文方面:Cursor默认会及时对整个代码库做indexing,index的意义就是能快速检索到相关代码作为上下文提供给大语言模型,因此用户在使用时,让用户觉得”真懂代码”。对比程序员copy一段代码发给chatGPT,Cursor的上下文明显要更丰富。

  • 提示词方面:我的体验中Cursor的输出一直稳定、可靠,应该是在大量测试集上做了客观评测。

  • 用户交互方面:cursor通过tab,cmd+K(原地起飞编码),cmd+I(从零搭建),cmd+L (聊天)等几个简单的快捷指令让用户编码时的交互体验更加自然。



那么,产品经理自己在做产品时,该如何向Cursor学习呢?


  • 如何能获得优质的上下文? 这来源于你能感知到多少的用户数据,比如同样一个问题:”今天的生产情况怎么样“,当提问者是CEO、一线员工时,会有完全不同的答案。

    此时产品中需要把用户的身份、个人情况、负责业务这些数据通通提供给LLM,才可能会有准确的答案。如果只有你的产品有这些”隐形“ 上下文,那么你的表现就会优于竞品。

    所以数据的壁垒在模型能力极速提升的情况下仍然存在,只不过在很大一部分体现在上下文优势,而非训练数据的优势。



  • 如何做到流程的用户交互。 作为产品经理,我个人的建议是多看项目,多了解你的用户,学习信息架构,UE设计的基本知识。

第三弹:深入浅出DeepSeek 原理

Deepseek的热度依然不减,了解原理可以让自己更具备前瞻性。这里推荐两篇:


1. 从零开始绘制 DeepSeek R1 架构和训练流程图

原文链接:https://levelup.gitconnected.com/drawing-deepseek-r1-architecture-and-training-process-from-scratch-72043da33955


2. 小宇宙十字路口的播客:搞懂DeepSeek和他带来的AI下半场。

原文链接:https://www.xiaoyuzhoufm.com/episode/67b14fc6606e5c5940b6b7aa


推荐语:

这是我目前看到的能深入浅出讲述deepseek原理的文章,其中有关键的比喻和举例基本能让你听懂deepseek使用到的技术名词。


延伸思考:

首先,在Deepseek之后,对国内做产品的人来说少了一副模型能力的镣铐,意味着产品经理可以满足的需求又大了一波儿。此前我们做产品总是拿最好模型来做实验,那时还在担心:要是切到国产模型上可能会效果变差,或者要等待国产模型赶上当前GPT-4o的能力,而现在完全不用担心这一点。


其次,Deepseek可以说是中国人的chatGPT时代,市场覆盖的涟漪已经触及到50岁左右的人群,身边传统行业的朋友也开始参加AI聚会。


那么,既然供应侧有模型能力提升,需求侧有用户诉求,相信这一轮的AI一定能诞生一波全新的AI产品。

为自己的两个产品代言


最后,写了这么长时间的公众号,今天有点自豪地来为自己的两个产品代言,希望浸泡在AI浪潮之中的我,与你达成可信的价值互惠!


一、极客时间上线的课程–成为AGI产品经理

AGI产品经理知识手册精选(一):深入浅出deepseek原理及黑客酷玩!


价格:69元,输入口令ERJIE6666比日常站内便宜5元。


这套课程是从去年五月开始打磨,9月上线,11月正式完成,课程上线后承蒙大家喜爱,也在这里感谢所有支持的朋友~~


之所以现在来推荐,一是因为deepseek真正让我看到了新一代AI产品经理虚位以待,会有更广阔的空间;二是经过时间的考验,直到现在,我发现其中一些方法和实践一直在指导我如何做产品


这个课程主要面向希望系统掌握LLM AI产品经理知识的同学,你能收获:

  • LLM AI的原理、实践、商业化、面试技巧、职场建议;

  • 购买后按照在APP上扫码入群自由讨论,讨论内容不限于课程,相信你能在群里收获最新认知。


阅读建议:

  • 对于非互联网行业的同学,可以先试读体会难度

  • 对于新晋AI产品经理,建议通读一遍有整体认知后再二刷,做课后题。

  • 对AI有一定理解的产品经理,选择你喜欢的部分精读。

  • 对于已经是产品经理的朋友,可以当做产品经理手册。


最后:整个课程有些内容确实需要静下心体会,也不能涵盖全部的AI知识,有些内容的理解需要你根据自身情况从其他渠道补足知识,但请相信自己探索的知识会更加深刻!


二、我的第二个产品:chat2API


Chat2API是我们从去年9月开始两个人一起做的探索型产品,主要面向企业客户,目前在宽带资本孵化中。官网:https://agent2api.com/

AGI产品经理知识手册精选(一):深入浅出deepseek原理及黑客酷玩!


Chat2API的V0版本在2024年上线,您可以移步2024年度总结:我们用Chat2API的最后一行代码开启AI Agent之年 了解。


上线后,我们向20多家企业和个人展示demo,并收集反馈建议,感谢所有曾经参加过我们demo的朋友~ 是你们让Chat2API变得更好!


从春节前到现在,Chat2API一直在迭代进步,我们目前仍然是两个核心成员。接下来的时间Chat2API会带着全新的特性和大家见面,V0版本的功能仅仅会成为产品的一个组件。


但我们的方向依然不变,那就是坚信Agent需要通过API来完成AI应用与已有系统的融合,让AI与云应用的关系从“附着”走向“共生”,而唯有共生,才能提供足够好可靠的上下文,将AI应用推向更广泛的应用场景。


目前,Chat2API现在没有完全对市场开放,目前在和一些合作伙伴在打磨产品,同时我们也在招募合作伙伴。如果在你的场景中希望Agent能灵活调用数以千计的API,欢迎公众号联系我们!

我是关注和开发AI产品的产品二姐,致力于带来丰富的 AI 学习分享、体会,欢迎你和我一起学习,如果你觉得文章有用,欢迎关注、点赞、转发。
往期精选


原创文章,作者:产品二姐,如若转载,请注明出处:https://www.agent-universe.cn/2025/02/42925.html

Like (0)
Previous 2025-02-27 19:47
Next 2025-02-27 21:32

相关推荐