搭建基于知识库内容的机器人

ChatGPT教程 2年前 (2023) aigc21

29 0 0

如果你仅想要直接实践，可以看最后一部分实践，以及倒数第二部分限制与注意的地方。

简介

这个想法，来源于我的个人需求，我连载了将近 100 期 newsletter，积累了很多内容，我希望将这些资料导入给 AI ，然后 AI 能拿这些数据回答我的问题，甚至能给我一些写作建议等。

最早的时候，我尝试过非常笨的方法，就是在提问的时候，将我的 newsletter 文本传给 AI，它的 prompt 大概是这样的：

Please summarize the following sentences to make them easier to understand.

Text: """
My newsletter
"""

这个方法能用是能用，但目前 ChatGPT 有个非常大的限制，它限制了最大的 token 数是 4096，大约是 16000 多个字符，注意这个是请求+响应，实际请求总数并没那么多。换句话来说，我一次没法导入太多的内容给 ChatGPT（我的一篇 Newsletter 就有将近 5000 字），这个问题就一直卡了我很久，直到我看到了 GPT Index 的库，以及 Lennys Newsletter 的例子。

试了下，非常好用，而且步骤也很简单，即使你不懂编程也能轻易地按照步骤实现这个功能。

我稍稍优化了下例子的代码，并增加了一些原理介绍。希望大家能喜欢。

原理介绍

其实我这个需求，在传统的机器人领域已经有现成方法，比如你应该看到不少电商客服产品，就有类似的功能，你说一句话，机器人就会回复你。

这种传统的机器人，通常是基于意图去回答人的问题。举个例子，我们构建了一个客服机器人，它的工作原理简单说来是这样的：

搭建基于知识库内容的机器人

当用户问「忘记密码怎么办？」时，它会去找最接近这个意图「密码」，每个意图里会有很多个样本问题，比如「忘记密码如何找回」「忘记密码怎么办」，然后这些样本问题都会有个答案「点击 A 按钮找回密码」，机器人会匹配最接近样本问题的意图，然后返回答案。

但这样有个问题，我们需要设置特别多的意图，比如「无法登录」、「忘记密码」、「登录错误」，虽然有可能都在描述一个事情，但我们需要设置三个意图、三组问题和答案。

虽然传统的机器人有不少限制，但这种传统方式，给了我们一些灵感。

我们好像可以用这个方法来解决限制 token 的问题，我们仅需要传符合某个意图的文档给 AI，然后 AI 仅用该文档来生成答案：

搭建基于知识库内容的机器人

比如还是上面的那个客服机器人的例子，当用户提问「忘记密码怎么办？」时，匹配到了「登录」相关的意图，接着匹配知识库中相同或相近意图的文档，比如「登录异常处理解决方案文档」，最后我们将这份文档传给 GPT-3，它再拿这个文档内容生成答案。

GPTIndex 这个库简单理解就是做上图左边的那个部分，它的工作原理是这这样的：

创建知识库或文档索引
找到最相关的索引
最后将对应索引的内容给 GPT-3

限制与注意的地方

虽然这个方法解决了 token 限制的问题，但也有不少限制：

当用户提一些比较模糊的问题时，匹配有可能错误，导致 GPT-3 拿到了错误的内容，最终生成了非常离谱的答案。
当用户提问一些没有多少上下文的信息时，机器人有时会生成虚假信息。

所以如果你想用这个技术做客服机器人，建议你：

通过一些引导问题来先明确用户的意图，就是类似传统客服机器人那样，搞几个按钮，先让用户点击（比如无法登录）。
如果相似度太低，建议增加兜底的回答「很抱歉，我无法回答你的问题，你需要转为人工客服吗？」

版权声明：aigc21 发表于 2023年4月23日 am7:15。
转载请注明：搭建基于知识库内容的机器人 | AIGC百科

相关文章

场景6：锦上添花——信息解释

aigc21

19 0

aigc21

20 0

Few-Shot Prompting

aigc21

47 0

场景7：化繁为简——信息总结

aigc21

17 0

技巧6：通过示例来阐述需要输出的格式

aigc21

15 0

Self-Consistency

aigc21

33 0

暂无评论

暂无评论...