跳到主要内容

自动关键词和自动问题

使用聊天模型从知识库中的每个分块生成关键词或问题。


在选择分块方法时,您还可以启用自动关键词或自动问题生成以提高检索率。此功能使用聊天模型从每个创建的分块中生成指定数量的关键词和问题,从原始内容中生成"额外的信息层"。

警告

启用此功能会增加文档索引时间并使用额外的 token,因为所有创建的分块都将发送到聊天模型进行关键词或问题生成。

什么是自动关键词?

自动关键词是 RAGFlow 的自动关键词生成功能。它使用聊天模型从每个分块生成一组关键词或同义词,以纠正错误并增强检索准确性。此功能在知识库的配置页面上的页面排名下实现为滑块。

  • 0:(默认)禁用。
  • 3 到 5 之间(包括):如果您有大约 1,000 个字符的分块,建议使用此值。
  • 30(最大值)
提示
  • 如果您的分块大小增加,可以相应地增加值。请注意,随着值的增加,边际效益会递减。
  • 自动关键词值必须是整数。如果您设置为非整数,比如 1.7,它将向下舍入到最近的整数,在这种情况下是 1。

什么是自动问题?

自动问题是 RAGFlow 的一个功能,它使用聊天模型从数据分块中自动生成问题。这些问题(例如谁、什么和为什么)也有助于纠正错误并改善用户查询的匹配。该功能通常适用于涉及产品手册或政策文档的 FAQ 检索场景。您可以在知识库的配置页面上的页面排名下找到此功能的滑块。

  • 0:(默认)禁用。
  • 1 或 2:如果您有大约 1,000 个字符的分块,建议使用此值。
  • 10(最大值)
提示
  • 如果您的分块大小增加,可以相应地增加值。请注意,随着值的增加,边际效益会递减。
  • 自动问题值必须是整数。如果您设置为非整数,比如 1.7,它将向下舍入到最近的整数,在这种情况下是 1。

社区提示

自动关键词或自动问题值与知识库中的分块大小密切相关。但是,如果您是这个功能的新手且不确定从哪些值开始,以下是我们从社区收集的一些值设置。虽然它们可能不够准确,但至少提供了一个起点。

用例或典型场景文档数量/长度自动关键词 (0–30)自动问题 (0–10)
员工手册的内部流程指导小型,10 页以下00
客服 FAQ中型,10–100 页3–71–3
技术白皮书:开发标准、协议详情大型,100 页以上2–41–2
合同/法规/法律条款检索大型,50 页以上2–50–1
多存储库分层新文档 + 旧档案许多根据情况调整根据情况调整
社交媒体评论池:多语言和混合拼写大量短文本8–120
故障排除操作日志大量短文本3–60
营销资产库:多语言产品描述中型6–101–2
培训课程/电子书大型2–51–2
维护手册:设备图表 + 步骤中型3–71–2