使用标签集
使用标签集为您的数据集中的片段自动添加标签。
检索准确性是生产级RAG框架的试金石。除了自动关键词、自动问题和知识图谱等检索增强方法外,RAGFlow引入了自动标签功能来解决语义差距。自动标签功能基于与每个片段的相似性,自动将用户定义标签集中的标签映射到知识库中的相关片段。这种自动化机制允许您为现有数据集应用额外的"层级"特定领域知识,这在处理大量片段时特别有用。
要使用此功能,请确保您至少有一个正确配置的标签集,在知识库(数据集)的配置页面上指定标签集, 然后重新解析文档以启动自动标签过程。在此过程中,数据集中的每个片段都会与指定标签集中的每个条目进行比较,并基于相似性自动应用标签。
应用场景
自动标签适用于片段彼此非常相似,以至于无法从其余片段中区分出目标片段的情况。例如,当您有少数关于iPhone的片段和大部分关于iPhone保护壳或iPhone配件的片段时,在没有额外信息的情况下,很难检索到那些关于iPhone的片段。
1. 创建标签集
您可以将标签集视为一个封闭集合,要附加到数据集(知识库)中片段的标签专门来自指定的标签集。您使用标签集来"告知"RAGFlow应该标记哪些片段以及应用哪些标签。
准备标签表格文件
一个标签集可以包含一个或多个XLSX、CSV或TXT格式的表格文件。标签集中的每个表格文件包含两列,描述和标签:
- 第一列提供第二列中列出标签的描述。这些描述可以是示例片段或示例查询。将计算此列中每个条目与数据集中每个片段之间的相似性。
- 标签列包括与描述条目配对的标签。多个标签应该用逗号(,)分隔。
作为经验法则,考虑在您的标签表格中包含以下条目:
- 目标片段的描述,以及它们对应的标签。
- 使用其他方法无法检索到正确响应的用户查询,确保它们的标签与数据集中的目标片段匹配。
创建标签集
标签集不参与文档索引或检索。在配置聊天助手或智能体时不要指定标签集。
- 点击**+ 创建知识库**以创建知识库。
- 导航到创建的知识库的配置页面,选择标签作为默认分片方法。
- 导航到数据集页面,上传并解析XLSX、CSV或TXT格式的表格文件。
在标签视图部分下会出现标签云,表示标签集已创建:
- 点击表格选项卡查看标签频率表:
2. 标记片段
一旦创建了标签集,您就可以将其应用到数据集中:
- 导航到知识库(数据集)的配置页面。
- 从标签集下拉菜单中选择标签集,然后点击保存确认。
如果下拉菜单中缺少标签集,请检查是 否已正确创建或配置。
- 重新解析文档以开始自动标签过程。 在使用自动标签数据集的AI聊天场景中,每个查询都将使用相应的标签集进行标签,带有这些标签的片段将有更高的机会被检索。
3. 更新标签集
创建标签集不是一次性的工作。很多时候,您可能发现有必要更新或删除现有标签或添加新条目。
- 您可以在标签频率表中更新现有的标签集。
- 要添加新条目,您可以添加并解析XLSX、CSV或TXT格式的新表格文件。
在标签频率表中更新标签集
- 导航到标签集的配置页面。
- 点击标签视图下的表格选项卡查看标签频率表,您可以在其中更新标签名称或删除标签。
当标签集被更新时,您必须重新解析数据集中的文档,以便它们的标签能够相应地更新。
添加新表格文件
- 导航到标签集的配置页面。
- 导航到数据集页面,上传并解析XLSX、CSV或TXT格式的表格文件。
如果您向标签集中添加新的表格文件,是否重新解析数据集中的文档由您自行决定。
常见问题
我可以引用多个标签集吗?
可以。通常一个标签集就足够了。当使用多个标 签集时,请确保它们彼此独立;否则,请考虑合并您的标签集。
标签集与标准知识库之间的区别?
标准知识库是一个数据集。它将被RAGFlow的文档引擎搜索,检索到的片段将被送入LLM。相比之下,标签集仅用于为数据集中的片段附加标签。它不直接参与检索过程,在为聊天助手或智能体选择数据集时,您不应该选择标签集。
自动标签和自动关键词之间的区别?
两种功能都增强RAGFlow中的检索。自动关键词功能依赖于LLM并消耗大量令牌,而自动标签功能基于向量相似性和预定义的标签集。您可以将自动关键词功能中应用的关键词视为一个开放集合,因为它们是由LLM生成的。相比之下,标签集可以被认为是用户定义的封闭集合,需要在使用前以指定格式上传标签集。