跳转至

知识库

企业私有的专业知识库,包含各种类型的数据,是问答对话中回答用户问题的知识来源。MaxKB 中知识库分为通用型知识库和 Web 站点知识库两种类型。

  • 通用型知识库:对离线文档上传管理,支持的文本文件、表格以及 QA 问答对。
  • Web 站点知识库:用于获取在线静态文本数据管理,输入 Web 根地址后自动同步根地址及子级地址的文本数据。

MaxKB 支持知识库创建、重新向量化、设置、同步、导出、删除等功能。

1 创建知识库

打开【知识库】页面,点击【创建知识库】,进入创建知识库页面。

dataset

1.1 通用型知识库

输入知识库名称、知识库描述,选择向量模型并设置知识库类型为通用型,然后将离线文档通过拖拽或选择文件方式进行上传。 上传文档要求:

  • 文本文件::Markdown、TXT、PDF、DOCX、HTML;
  • 表格:Excel、CSV;
  • QA 问答对:Excel、CSV;
  • 每次最多上传 50 个文件;
  • 每个文件不超过 100 MB;
  • 支持选择文件夹,上传文件夹下符合要求的文件。

文档规范建议:

  • 分段标识规范:离线文档的分段标识要有一定规范,否则拆分出来的段落不规整。
  • 段落完整:在一个分段中集中描述一个完整的内容。

上传文档

对于知识库文件的分段,目前 MaxKB 支持智能分段以及高级分段两种方式。

智能分段

(1)MarkDown 类型文件智能分段规则

  • 根据标题逐级下钻式分段(最多支持 6 级标题),每段的字符数最大为 4096 个字符;
  • 当最后一级的文本段落字符数超过设置的分段长度时,会查找分段长度以内的回车进行截取。

(2)HTML、DOCX 类型智能分段规则

  • 识别标题格式转换成 markdown 的标题样式;
  • 逐级下钻进行分段(最多支持 6 级标题)每段的字符数最大为 4096 个字符。

(3)TXT和 PDF 类型文件智能分段规则

  • 按照标题# 进行分段,若没有#标题的则按照字符数4096个字符进行分段;
  • 查找分段长度以内的回车进行截取。

高级分段

用户可以根据文档规范自定义设置分段标识符、分段长度及自动清洗。

  • 分段标识支持:#、##、###、####、#####、######、-、空行、回车、空格、分号、逗号、句号,并支持手动输入其它分段标识符或正则表达式。
  • 分段长度:单个分段的长度,范围 50 至 4096 个字符。
  • 自动清洗:开启后系统会自动去掉重复多余的符号如空格、空行、制表符等。

导入时添加分段标题为关联问题

勾选后会把所有分段的标题设置为分段的关联问题。

设置标题为关联问题

预览

在分段预览中对不合理的分段进行再次编辑以及删除无意义分段。

编辑分段

点击【开始导入】后,系统后台会对文档进行自动分段 -> 存储 -> 向量化操作,处理结束后,文件状态将显示为完成。

编辑分段

1.2 Web站点知识库

输入知识库名称、知识库描述,选择向量模型并设置知识库类型为 Web 站点。

Web知识库

  • Web 根地址:为在线静态网页站点的根节点地址,系统会自动获取 Web 根地址及子级地址的数据资料。以DataEase V2在线文档为例,可在 Web 根地址为:https://dataease.io/docs/v2/
  • 选择器:针对 Web 页面的数据可以设置定获取某个div内的数据,默认获取 body 数据。如 DataEase 在线文档仅获取中间内容部分,可以右键检查网页,定位到中间内部区域找到 div 为 md-content,则选择器输入为:.md-content 。

点击【创建并导入】后,跳转到文档列表页面查看当前 Web 站点下文档的详细信息,处理结束后,文件状态将显示为完成。

Alt text

2 知识库操作

MaxKB 知识库支持同步、重新向量化、设置、导出以及删除操作。

知识库导出

2.1 同步 Web 知识库

对于 Web 站点类型知识库,在知识库卡片网格中,点击知识库面板的【…】->【同步】,对知识库中所有内容进行同步。

  • 同步替换:重新获取 Web 站点文档,覆盖替换本地知识库中的文档。
  • 整体同步:先删除本地知识库的所有文档,重新获取 Web 站点文档。

知识库导出

2.2 重新向量化

如果在知识库设置中选择了不同的向量模型,对于新增的文档将使用新设置的向量模型进行向量化,如果要对已有的知识库进行重新向量化,可在知识库卡片网格中,点击知识库面板的【…】->【重新向量化】,对知识库中已有的分段进行重新向量化。

知识库导出

2.3 设置知识库

在知识库列表,点击知识库面板的【…】->【设置】进入知识库设置页面,可以对当前知识库名称、描述、向量模型等属性进行修改,所有设置保存后设置生效。

知识库设置页面

2.4 导出知识库

在知识库列表,点击知识库面板的【…】->【导出】,将知识库中文档和分段内容以 excel 格式导出,每个文档为一个 sheet,每一行展示一个分段。

知识库导出

2.5 删除知识库

在知识库列表,点击知识库面板的【…】->【删除】对知识库进行删除操作。 在知识库卡片网格中,点击知识库面板的【…】->【删除】,对知识库进行删除操作。

注意:知识库删除后无法恢复,请谨慎操作。

知识库删除