跳转至

知识库

企业私有的专业知识库,包含各种类型的数据。支持创建和管理知识库,为问答对话提供知识来源,助力智能问答。

  • 共享知识库:系统管理员在【共享资源】中创建共享后,可以授权给指定工作空间。
  • 全部知识库:用户可以创建知识库,其他用户资源授权后可以查看、使用和维护。

知识库通过文件夹进行管理,根目录下可建立最多三级的子文件夹。每一级文件夹内均可创建相应的知识库。文件夹支持资源授权,普通用户仅可查看被授权的文件夹,授权文件夹时支持授权文件夹下已有的子资源。

注意:共享资源为企业版 X-Pack 功能。

dataset

1 创建知识库

打开【知识库】页面,点击【创建知识库】,进入创建知识库页面。
知识库类型:

  • 通用型知识库:对离线文档上传管理,支持的文本文档格式包括 Markdown、TXT、PDF、DOCX、HTML,以及 Excel、CSV 格式的 QA 问答对。
  • Web 站点知识库:用于获取在线静态文本数据管理,输入 Web 根地址后自动同步根地址及子级地址的文本数据。
  • 飞书知识库:支持对接飞书的云文档和表格文档,将飞书文档内容导入到 MaxKB 中进行管理。
  • 工作流知识库:允许用户通过拖拽节点的方式自主编排从不同数据源到知识库写入的全流程,满足企业个性化知识管理需求。

注意:飞书知识库 X-Pack 功能,具体使用可参考飞书文档

dataset

1.1 通用型知识库

选择知识库类型为通用型,输入知识库名称、知识库描述,选择向量模型。

创建通用型知识库

创建知识库后,支持新建文档和上传离线文档。

注意:对话用户为 X-Pack 功能。

上传文档

可离线文档通过拖拽或选择文件方式进行上传。 上传文档要求:

  • 文本文件:Markdown、TXT、PDF、DOCX、HTML、XLS、XLSX、CSV、ZIP;
  • 表格:XLS、XLSX、CSV、ZIP;
  • QA 问答对:XLS、XLSX、CSV、ZIP;
  • 默认每次最多上传 50 个文件,每个文件不超过 100 MB,可配置,上传文件数量最多为 1000,单个文档最大 1000 MB;
  • 支持选择文件夹,上传文件夹下符合要求的文件。
  • ZIP 文件包括两种形式:

    • Markdown 文档 + 图片文件,MarkDown 文档中引入对应的图片,并将两者打包在 ZIP 中。
    • XLS/XLSX 文件 + 图片文件,XLS/XLSX 文件中引入对应的图片,并将两者打包在 ZIP 中。

上传文档

文档分段:

  • 选择分段规则,支持智能分段以及高级分段两种方式:

    • 智能分段:按照 Markdown 格式进行逐级下钻式分段(最多支持 6 级标题),每段最大字符数为 4096 个;
    • 高级分段:支持自定义设置分段标识符、分段长度及自动清洗。分段标识还支持使用正则表达式处理复杂结构文档。
  • 导入时添加分段标题为关联问题:勾选后会把所有分段的标题设置为分段的关联问题。

  • 分段预览:根据分段规则和设置,查看分段效果。

  • 分段操作:在分段预览中对不合理的分段进行再次编辑以及删除无意义分段。
  • 步骤操作:可返回上一步重新上传文档,或者确认上传开始向量化。

上传文档

智能分段与高级分段

智能分段

  • MarkDown 类型文件智能分段规则

    • 根据标题逐级下钻式分段(最多支持 6 级标题),每个段落最多 4096 个字符;
    • 当最后一级的文本段落字符数超过设置的分段长度时,会查找分段长度以内的回车进行截取。
  • HTML、DOCX 类型智能分段规则

    • 识别标题格式转换成 markdown 的标题样式;
    • 逐级下钻进行分段(最多支持 6 级标题),每个段落最多 4096 个字符。
  • TXT和 PDF 类型文件智能分段规则

    • 按照标题# 进行分段,若没有#标题的则按照字符数 4096 个字符进行分段;
    • 查找分段长度以内的回车进行截取。

高级分段

  • 分段标识支持:#、##、###、####、#####、######、-、空行、回车、空格、分号、逗号、句号,并支持手动输入其它分段标识符或正则表达式
  • 分段长度:单个分段的长度,范围 50 至 4096 个字符。
  • 自动清洗:开启后系统会自动去掉重复多余的符号如空格、空行、制表符等。
  • 文档规范建议
    • 标识规范:离线文档的分段标识要有一定规范,否则拆分出来的段落不规整。
    • 段落完整:在一个分段中集中描述一个完整的内容。

高级分段

导入时添加分段标题为关联问题: 勾选后会把所有分段的标题设置为分段的关联问题。

设置标题为关联问题

点击【开始导入】后,系统后台会对文档进行自动分段 -> 存储 -> 向量化操作,处理结束后,文件状态将显示为完成。

编辑分段

1.2 Web 站点知识库

选择创建知识库类型为 Web 站点,输入知识库名称、知识库描述,选择向量模型并输入 Web 根地址。

  • Web 根地址:为在线静态网页站点的根节点地址,系统会自动获取 Web 根地址及子级地址的数据资料。以 DataEase V2 在线文档为例,可在 Web 根地址为:https://dataease.io/docs/v2/
  • 选择器:针对 Web 页面的数据可以设置定获取某个div内的数据,默认获取 body 数据。如 DataEase 在线文档仅获取中间内容部分,可以右键检查网页,定位到中间内部区域找到 div 为 md-content,则选择器输入为:.md-content 。

Web知识库

Alt text

点击【创建】后,跳转到文档列表页面查看当前 Web 站点下文档的详细信息,处理结束后,文件状态将显示为完成。

Alt text

1.3 工作流知识库

支持用户通过节点拖拽方式自主编排不同数据源到知识库写入的全流程,适配企业个性化知识管理需求。

选择知识库类型为工作流知识库,输入知识库名称、知识库描述,选择向量模型。

创建工作流知识库

1.3.1 工作流编排

知识库工作流编排基本流程:数据源 -> 文档解析 -> 文档分段 -> 知识库写入。

设置工作流知识库

数据源

  • 说明:工作流起始节点,负责获取原始数据。用户只需按规范开发数据源工具,即可接入工作流,无需等待系统版本更新。
  • 设置:
    • 内置数据源:支持本地文件和 Web 站点;
    • 工具扩展:支持数据源工具介入其他企业级数据源。

数据源工作流知识库

文档解析

  • 说明:将原始数据转换为纯文本或结构化文本。用户按规范开发解析工具即可接入工作流,无需等待系统版本更新。
  • 设置:
    • 支持 TXT、Markdown、DOCX、XLSX、CSV、PDF、ZIP 等主流格式自动解析。
    • 支持通过工具介入其他解析工具,如OCR工具、MinerU以及其他专业解析工具。

文档解析工作流知识库

文档分段

  • 说明:按语义或规则将长文本切分为可检索单元。
  • 设置:支持分段/不分段入库和引用第三方分段工具。
    • 分段入库:
      • 智能分段:按照 Markdown 格式进行逐级下钻式分段(最多支持 6 级标题),每段最大字符数为 4096 个;
      • 高级分段:支持自定义设置分段标识符、分段长度及自动清洗。分段标识还支持使用正则表达式处理复杂结构文档。
      • QA 问答对分段:提取“问题-答案”对进行入库。
    • 不分段入库:删除“文档分段”节点实现不分段入库。
    • 自主引入第三方分段工具,适配复杂内容拆分需求。

文档分段工作流知识库

知识库写入

  • 说明:工作流终结节点,完成数据持久化与向量化。
  • 设置:经过文档解析、文档分段等节点,将自动写入知识库并执行向量化操作。

知识库写入工作流知识库

1.3.2 调试发布

编排完成后,点击界面【调试】按钮,系统将按流程执行工作流。

调试工作流知识库

用户可在【执行详情】中可查看各节点运行状态,例如数据源是否成功获取文档、解析工具是否正常提取内容、分段结果是否符合预期、写入是否成功。

调试无误后,点击【发布】,使该工作流将正式生效。

执行详情工作流知识库

1.3.3 导入文档

工作流发布后,用户可以在文档列表中执行【导入文档】操作,【导入文档】与在工作流页面的【调试】功能一致。

工作流知识库页面 导入文档工作流知识库

1.3.4 其他操作

模板中心

在工作流知识库中可直接在【模板中心】选择所需的知识库工作流,仅需在编排界面配置模型、知识库等基础参数,即可快速完成知识库的工作流部署,实现典型业务场景的智能化落地。

模板中心

为了丰富模板资源,推动产品生态持续发展,MaxKB诚挚邀请广大社区用户参与模板中心的建设,共享技术成果;

贡献路径:参照官方提供的模板开发规范,开发适用于MaxKB的智能体或者知识库工作流模板;

提交方式:完成开发后,将模板提交至GitHub官方仓库,项目团队将按流程审核,通过后即可上架至 MaxKB 模板中心,供全体社区用户使用。

导入/导出工作流

工作流知识库支持导出和导入,导出的文件后缀为 .kbwf,导入工作流则选择相应后缀的文件导入即可。

导出工作流

执行记录

每次导入文档的操作会记录在工作流的【执行记录】中,用户可按发起人或状态,搜索指定执行记录,实现对所有导入操作的全链路追溯。

执行记录工作流知识库

发布历史

工作流知识库中,支持查看发布历史版本的工作流、时间和用户等信息。

发布历史

自动保存

工作流知识库中,默认手动保存,也可设置自动保存,开启自动保存后将每隔 1 分钟保存到本地,并在发布成功后将配置同步到后台数据库。

自动保存

2 知识库操作

MaxKB 知识库支持同步、重新向量化、生成问题、资源授权、查看关联资源、转移到、设置、导出以及删除操作。

知识库导出

2.1 同步 Web 知识库

对于 Web 站点类型知识库,点击知识库面板的【同步】,支持对 Web 知识库的内容进行同步更新。

  • 同步替换:重新获取 Web 站点文档,覆盖替换本地知识库中的文档。
  • 整体同步:先删除本地知识库的所有文档,重新获取 Web 站点文档。

知识库导出

2.2 重新向量化

如果在知识库设置中选择了不同的向量模型,对于新增的文档将使用新设置的向量模型进行向量化,如果要对已有的知识库进行重新向量化,可在知识库卡片网格中,点击知识库面板的【重新向量化】,对知识库中已有的分段进行重新向量化。

知识库导出

2.3 资源授权

点击知识库面板的【资源授权】,可以将该知识库授权给相应的用户。

资源授权

2.4 查看关联资源

在知识库列表,点击知识库面板的【查看关联资源】,可查看该知识库关联资源情况,支持根据名称、创建者和类型进行搜索。

关联资源

2.5 转移到

在知识库列表,点击知识库面板的【转移到】,可以将知识库移动到同一工作空间下工具的其他文件夹中。

关联资源

2.6 设置知识库

在知识库列表,点击知识库面板的【设置】进入知识库设置页面,可修改知识库基本信息(名称、描述、向量模型)及上传规则:每次上传最多文件数与单个文档大小上限值(MB)。

知识库设置页面

2.7 导出知识库

在知识库列表,点击知识库面板的【导出 Excel】/【导出 ZIP】。将知识库的分段内容以 Excel 或 ZIP 文件格式导出。
每个文档为 Excel 文件的一个 Sheet,Sheet 每一行展示一个分段。导出 ZIP 文件时,会将引用的图片一起导出,且以 guid 的方式进行命名,且没有格式扩展名。

知识库导出 知识库导出

2.8 导入知识库

导入知识库时,需先创建一个通用知识库,点击【上传文档】,选择【QA 问答对】,上传知识库导出的文档,点击【开始导入】。

知识库导出

2.9 删除知识库

在知识库列表,点击知识库面板的【删除】对知识库进行删除操作。

注意:知识库删除后无法恢复,请谨慎操作。

知识库删除