跳转至

知识库

1 智能分段效果不理想

默认的分段逻辑无法完全适配特定文档的内容结构,可以尝试在导入文档后选择“高级分段”,并在分段标识输入框中直接输入正则表达式,以实现精准的分段操作。

doc

应用场景举例

  • 多级数字编号
    正则表达式:\d+.\d*.\d*.[a-zA-Z\s]*[\u4e00-\u9fa5,]+
    示例:1. 一级标题 1.1 二级标题

  • 中文序号编号
    正则表达式:[一二三四五六七八九十]*、[\u4e00-\u9fa5a-zA-Z]+
    示例:一、标题

  • 小说章节目录
    正则表达式:[第][一二三四五六七八九十]+[章][\u4e00-\u4e00a-zA-Z]+
    示例:第一章 标题

  • 多级中文+数字编号
    正则表达式:[一二三四五六七八九十|1-9]+[、|.]1-9*.[1-9]*[\u4e00-\u9fa5a-zA-Z]+
    示例:一、一级标题 1.1 二级标题

详细操作和预览效果可参考 MaxKB 使用正则表达式分段

2 上传文档向量化后,字符数为 0

上传的文档类型实际是 .doc 格式,而非其他支持的格式,导致向量化后字符数为 0。 上传文档要求:

  • 文本文件:Markdown、TXT、PDF、DOCX、HTML、XLS、XLSX、CSV、ZIP;
  • 表格:XLS、XLSX、CSV、ZIP;
  • QA 问答对:XLS、XLSX、CSV、ZIP;

3 文档提交成功,但未显示上传的文档

文档提交成功后未显示上传的文档,可能是反向代理的请求大小配置不,增加代理配置后可解决此问题。

4 知识库以 ZIP 格式导出再导入时分段数不一致

导出知识库后,重新上传 ZIP 文件时,请选择 “QA 问答对” 进行导入。

5 知识库上传文档后,文档标题乱码

的压缩软件导致问题。已知 WinRAR 和 52 压缩存在兼容性问题,建议使用其他压缩软件进行压缩和解压操作。

6 向量化成功,但生成问题失败

可能是当前使用的生成问题的大模型存在问题。可以尝试更换其他生成问题的大模型来解决此问题。此外,可以检查后台日志文件以获取更多错误信息,日志文件位于 /opt/maxkb/logs 目录下,通过查看日志可以了解具体的错误原因。