知识库¶
1 智能分段效果不理想¶
默认的分段逻辑无法完全适配特定文档的内容结构,可以尝试在导入文档后选择“高级分段”,并在分段标识输入框中直接输入正则表达式,以实现精准的分段操作。
应用场景举例:
-
多级数字编号
正则表达式:\d+.\d*.\d*.[a-zA-Z\s]*[\u4e00-\u9fa5,]+
示例:1. 一级标题 1.1 二级标题 -
中文序号编号:
正则表达式:[一二三四五六七八九十]*、[\u4e00-\u9fa5a-zA-Z]+
示例:一、标题 -
小说章节目录:
正则表达式:[第][一二三四五六七八九十]+[章][\u4e00-\u4e00a-zA-Z]+
示例:第一章 标题 -
多级中文+数字编号:
正则表达式:[一二三四五六七八九十|1-9]+[、|.]1-9*.[1-9]*[\u4e00-\u9fa5a-zA-Z]+
示例:一、一级标题 1.1 二级标题
详细操作和预览效果可参考 MaxKB 使用正则表达式分段。
2 上传文档向量化后,字符数为 0¶
上传的文档类型实际是 .doc
格式,而非其他支持的格式,导致向量化后字符数为 0。
上传文档要求:
- 文本文件:Markdown、TXT、PDF、DOCX、HTML、XLS、XLSX、CSV、ZIP;
- 表格:XLS、XLSX、CSV、ZIP;
- QA 问答对:XLS、XLSX、CSV、ZIP;
3 文档提交成功,但未显示上传的文档¶
文档提交成功后未显示上传的文档,可能是反向代理的请求大小配置不,增加代理配置后可解决此问题。
4 知识库以 ZIP 格式导出再导入时分段数不一致¶
导出知识库后,重新上传 ZIP 文件时,请选择 “QA 问答对” 进行导入。
5 知识库上传文档后,文档标题乱码¶
的压缩软件导致问题。已知 WinRAR 和 52 压缩存在兼容性问题,建议使用其他压缩软件进行压缩和解压操作。
6 向量化成功,但生成问题失败¶
可能是当前使用的生成问题的大模型存在问题。可以尝试更换其他生成问题的大模型来解决此问题。此外,可以检查后台日志文件以获取更多错误信息,日志文件位于 /opt/maxkb/logs
目录下,通过查看日志可以了解具体的错误原因。