MayLeeCat

Results 2 comments of MayLeeCat

好的。 [2023年分数线.xlsx](https://github.com/InternLM/HuixiangDou/files/14810470/2023.xlsx) 例如这个表格,我将其转换成json格式以后放进Chroma数据库中,这个数据库除了这个表格以外还有其他很多关于学校信息的内容。当我询问“学校23年分数线是多少”的时候,数据库检索到的信息并不包括这个表格的json格式。我个人猜测是json内容大部分都是符号,数字,和query的相似度太低导致无法检索到? 关于prompt太长:我们最开始把json放进prompt里交给大模型(我们使用的是文心4.0的接口),虽然他回答的很好,但表格很多,全放进prompt里面的话响应时间太长,费用也太高。所以我们想到把json放进向量数据库中检索的方法,于是产生了上述的问题。 非常感谢您的解答!

感谢您的回复。此外还有一个问题想要询问,就是数据库在检索时会将json段落“截断”,导致模型无法识别这个表格。我该怎么做才能让数据库在检索的时候不要把json给切断呢?非常感谢! ![image](https://github.com/InternLM/HuixiangDou/assets/134131353/63149214-23a3-4f40-a904-7663f4a1a139)