如何做好chatFile？如何做RGA？

2023-12-26 21:27:28

chatFile

chatFile相关问题。这里有一篇综述论文，讲的很清楚！推荐研读

https://simg.baai.ac.cn/paperfile/25a43194-c74c-4cd3-b60f-0a1f27f8b8af.pdf

简单处理流程

用户输入问题?——>?把问题做BM25召回+把问题embedding然后做语义召回?——>?召回结果筛选，大于某个阈值，则用于构建prompt?——>?模型返回结果?——>页面回显

第一个阶段，数据解析

能解析：表格数据、图片数据、各个类型数据doc??PDF??markdown等

能分类：如何定制规则，不同的数据，不用的切分策略

扩展存储：类似将标题数据进行独立存储。这里有哪些数据是要继续扩展的，在后续的检索过程中可能会用到。

上下文数据：包括问答过程中的上下文？是否要存储。

像通义千问，就把问题都给记下来了。所以可以对问题进行总结。

数据切分规则：不同的数据，如何指定切分规则，才能更好的保留上下文内容。

问题生成方向：给用户生成问题，是为了获取很好的召回效果。就像出题一样，在出题前应该已经有正确答案了。反之会严重影响体验。

目前在问题生成上，存在较多的问题，经常发现，模型自己给的问题，无法正确回答！

问题能够正确回答，应该先理解问的是什么。其次是搜索能够把正确的内容召回，模型才有可能回答出来。而，能够搜索到的前提，是已经提前构建好有关数据。?所以在数据构建阶段，不仅要保证不丢失数据，还需要构建更多的元数据。

第二个阶段，召回阶段

意图识别，先弄清楚?再到处理action上。是QA？摘要？总结？同看全文，标题提取？脉络分析？事件？?经典反例：eg1?这篇文章在说什么？显然不能去搜索，应该去召回摘要。eg2?关于某某问题，都包含了哪几个点？此时

query?改写：用模型去改写query是否会有提生，看到比人有把问题经过GPT4，然后搜索召回会有提升。

思维链条：

问题拆解：是否需要将用户的复杂问题，进行拆分，然后再召回？

多路召回策略：

尽可能把和问题相关的数据召回。

第三个阶段，数据精排

多路召回后的数据，是否都包含了答案？如何把噪音数据清理掉？

多路召回的数据，如何做排序提升？目前分为BM25召回和向量检索召回。两者有各自的特点。向量语义检索，跟具有普适性，用户的问法可能和文档中的内容描述方式不一样，此时语义检索可以发挥好的作用。而BM25在用户输出的内容和文档强相关的时候，往往能获取到更好的效果，例如用户问题中的诸多关键词，都在原文中出现了，往往召回效果会比向量语义检索更好。?两者又有同样的缺点，在问题描述较短的时候，召回的效果较差。很短的词语在向量模型中，会丢失语义，因为在embedding的时候，就是用段落做的embedding。如果拿一个很短的词语去搜，不一定会有好的召回结果（这里可以探索，有没有更有效的文本嵌入模型）。同样BM25在很短词的检索场景下，召回会有太多的干扰项，如果一个词语被提及很多次，也同样不知道那条是答案。?

检索阶段的目标，是把和问题最相关的答案，尽可能的排在前边。其次是把和问题不相关的噪音数据排除掉，否则会出现回答错误的情况。

第四个阶段，构建prompt

通过合理的构建prompt，获取更好的回答。根据微软最近发的论文，好的prompt，模型即使不进行微调，也能获取较好的答案。

对于模型回答的结果，条理不够清晰。没有针对问题去做总结性的回答。文心一言和通义这点比较好。这里是不是可以通过prompt来做提升？

第五个阶段，模型回答

对于模型回答的结果，能否做验证？

第六个阶段，日志收集

全链路日志收集。用于快速研判错误。

对于日志的分析，如何将问题内循环，转为提升策略？尤其是用户踩的问答，如果作为反例去规避？

要不要把问答的内容，在构建成数据。作为检索的补充？

基于大模型的自动化测试

在通义chatGPT、千问上和文心一言上，生成问题。然后把这些问题，分别用chatGPT、文心一言、yayifile上去测试回答结果。然后把各个模型的结果做比对。暂时认为回答多的正确。?然后把问题，和回答不对的结果，回答正确的结果，做比对。?整体实现基于大模型的自动化测试。