Tao Yang
Tao Yang
> 你好,这部分代码是helm版本的,目前已经停止维护了;我们在operator版本中server-id是与序号绑定的,推荐你使用operator版本,[安装文档](https://github.com/radondb/radondb-mysql-kubernetes/blob/main/docs/kubernetes/deploy_radondb-mysql_operator_on_k8s.md)。 多谢,请问Operator版本中的MySQL dockerfile在哪里,因为需要做一些arm的移植
> 你好,这部分代码是helm版本的,目前已经停止维护了;我们在operator版本中server-id是与序号绑定的,推荐你使用operator版本,[安装文档](https://github.com/radondb/radondb-mysql-kubernetes/blob/main/docs/kubernetes/deploy_radondb-mysql_operator_on_k8s.md)。 server-id helm 版本也是和序号绑定的,影响gtid set的是 /var/lib/mysql/auto.cnf 中的server_uuid,我仔细看了下。是因为operator版本使用了percona官方镜像,在镜像的启动脚本里没有删除/var/lib/mysql/auto.cnf的逻辑,所以server_uuid 就固定了。而helm版本用的镜像里面有启动时删除auto.cnf的逻辑。 server_uuid固定的好处,是gtid set 的数量可控,只要数据不清空,那么最多就是副本数量。 但是缺点就是当整个集群持续写入场景下,当Leader Pod宕机后,重启后再加入集群会有很大的概率Raft的状态是INVALID(主节点的gtid 序号高于其他节点,而如果server_uuid不固定,就不会进入这个状态) 可以通过3节点集群并使用sysbench大流量持续写入的情况下,删除leader pod来复现。基本上100%复现
根据MySQL官方的解释: https://bugs.mysql.com/bug.php?id=99370 当主节点crash后,哪怕开启半同步,也需要清空数据加入集群。虽然Operator版本中增加了hack方法可以清空数据,但是依赖人工操作带来操作成本。 官方提供的替代方案是使用 Group Replication
> 你好,感谢你的关注。删除auto.cnf后无法保证数据的一致性;你说的异常切换的场景,出现invalid是由于旧主产生了本地事务,是符合MySQL半同步预期的,出现这种情况需要人工判断数据是否需要保留。 这边有考虑使用 Group Replication 实现么,是不是需要xenon来支持
> 你好,感谢你的关注。删除auto.cnf后无法保证数据的一致性;你说的异常切换的场景,出现invalid是由于旧主产生了本地事务,是符合MySQL半同步预期的,出现这种情况需要人工判断数据是否需要保留。 大部分情况下,是否考虑自动修复INVALID的Pod,可以作为一个配置项(Auto Repair Invalid Pod)。当配置项打开的时候,如果出现INVALID的Pod,自动清空数据,然后重启Pod,触发rebuild。
I solved this question. When you use ChatOpenAI model, Please use `chat-conversational-react-description` agent https://python.langchain.com/en/latest/modules/agents/agents/examples/chat_conversation_agent.html This agent has been optimized for parsing Chat responses .
因为这个课程不希望大家Public代码,所以没有公开代码,有需要的可以单独发邮件索取。
> 选举状态机的实现里, 在sleep心跳时长的时候, 没有办法接受处理AppendEntriesRPC broadcastAppendEntries()里会用协程的方式启动多个 sendAppendEntries,Reply由此处理。
微调效果不佳的原因是 bge 模型本身就在 T2Reranking 数据集上训练,重复训练没有突出提升是合理的。 在实际项目中,在行业专业知识上微调,有极大的效果提升。
这种情况可以用HyDE 方法。 使用一个快速模型(如gpt-3.5-turbo或者自托管的10B以内模型),对query进行直接回答(可以指令要求简短回答)。 然后对回答进行embedding ,用回答来检索文档。 这个模型如果在行业知识上post-pretain或者sft就更好了。 On Fri, Apr 26, 2024 at 15:57 liyunhan ***@***.***> wrote: > @ninehills 您好,请问: > > 1. 行业知识问答中,用户问题口语化严重,但是知识库专业名词偏多,这种情况BM25和BGE选择哪个更好? > 2. 如果微调的话,数据是不是也要准备很多口语化的“问题” > > — >...