zouweidong comments

Results 7 comments of


                                            zouweidong

致大家🙋‍♀️🙋‍♂️

感谢作者的源码，今天用docker 重新部署了下，教程也已经写了，欢迎大家访问 http://www.zwdong.top/ 穷啊，只能用top域名了

opencv的copyMakeBorder函数报错

> > 这个是自己按照LGPMA方案中所需要的标签去标注的，主要就是单元格的坐标信息以及单元格跨行跨列的信息。请问表格标注用的什么工具。标注了多少训练数据呢

[BUG/Help]IndexError: piece id is out of range. <title>

> 一样 hf上下的的模型 decoder的时候报错我看到tokenizer的vocob数量是64789 我这边生成的token是64881 报超出范围了我又看了 chatglm-2的分类头大小是65024 感觉是tokenizer没对上? 你是对的，确实数字对不上，微调之后模型会预测出一些大于vocab_size的index。不知道官方为什么vocab_size和分类头大小不一致。目前简单粗暴的方法就是，把他的SPTokenizer稍微改下，超出索引的直接返回空字符就可以了。 ``` def convert_id_to_token(self, index): """Converts an index (integer) in a token (str) using the vocab.""" # if index...

训练ner， tf2.2 异常， tf1.14 正常

tf切换为2.3.0 设置os.environ['TF_KERAS'] = '1' 。自己代码中所有from keras ** 改为 from tensorflow.keras **

deepseek r1微调

> > > > { > > > > "instruction":"将2023年6月15日加6周。请给出非常简短的答案。", > > > > "input":"", > > > > "output":"好的，让我来想想这个问题。用户说的是把2023年6月15日加上6周，需要给出非常简短的答案。首先，我需要确定如何正确计算这个日期。\n\n首先，6周等于42天，对吧？因为一周7天，所以6乘以7是42。那我可以直接在6月15日的基础上加上42天。不过，直接加天数可能会遇到不同月份天数的问题，所以可能需要分步骤来算。\n\n先看一下6月15日之后6月还有多少天。6月有30天，所以从15日到30日还有15天。加上15天后，剩下的天数就是42减15等于27天。也就是说，6月结束后，还有27天需要加到后面的月份里。\n\n接下来是7月，7月有31天。那27天减去7月的31天吗？不对，应该是从7月1日开始加上剩下的27天。这样，7月1日到7月27日就是27天。所以，加上6月剩余的15天，到6月30日，然后加上7月的27天，总共是42天，也就是6周之后的时间应该是7月27日？\n\n不过，可能我哪里算错了？比如，如果6月15日加42天的话，可以另一种方法计算。比如，先计算从6月15日到7月15日是一个月，即30天（因为6月有30天），这时候已经过去了30天，还剩42-30=12天。然后从7月15日再加12天，就是7月27日。这样结果和之前一致，看来是对的。\n\n不过，有没有可能因为月份的天数不同而导致错误？比如，如果6月15日加一个月的话，是到7月15日，对吗？但是这里的30天可能对应的是不同的月份天数。所以，我觉得用直接加天数的方法比较可靠。\n\n也可以用另一种方法，比如用日期计算工具或者公式来验证。例如，6月15日加6周（42天），6月15日到6月30日是15天，剩下42-15=27天。7月有31天，所以27天在7月就是7月27日。没错，所以答案应该是2023年7月27日。\n\n不过，用户可能希望得到更简洁的答案，不需要过程，所以直接给出日期即可。我需要确认是否正确，避免出错。比如，是否6月15日加六周确实是7月27日？可以通过在线计算器确认一下。假设正确的话，答案就是7月27日。或者有没有可能中间出现错误，比如闰年或者其他因素？2023年不是闰年，所以2月有28天，但这里不涉及2月，所以不影响。因此，最终答案应该是正确的。\n\n\n2023年7月27日。" > > > > } > > > > 我是把CoT数据做成了alpaca格式...

deepseek r1微调

> 你好如果不想要predict字段中输出think内容只想要最终的推理结果怎么设置呢 lora微调后，vllm推理时，禁用推理模式，需要将chat_template 中最后的\n 删除，或者 ```python input_str = self.tokenizer.apply_chat_template( messages, tokenize=False, add_generation_prompt=True ) # deepseek 不用推理模式 input_str = input_str.replace("\n", "") ```

deepseek r1微调

> > > 你好如果不想要predict字段中输出think内容只想要最终的推理结果怎么设置呢 > > > > > > lora微调后，vllm推理时，禁用推理模式，需要将chat_template 中最后的`\n `删除，或者 > > ``` > > input_str = self.tokenizer.apply_chat_template( > > messages, tokenize=False, add_generation_prompt=True >...