Kaikai An

Results 3 comments of Kaikai An

> > 您好,感谢您的工作带给我非常多的思考。 因为想复现一下,所以想知道你在pre-training的时候,使用了多少的Amazon和Yelp数据呢? 文章说manually check a small portion,但是网盘提供的分别是一百万和四百万条数据,请问您在预训练的时候使用部分可以发布一下吗? 另外关于验证集的问题,好像您的代码里面并没有出现验证集?而是直接用的测试集去选取的模型吗?如果是这样的话是否欠妥? > > 你好,请问Amazon和Yelp的数据在哪个网盘中存放着呢,怎么获得这些数据呢? 作者在这一部分Data Preparation & Preprocessing给了网盘的链接和提取密码

I have checked my gpt4_discriminative_eval_input and find that the number of examples that need to be evaluated by LLMs are: content: 65 | mixed: 45 | format: 140 | situation:...

> 评测方式:rule base (规则) + llm base(评估模型(gpt)) 数据子集:它给的六类:content、example、mix etc。 指标:HSR、SSR、CLS > > example这个数据子集跑了(HSR, CLS)指标,特殊的,直接用了待评估模型数据跑的。`def evaluate_example_constraint` and `def csl_evaluation` 其他的五个:调用gpt跑了评估结果,拼了prompt。`def discriminative_evaluation` and `def rule_evaluation`这两跑完出了个结果,HSR、SSR数组取的值不一样。`discriminative_result[0] --> hsr;discriminative_result[1] --> ssr`. CLS: `def csl_evaluation`...