SimCSE-Chinese-Pytorch sts-b数据集

请问可以发一份sts-b数据集链接吗？github中的失效了

Dec 03 '24 13:12 ZXY12391

https://github.com/zejunwang1/CSTS/tree/main/Chinese-STS-B

Dec 06 '24 09:12 wangjiangyue0226

https://zhuanlan.zhihu.com/p/634871699 这里面有

Dec 06 '24 09:12 vdogmcgee

您好，您发给我的邮件我已收到，会尽快给您回复。祝您身体健康，天天开心。

Dec 06 '24 09:12 wangjiangyue0226

https://zhuanlan.zhihu.com/p/634871699 这里面有

看了一下这个数据集，STS-B数据是text1\ttext2\tlabel形式

一架飞机要起飞了。一架飞机正在起飞。 5 一个男人在吹一支大笛子。一个人在吹长笛。 3 一个人正把切碎的奶酪撒在比萨饼上。一个男人正在把切碎的奶酪撒在一块未煮好的比萨饼上。 3

但是训练的代码数据加载是这个样的，跟数据对不太上

def load_sts_data(path):
        with open(path, 'r', encoding='utf8') as f:            
            return [(line.split("||")[1], line.split("||")[2], line.split("||")[3]) for line in f]   

class TrainDataset(Dataset):
    """训练数据集, 重写__getitem__和__len__方法
    """
    def __init__(self, data: List):
        self.data = data
        
    def __len__(self):
        return len(self.data)
    
    def text_2_id(self, text: str):
        return tokenizer([text[0], text[1], text[2]], max_length=MAXLEN, 
                         truncation=True, padding='max_length', return_tensors='pt')
    
    def __getitem__(self, index: int):
        return self.text_2_id(self.data[index])

May 25 '25 08:05 wanzhixiao

您好，您发给我的邮件我已收到，会尽快给您回复。祝您身体健康，天天开心。

May 25 '25 08:05 wangjiangyue0226

可能当时数据格式有点区别。你参考他的数据格式，修改一下字符串分割方式就行。

May 25 '25 08:05 vdogmcgee

可能当时数据格式有点区别。你参考他的数据格式，修改一下字符串分割方式就行。

想问下TrainDataset里的这段

    def text_2_id(self, text: str):
        return tokenizer([text[0], text[1], text[2]], max_length=MAXLEN, 
                         truncation=True, padding='max_length', return_tensors='pt')
    
    def __getitem__(self, index: int):
        return self.text_2_id(self.data[index])

text_2_id函数中的text[0], text[1], text[2]分别代表什么呢

May 25 '25 08:05 wanzhixiao

没记错的话，训练数据应该用的是 snli 数据集，这三个，0 ，1 互为正样本对，2代表负样本

May 25 '25 09:05 vdogmcgee

没记错的话，训练数据应该用的是 snli 数据集，这三个，0 ，1 互为正样本对，2代表负样本

懂了，谢谢

May 25 '25 09:05 wanzhixiao