SimCSE-Chinese-Pytorch icon indicating copy to clipboard operation
SimCSE-Chinese-Pytorch copied to clipboard

sts-b数据集

Open ZXY12391 opened this issue 1 year ago • 9 comments

请问可以发一份sts-b数据集链接吗?github中的失效了

ZXY12391 avatar Dec 03 '24 13:12 ZXY12391

https://github.com/zejunwang1/CSTS/tree/main/Chinese-STS-B

wangjiangyue0226 avatar Dec 06 '24 09:12 wangjiangyue0226

https://zhuanlan.zhihu.com/p/634871699 这里面有

vdogmcgee avatar Dec 06 '24 09:12 vdogmcgee

您好,您发给我的邮件我已收到,会尽快给您回复。祝您身体健康,天天开心。

wangjiangyue0226 avatar Dec 06 '24 09:12 wangjiangyue0226

https://zhuanlan.zhihu.com/p/634871699 这里面有

看了一下这个数据集,STS-B数据是text1\ttext2\tlabel形式

一架飞机要起飞了。 一架飞机正在起飞。 5 一个男人在吹一支大笛子。 一个人在吹长笛。 3 一个人正把切碎的奶酪撒在比萨饼上。 一个男人正在把切碎的奶酪撒在一块未煮好的比萨饼上。 3

但是训练的代码数据加载是这个样的,跟数据对不太上

def load_sts_data(path):
        with open(path, 'r', encoding='utf8') as f:            
            return [(line.split("||")[1], line.split("||")[2], line.split("||")[3]) for line in f]   

class TrainDataset(Dataset):
    """训练数据集, 重写__getitem__和__len__方法
    """
    def __init__(self, data: List):
        self.data = data
        
    def __len__(self):
        return len(self.data)
    
    def text_2_id(self, text: str):
        return tokenizer([text[0], text[1], text[2]], max_length=MAXLEN, 
                         truncation=True, padding='max_length', return_tensors='pt')
    
    def __getitem__(self, index: int):
        return self.text_2_id(self.data[index])

wanzhixiao avatar May 25 '25 08:05 wanzhixiao

您好,您发给我的邮件我已收到,会尽快给您回复。祝您身体健康,天天开心。

wangjiangyue0226 avatar May 25 '25 08:05 wangjiangyue0226

可能当时数据格式有点区别。你参考他的数据格式,修改一下字符串分割方式就行。

vdogmcgee avatar May 25 '25 08:05 vdogmcgee

可能当时数据格式有点区别。你参考他的数据格式,修改一下字符串分割方式就行。

想问下TrainDataset里的这段

    def text_2_id(self, text: str):
        return tokenizer([text[0], text[1], text[2]], max_length=MAXLEN, 
                         truncation=True, padding='max_length', return_tensors='pt')
    
    def __getitem__(self, index: int):
        return self.text_2_id(self.data[index])

text_2_id函数中的text[0], text[1], text[2]分别代表什么呢

wanzhixiao avatar May 25 '25 08:05 wanzhixiao

没记错的话,训练数据应该用的是 snli 数据集,这三个,0 ,1 互为正样本对,2代表负样本

vdogmcgee avatar May 25 '25 09:05 vdogmcgee

没记错的话,训练数据应该用的是 snli 数据集,这三个,0 ,1 互为正样本对,2代表负样本

懂了,谢谢

wanzhixiao avatar May 25 '25 09:05 wanzhixiao