sts-b数据集
请问可以发一份sts-b数据集链接吗?github中的失效了
https://github.com/zejunwang1/CSTS/tree/main/Chinese-STS-B
https://zhuanlan.zhihu.com/p/634871699 这里面有
您好,您发给我的邮件我已收到,会尽快给您回复。祝您身体健康,天天开心。
https://zhuanlan.zhihu.com/p/634871699 这里面有
看了一下这个数据集,STS-B数据是text1\ttext2\tlabel形式
一架飞机要起飞了。 一架飞机正在起飞。 5 一个男人在吹一支大笛子。 一个人在吹长笛。 3 一个人正把切碎的奶酪撒在比萨饼上。 一个男人正在把切碎的奶酪撒在一块未煮好的比萨饼上。 3
但是训练的代码数据加载是这个样的,跟数据对不太上
def load_sts_data(path):
with open(path, 'r', encoding='utf8') as f:
return [(line.split("||")[1], line.split("||")[2], line.split("||")[3]) for line in f]
class TrainDataset(Dataset):
"""训练数据集, 重写__getitem__和__len__方法
"""
def __init__(self, data: List):
self.data = data
def __len__(self):
return len(self.data)
def text_2_id(self, text: str):
return tokenizer([text[0], text[1], text[2]], max_length=MAXLEN,
truncation=True, padding='max_length', return_tensors='pt')
def __getitem__(self, index: int):
return self.text_2_id(self.data[index])
您好,您发给我的邮件我已收到,会尽快给您回复。祝您身体健康,天天开心。
可能当时数据格式有点区别。你参考他的数据格式,修改一下字符串分割方式就行。
可能当时数据格式有点区别。你参考他的数据格式,修改一下字符串分割方式就行。
想问下TrainDataset里的这段
def text_2_id(self, text: str):
return tokenizer([text[0], text[1], text[2]], max_length=MAXLEN,
truncation=True, padding='max_length', return_tensors='pt')
def __getitem__(self, index: int):
return self.text_2_id(self.data[index])
text_2_id函数中的text[0], text[1], text[2]分别代表什么呢
没记错的话,训练数据应该用的是 snli 数据集,这三个,0 ,1 互为正样本对,2代表负样本
没记错的话,训练数据应该用的是 snli 数据集,这三个,0 ,1 互为正样本对,2代表负样本
懂了,谢谢