Zhenlei Ye
Zhenlei Ye
I got the same question, could you please tell me whether have you solved this problem?
I trained the model 7times,and it got different loss value,I think maybe the Initialisation get false. and the data in dataset should'n contains nan or null
12起步吧应该,我自己的电脑8G也跑不起来,用的服务器跑的
啊?我3070ti 8g都跑不了……这是为啥捏 发自我的iPhone ------------------ 原始邮件 ------------------ 发件人: logCong ***@***.***> 发送时间: 2022年6月16日 22:09 收件人: liucongg/GPT2-NewsTitle ***@***.***> 抄送: Fino-QQ2361784228 ***@***.***>, Comment ***@***.***> 主题: Re: [liucongg/GPT2-NewsTitle] 您好关于运行代码加载模型到GPU上时直接报显存溢出的问题 (Issue #31)
我用的huggingface上1024长度的预训练模型,然后batchsize是8,(但是我之前试过4好像也不行,2行不行不大记得了),生成的长度大概是25吧 发自我的iPhone ------------------ 原始邮件 ------------------ 发件人: logCong ***@***.***> 发送时间: 2022年6月16日 22:12 收件人: liucongg/GPT2-NewsTitle ***@***.***> 抄送: Fino-QQ2361784228 ***@***.***>, Comment ***@***.***> 主题: Re: [liucongg/GPT2-NewsTitle] 您好关于运行代码加载模型到GPU上时直接报显存溢出的问题 (Issue #31)
5555,可是我做的这个任务的数据集长度就非常的长,我明天再试试截取512长度吧,然后请问提取文本中的重要语句的方法除了抽取式摘要rankpage这些还有啥办法捏 发自我的iPhone ------------------ 原始邮件 ------------------ 发件人: logCong ***@***.***> 发送时间: 2022年6月16日 22:15 收件人: liucongg/GPT2-NewsTitle ***@***.***> 抄送: Fino-QQ2361784228 ***@***.***>, Comment ***@***.***> 主题: Re: [liucongg/GPT2-NewsTitle] 您好关于运行代码加载模型到GPU上时直接报显存溢出的问题 (Issue #31)
> 最大1027,如果是47k长度,可以考虑先选择重要内容,再进行生成 请问你直接只改config.json和train.py这两个数据就可以训练了吗?预训练的GPT2模型的维度是[1,1,512,512]的,我只是改到3000,为啥你的可以训练呢?? 
> > > > 最大1027,如果是47k长度,可以考虑先选择重要内容,再进行生成 请问有什么方法可以实现选择重要内容呢
emmmm硬件属实不大行,我尝试自己从头训练,但是gpt2确实太大了,我的服务器跑不动……所以只能找预训练模型 发自我的iPhone ------------------ 原始邮件 ------------------ 发件人: Xiaoyu.S ***@***.***> 发送时间: 2022年5月30日 17:22 收件人: liucongg/GPT2-NewsTitle ***@***.***> 抄送: Fino2020 ***@***.***>, Author ***@***.***> 主题: Re: [liucongg/GPT2-NewsTitle] 关于长文本标题生成的一些问题 (Issue #30)
>   emmmm我用了一个huggingface上的一个预训练模型,然后用了一个小数据集来训练了一下,但是在保存模型的时候一直报错,说是我存的路径不是文件夹,但是我单独把这个路径拿出来显示这确实是一个文件夹