Zhenlei Ye

Results 13 comments of Zhenlei Ye

I got the same question, could you please tell me whether have you solved this problem?

I trained the model 7times,and it got different loss value,I think maybe the Initialisation get false. and the data in dataset should'n contains nan or null

12起步吧应该,我自己的电脑8G也跑不起来,用的服务器跑的

啊?我3070ti 8g都跑不了……这是为啥捏 发自我的iPhone ------------------ 原始邮件 ------------------ 发件人: logCong ***@***.***> 发送时间: 2022年6月16日 22:09 收件人: liucongg/GPT2-NewsTitle ***@***.***> 抄送: Fino-QQ2361784228 ***@***.***>, Comment ***@***.***> 主题: Re: [liucongg/GPT2-NewsTitle] 您好关于运行代码加载模型到GPU上时直接报显存溢出的问题 (Issue #31)

我用的huggingface上1024长度的预训练模型,然后batchsize是8,(但是我之前试过4好像也不行,2行不行不大记得了),生成的长度大概是25吧 发自我的iPhone ------------------ 原始邮件 ------------------ 发件人: logCong ***@***.***> 发送时间: 2022年6月16日 22:12 收件人: liucongg/GPT2-NewsTitle ***@***.***> 抄送: Fino-QQ2361784228 ***@***.***>, Comment ***@***.***> 主题: Re: [liucongg/GPT2-NewsTitle] 您好关于运行代码加载模型到GPU上时直接报显存溢出的问题 (Issue #31)

5555,可是我做的这个任务的数据集长度就非常的长,我明天再试试截取512长度吧,然后请问提取文本中的重要语句的方法除了抽取式摘要rankpage这些还有啥办法捏 发自我的iPhone ------------------ 原始邮件 ------------------ 发件人: logCong ***@***.***> 发送时间: 2022年6月16日 22:15 收件人: liucongg/GPT2-NewsTitle ***@***.***> 抄送: Fino-QQ2361784228 ***@***.***>, Comment ***@***.***> 主题: Re: [liucongg/GPT2-NewsTitle] 您好关于运行代码加载模型到GPU上时直接报显存溢出的问题 (Issue #31)

> 最大1027,如果是47k长度,可以考虑先选择重要内容,再进行生成 请问你直接只改config.json和train.py这两个数据就可以训练了吗?预训练的GPT2模型的维度是[1,1,512,512]的,我只是改到3000,为啥你的可以训练呢?? ![image](https://user-images.githubusercontent.com/66312471/170204901-1f0629d8-d9cc-4aae-ac0d-2f3658649914.png)

> > > > 最大1027,如果是47k长度,可以考虑先选择重要内容,再进行生成 请问有什么方法可以实现选择重要内容呢

emmmm硬件属实不大行,我尝试自己从头训练,但是gpt2确实太大了,我的服务器跑不动……所以只能找预训练模型 发自我的iPhone ------------------ 原始邮件 ------------------ 发件人: Xiaoyu.S ***@***.***> 发送时间: 2022年5月30日 17:22 收件人: liucongg/GPT2-NewsTitle ***@***.***> 抄送: Fino2020 ***@***.***>, Author ***@***.***> 主题: Re: [liucongg/GPT2-NewsTitle] 关于长文本标题生成的一些问题 (Issue #30)

> ![image](https://user-images.githubusercontent.com/66312471/170970395-f37bf44f-6055-4510-ab54-03682d59e3ff.png) ![image](https://user-images.githubusercontent.com/66312471/170970676-9d8ca65d-c40c-458f-b919-dae1801288f3.png) emmmm我用了一个huggingface上的一个预训练模型,然后用了一个小数据集来训练了一下,但是在保存模型的时候一直报错,说是我存的路径不是文件夹,但是我单独把这个路径拿出来显示这确实是一个文件夹