Zhenlei Ye comments

Results 13 comments of


                                            Zhenlei Ye

No convergence during fine tuning

I got the same question, could you please tell me whether have you solved this problem?

No convergence during fine tuning

I trained the model 7times，and it got different loss value，I think maybe the Initialisation get false. and the data in dataset should'n contains nan or null

啊？我3070ti 8g都跑不了……这是为啥捏发自我的iPhone ------------------ 原始邮件 ------------------ 发件人: logCong ***@***.***> 发送时间: 2022年6月16日 22:09 收件人: liucongg/GPT2-NewsTitle ***@***.***> 抄送: Fino-QQ2361784228 ***@***.***>, Comment ***@***.***> 主题: Re: [liucongg/GPT2-NewsTitle] 您好关于运行代码加载模型到GPU上时直接报显存溢出的问题 (Issue #31)

您好关于运行代码加载模型到GPU上时直接报显存溢出的问题

我用的huggingface上1024长度的预训练模型，然后batchsize是8，（但是我之前试过4好像也不行，2行不行不大记得了），生成的长度大概是25吧发自我的iPhone ------------------ 原始邮件 ------------------ 发件人: logCong ***@***.***> 发送时间: 2022年6月16日 22:12 收件人: liucongg/GPT2-NewsTitle ***@***.***> 抄送: Fino-QQ2361784228 ***@***.***>, Comment ***@***.***> 主题: Re: [liucongg/GPT2-NewsTitle] 您好关于运行代码加载模型到GPU上时直接报显存溢出的问题 (Issue #31)

您好关于运行代码加载模型到GPU上时直接报显存溢出的问题

5555，可是我做的这个任务的数据集长度就非常的长，我明天再试试截取512长度吧，然后请问提取文本中的重要语句的方法除了抽取式摘要rankpage这些还有啥办法捏发自我的iPhone ------------------ 原始邮件 ------------------ 发件人: logCong ***@***.***> 发送时间: 2022年6月16日 22:15 收件人: liucongg/GPT2-NewsTitle ***@***.***> 抄送: Fino-QQ2361784228 ***@***.***>, Comment ***@***.***> 主题: Re: [liucongg/GPT2-NewsTitle] 您好关于运行代码加载模型到GPU上时直接报显存溢出的问题 (Issue #31)

关于使用长文本数据集训练的问题

> 最大1027，如果是47k长度，可以考虑先选择重要内容，再进行生成请问你直接只改config.json和train.py这两个数据就可以训练了吗？预训练的GPT2模型的维度是[1,1,512,512]的，我只是改到3000，为啥你的可以训练呢？？ ![image](https://user-images.githubusercontent.com/66312471/170204901-1f0629d8-d9cc-4aae-ac0d-2f3658649914.png)

关于使用长文本数据集训练的问题

> > > > 最大1027，如果是47k长度，可以考虑先选择重要内容，再进行生成请问有什么方法可以实现选择重要内容呢

关于长文本标题生成的一些问题

emmmm硬件属实不大行，我尝试自己从头训练，但是gpt2确实太大了，我的服务器跑不动……所以只能找预训练模型发自我的iPhone ------------------ 原始邮件 ------------------ 发件人: Xiaoyu.S ***@***.***> 发送时间: 2022年5月30日 17:22 收件人: liucongg/GPT2-NewsTitle ***@***.***> 抄送: Fino2020 ***@***.***>, Author ***@***.***> 主题: Re: [liucongg/GPT2-NewsTitle] 关于长文本标题生成的一些问题 (Issue #30)

关于长文本标题生成的一些问题

> ![image](https://user-images.githubusercontent.com/66312471/170970395-f37bf44f-6055-4510-ab54-03682d59e3ff.png) ![image](https://user-images.githubusercontent.com/66312471/170970676-9d8ca65d-c40c-458f-b919-dae1801288f3.png) emmmm我用了一个huggingface上的一个预训练模型，然后用了一个小数据集来训练了一下，但是在保存模型的时候一直报错，说是我存的路径不是文件夹，但是我单独把这个路径拿出来显示这确实是一个文件夹