embedding_study icon indicating copy to clipboard operation
embedding_study copied to clipboard

ELMo-data

Open 2hip3ng opened this issue 7 years ago • 17 comments

数据可用分享一份吗

2hip3ng avatar Dec 21 '18 08:12 2hip3ng

@2hip3ng 数据是自己爬的,没有什么特殊的地方,数据格式就是分词后的文件:

美好 的 生活 , 离 不 开 越来越 鼓 的 “ 钱 袋子 ” , 同样 离 不 开 的 还有 干净 整洁 有序 的 “ 美 村子 ”

一行行这样的就行,中文的ELMO觉得还是字向量比较好一些。

YC-wind avatar Dec 21 '18 08:12 YC-wind

嗯,老板让我训一个ELMo的字向量

2hip3ng avatar Dec 21 '18 08:12 2hip3ng

你是用每个词作为一个输入吧

2hip3ng avatar Dec 21 '18 08:12 2hip3ng

输入是 (batch_size,max_seq_word_len,max_char_len) , 输出是(batch_size,max_seq_word_len) ,后移一位

YC-wind avatar Dec 21 '18 08:12 YC-wind

max_seq_word_len就是分词之后的最大词长度吧

2hip3ng avatar Dec 21 '18 08:12 2hip3ng

@2hip3ng 一句话最多有多少个单词组成,不足就padding,max_char_len及时一个单词最多由多少个字组成,不足同样padding

YC-wind avatar Dec 21 '18 08:12 YC-wind

可不可以直接用sentence来训这个字向量,就是max_seq_word_len换成最大sentence长度。

2hip3ng avatar Dec 21 '18 08:12 2hip3ng

你可以试一下,哈哈,有收获记得和大家分享下😄

YC-wind avatar Dec 21 '18 08:12 YC-wind

可以,我老板应该是要我直接用句子训,没看论文,不知道论文是用词训的还是句子训的啊?

2hip3ng avatar Dec 21 '18 08:12 2hip3ng

你是工作了,还是学生啊。预测是学生😄

YC-wind avatar Dec 21 '18 08:12 YC-wind

哈哈,是啊,你咋知道的啊,你呢

2hip3ng avatar Dec 21 '18 08:12 2hip3ng

深度学习学出来的,😄(有“老板”这个关键字)

YC-wind avatar Dec 21 '18 09:12 YC-wind

我加你QQ了,额额

2hip3ng avatar Dec 21 '18 09:12 2hip3ng

想请教一下: 1.中文的ELMO是不是词向量比较好一些,因为中文词基本2到4个字,卷积基本一次就没了。 2.还有,直接用sentence来训这个字向量是什么意思呀?为什么用sentence来训练的话是把max_seq_word_len换成最大sentence长度?现在max_seq_word_len指的不就是一个句子中的单词个数吗,不足的话补padding。 谢谢!@YC-wind

JepsonWong avatar Jan 07 '19 11:01 JepsonWong

@JepsonWong 1、词向量会好一些,但是会占用较大的内存,因为每个字的组合会很多,最后decode时候会很慢,而字向量相对较少,常用的差不多2000左右,词的话就会大的多;2、用sentence理论是可以的,但是不现实,文本按照这个层级,就是 text-seq-word-char;这个就偏长文本了,层次多了。

YC-wind avatar Jan 07 '19 12:01 YC-wind

综合,建议还是使用字向量好一些,因为分词还有误差呢。😄

YC-wind avatar Jan 07 '19 12:01 YC-wind

综合,建议还是使用字向量好一些,因为分词还有误差呢。😄

好的 多谢

JepsonWong avatar Jan 07 '19 12:01 JepsonWong