Wei Xu
Wei Xu
because standard summarization evaluation (may be from PointerGenerator) need the Stanford NLP tokenization. see BART, it don't tokenize twice for training/infer, but before evaluation, it will use StanfordNLP tokenizer. So...
好的,接下来会依次尝试。
嗯嗯。刚刚查看了下错误预测的结果,发现与预期不符。 因为字典中包含的很多数词在外部Embedding中没有出现,所以猜测在devel时应该有较多类似的数字词汇预测错误。然而查看一些结果后,发现很多错误都是由 **有`多词性`的词语预测错误** 而带来的。也许加入前一个Tag会有所帮助,最终可能还需要+CRF层或维特比解码之类的。到时还需要师兄指导下。 先尝试把前一个预测的Tag加上。需要想想该怎么做...
### 模型一 基础的完全基于分类的模型 待补充
### 模型二  ### 实验设置 1. word embedding dim : 50 , postag embedding dim : 5 , ner embedding dim : 5 2. max epoch 5 , devel freq...
### 模型三  ### 实验设置 1. gigawords : word2vec training with negative-samples mode and **skip-gram** mothod , dimension 50 2. sogou-news : same as gigawords 3. the others is same...
### 模型四  ### 实验设置 1. dropout rate 0.1 2. the others is same as 实验二 setting ### 实验结果 | dataset | crf-dr0.1 F1 | | --- | --- |...
### 模型五  ### 实验设置 1. dropout rate 0.1 2. the others is the same as 实验三 setting ### 实验结果 | dataset | giga-dr0.1 | sogou-dr0.1 | | --- |...
## 基于窗口的实验 ### 解释 rnn-lstm是基于整个句子的,但是不方便提高速度(利用batch,其实也是可以的,但是还没有做测试);我们想要尝试基于窗口的方法。输入是一个窗口(如窗口大小为5)的词,通过对这个窗口内的词做表示学习,来完成对整个句子的序列标注。 传统的CRF方法做序列标注,就可以认为是基于窗口的方法(在X的特征表示上),其提取的X特征往往是基于一个窗口的,常见的特征如 [ (W, -2) ,..., (W, 2), ( (W, -2), (W-1) ), ... ] 等其实就是窗口内的窗口为5的unigram与bigram特征。不过需要注意的是,CRF方法在解码时是全局的,即整个句子上的解码。我们目前使用的模型,如前面的`设置`所言,只考虑分类方法。因此其效果可能不如CRF。 传统的NN处理一个窗口的词,往往就是把这些词的Embedding拼接起来。这是一种方法,此外,我们也想尝试更多的方法。这些可能的方法就是我们所希望探究的。 ### 窗口处理方法 输入,一个窗口的词向量。注意,这个`词`含义很模糊,可能是unigram,或者bigram,或者二者的混合,甚至是加上了额外特征的信息,总的来说,就是表示当前位置的特征向量(集合)。输入的是一个窗口内各位置的特征向量集合。下面简述为窗口内的各向量。 1. concatenate 传统方法,直接拼接;一个问题是拼接后向量很长,计算复杂度高。 2. average 也算是传统方法,把窗口内各向量...
## 基于窗口的实验结果简记 | 窗口方法 | unigram-best | bigram-best | | --- | --- | --- | | concatenate | **92.99%** | 93.61% | | average | 50.88% | 67.51% |...