Wei Xu comments

Results 20 comments of


                                            Wei Xu

Why tokenizing 2 times ?

because standard summarization evaluation (may be from PointerGenerator) need the Stanford NLP tokenization. see BART, it don't tokenize twice for training/infer, but before evaluation, it will use StanfordNLP tokenizer. So...

词性标注实验提高性能的方案

好的，接下来会依次尝试。

词性标注实验提高性能的方案

嗯嗯。刚刚查看了下错误预测的结果，发现与预期不符。因为字典中包含的很多数词在外部Embedding中没有出现，所以猜测在devel时应该有较多类似的数字词汇预测错误。然而查看一些结果后，发现很多错误都是由 **有`多词性`的词语预测错误** 而带来的。也许加入前一个Tag会有所帮助，最终可能还需要+CRF层或维特比解码之类的。到时还需要师兄指导下。先尝试把前一个预测的Tag加上。需要想想该怎么做...

命名实体识别实验

### 模型一基础的完全基于分类的模型待补充

命名实体识别实验

### 模型二 ![image](https://cloud.githubusercontent.com/assets/5585818/15236294/8670827c-18f5-11e6-901a-6f3f6b296dc4.png) ### 实验设置 1. word embedding dim : 50 , postag embedding dim : 5 , ner embedding dim : 5 2. max epoch 5 , devel freq...

命名实体识别实验

### 模型三 ![image](https://cloud.githubusercontent.com/assets/5585818/15281723/5b87b3c8-1b70-11e6-99d7-a72aa77d1ee3.png) ### 实验设置 1. gigawords : word2vec training with negative-samples mode and **skip-gram** mothod , dimension 50 2. sogou-news : same as gigawords 3. the others is same...

命名实体识别实验

### 模型四 ![image](https://cloud.githubusercontent.com/assets/5585818/15281705/31065d70-1b70-11e6-9b91-f23f748bd628.png) ### 实验设置 1. dropout rate 0.1 2. the others is same as 实验二 setting ### 实验结果 | dataset | crf-dr0.1 F1 | | --- | --- |...

命名实体识别实验

### 模型五 ![image](https://cloud.githubusercontent.com/assets/5585818/15281729/6b80dbec-1b70-11e6-8fdd-e6d4c437e459.png) ### 实验设置 1. dropout rate 0.1 2. the others is the same as 实验三 setting ### 实验结果 | dataset | giga-dr0.1 | sogou-dr0.1 | | --- |...

分词实验重做，且实验设置、记录简化

## 基于窗口的实验 ### 解释 rnn-lstm是基于整个句子的，但是不方便提高速度（利用batch，其实也是可以的，但是还没有做测试）；我们想要尝试基于窗口的方法。输入是一个窗口（如窗口大小为5）的词，通过对这个窗口内的词做表示学习，来完成对整个句子的序列标注。传统的CRF方法做序列标注，就可以认为是基于窗口的方法（在X的特征表示上），其提取的X特征往往是基于一个窗口的，常见的特征如 [ (W, -2) ,..., (W, 2), ( (W, -2), (W-1) ), ... ] 等其实就是窗口内的窗口为5的unigram与bigram特征。不过需要注意的是，CRF方法在解码时是全局的，即整个句子上的解码。我们目前使用的模型，如前面的`设置`所言，只考虑分类方法。因此其效果可能不如CRF。传统的NN处理一个窗口的词，往往就是把这些词的Embedding拼接起来。这是一种方法，此外，我们也想尝试更多的方法。这些可能的方法就是我们所希望探究的。 ### 窗口处理方法输入，一个窗口的词向量。注意，这个`词`含义很模糊，可能是unigram，或者bigram，或者二者的混合，甚至是加上了额外特征的信息，总的来说，就是表示当前位置的特征向量（集合）。输入的是一个窗口内各位置的特征向量集合。下面简述为窗口内的各向量。 1. concatenate 传统方法，直接拼接；一个问题是拼接后向量很长，计算复杂度高。 2. average 也算是传统方法，把窗口内各向量...

分词实验重做，且实验设置、记录简化

## 基于窗口的实验结果简记 | 窗口方法 | unigram-best | bigram-best | | --- | --- | --- | | concatenate | **92.99%** | 93.61% | | average | 50.88% | 67.51% |...