note icon indicating copy to clipboard operation
note copied to clipboard

索引压缩原理

Open Yhzhtk opened this issue 7 years ago • 0 comments

索引构建总结

1. 基于排序的索引构建算法

  • 它是一种最原始的在内存中进行倒排的方法
  • 基于块的排序索引算法
  • 合并排序操作对于基于磁盘的排序来说很高效(避免寻道)

2. 内存式单遍扫描索引构建算法

  • 没有全局的词典
  • 对每个块都生成单独的词典
  • 不对倒排记录进行排序
  • 有新的倒排记录出现时,直接在倒排记录表中增加一项

3. 采用MapReduce的分布式索引构建算法

4. 动态索引构建算法:多个索引,对数合并

索引压缩

几个定律

  • Zipf定律
  • Heaps定律

词典压缩

• 将词典看成单一字符串的压缩方法 • 按块存储/前端编码 • 倒排记录表压缩 • 可变长字节码 • 一元编码/ γ 编码

索引压缩

• 统计信息(对RCV1语料库) • 词典和倒排记录表将会有多大? • Heaps定律:词项数目的估计 • Zipf定律:对词项的分布建模 • 词典压缩 • 将词典看成单一字符串的压缩方法 • 按块存储/前端编码 • 倒排记录表压缩 • 可变长字节码 • 一元编码/ γ 编码

推荐 PPT 信息检索与数据挖掘 - 索引压缩

Yhzhtk avatar Sep 03 '18 09:09 Yhzhtk