回忆构造 inverted index 的主要步骤:
- 收集文档。
- tokenize 文本。
- 对 tokens 做一些语言上的预处理。(比如提取元词)
- 对含有 term 的文档标注索引。
本章我们首先简要叙述 document 的基本组成是如何定义的,以及 character sequence 组成是如何决定的。然后我们详细研究 tokenization 和 linguistic pre-pocessing, tokenization 是把文字流截取成 token 的一个过程,linguistic pre-pocessing 关于 token 建立等价类有关。 索引本身在第一章和第四章已经讨论了。之后我们讨论 postings lists 的具体实现。