回忆构造 inverted index 的主要步骤:

收集文档。
tokenize 文本。
对 tokens 做一些语言上的预处理。(比如提取元词)
对含有 term 的文档标注索引。

本章我们首先简要叙述 document 的基本组成是如何定义的，以及 character sequence 组成是如何决定的。然后我们详细研究 tokenization 和 linguistic pre-pocessing， tokenization 是把文字流截取成 token 的一个过程，linguistic pre-pocessing 关于 token 建立等价类有关。索引本身在第一章和第四章已经讨论了。之后我们讨论 postings lists 的具体实现。

The term vocabulary and postings lists

results matching ""

No results matching ""