Solr 词汇表

这些是与 Solr 一起使用的常见术语。

Solr 术语

在可能的情况下,术语会链接到 Solr 参考指南的相关部分以获取更多信息。

跳转到字母

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

A

原子更新

仅更新文档的一个或多个字段的方法,而不是重新索引整个文档。

B

布尔运算符

这些运算符通过使用 AND、OR 和 NOT 等运算符来控制查询中关键字的包含或排除。

C

集群

在 Solr 中,集群是一组 Solr 节点,它们通过 ZooKeeper 彼此协调运行,并作为一个单元进行管理。一个集群可能包含多个集合。另请参阅 SolrCloud

集合

在 Solr 中,使用单个配置和模式将一个或多个 文档 分组到单个逻辑索引中。

SolrCloud 中,一个集合可以被分成多个逻辑分片,而这些分片又可以分布在多个节点上。

单节点安装和用户管理的集群使用的是 内核 的概念。在 SolrCloud 上下文中最常使用“集合”,但由于它表示“逻辑索引”,因此该术语也可以用来指用户管理的集群中的各个内核。

提交

在索引中使文档更改永久化。对于已添加的文档,它们将在提交后可搜索。

内核

单个 Solr 实例(表示一个逻辑索引)。多个核可以在单个节点上运行。另请参见 SolrCloud

核重新加载

在对架构文件、solrconfig.xml 或其他配置文件进行更改后重新初始化 Solr 核。

D

分布式搜索

分布式搜索是指在多个 分片 上处理查询。

文档

一组 字段 及其值。文档是 集合 中数据的基本单位。文档使用标准哈希分配给 分片,或通过在文档 ID 中专门分配分片。每次写入操作后,文档都会进行版本控制。

E

整体

ZooKeeper 术语,表示多个 ZooKeeper 实例同时运行并相互协调以实现容错。

F

分类

根据索引术语将搜索结果整理到类别中的过程。

字段

要编制索引/搜索的内容以及定义 Solr 如何处理该内容的元数据。

I

逆文档频率 (IDF)

术语一般重要性的衡量标准。它计算为总文档数除以集合中特定单词出现的文档数。请参阅 http://en.wikipedia.org/wiki/Tf-idfLucene TFIDFSimilarity javadocs 了解更多有关基于 TF-IDF 的评分和 Lucene 评分的信息。另请参见 词频

倒排索引

创建可搜索索引的一种方法,该索引列出了每个单词以及包含这些单词的文档,类似于书籍末尾的索引,其中列出了单词及其所在页面。在执行关键字搜索时,这种方法被认为比另一种方法更有效,另一种方法是创建文档列表,并将其与每个文档中使用的每个单词配对。由于用户使用他们期望在文档中出现的术语进行搜索,因此在文档之前找到术语可以节省处理资源和时间。

L

领导者

每个 分片 的一个 副本,负责协调同一分片中其他副本的索引更新(文档添加或删除)。这是一项通过选举分配给节点的临时责任,如果当前分片领导者宕机,将自动选举一个新节点来取代它。另请参见 SolrCloud

M

元数据

从字面上讲,即“关于数据的数据”。元数据是有关文档的信息,例如其标题、作者或位置。

N

自然语言查询

以用户通常说话或书写的方式输入的搜索,例如“阿司匹林是什么?”

节点

运行 Solr 的 JVM 实例。也称为 Solr 服务器。

O

乐观并发

也称为“乐观锁定”,这是一种允许更新当前索引中文档的方法,同时保留锁定或版本控制。

监督者

SolrCloud 中的一个节点,负责处理和协调涉及整个集群的操作。它跟踪现有节点、集合、分片和副本的状态,并将新副本分配给节点。这是一项通过选举分配给节点的临时责任,如果当前监督者宕机,将自动选举一个新节点来取代它。另请参见 SolrCloud

Q

查询解析器

查询解析器处理用户输入的术语。

R

召回

搜索引擎检索用户查询的所有可能匹配项的能力。

相关性

文档与用户进行的搜索的相关性。

副本

核心,充当 SolrCloud 集合分片 的物理副本。

复制

将领导者索引从一台服务器复制到一台或多台“跟随者”或“子”服务器的方法。

请求处理程序

逻辑和配置参数,告诉 Solr 如何处理传入的“请求”,无论这些请求是返回搜索结果、索引文档还是处理其他自定义情况。

S

搜索组件

请求处理程序用于处理查询请求的逻辑和配置参数。搜索组件的示例包括分面、高亮显示和“更多类似内容”功能。

分片

在 SolrCloud 中,单个 集合 的逻辑分区。每个分片至少包含一个物理 副本,但为了实现容错性,可以在多个 节点 上分布多个副本。另请参阅 SolrCloud

SolrCloud

Solr 中一系列功能的总称,这些功能允许管理 Solr 节点集群,以实现可扩展性、容错性和高可用性。

Solr 架构(managed-schema.xml 或 schema.xml)

Solr 索引架构定义要索引的字段以及字段的类型(文本、整数等)。默认情况下,可以使用 架构 API 在运行时“管理”架构数据,并且通常将其保存在名为 managed-schema.xml 的文件中,Solr 会根据需要对其进行修改,但是可以将集合配置为使用静态架构,该架构仅在启动时从人工编辑的配置文件(通常命名为 schema.xml)中加载。有关详细信息,请参阅 架构工厂配置

SolrConfig (solrconfig.xml)

Apache Solr 配置文件。定义索引选项、请求处理程序、高亮显示、拼写检查和各种其他配置。文件 solrconfig.xml 位于 Solr 主目录 conf 目录中。

拼写检查

向用户建议搜索词的备用拼写的能力,作为对导致结果很少或没有结果的拼写错误的检查。

停用词

通常,对用户的搜索意义不大的单词,但可能作为 自然语言 查询的一部分输入。停用词通常是非常小的代词、连词和介词(例如,“the”、“with”或“and”)。

建议器

Solr 中的功能,它提供向用户在键入时建议可能的查询词的能力。

同义词

同义词通常是含义相近的术语,可以相互替换。在搜索引擎实现中,同义词可以是缩写、单词或拼写不一致的术语。在此上下文中,同义词的示例包括“Inc.”和“Incorporated”或“iPod”和“i-pod”。

T

词频

单词在给定文档中出现的次数。有关基于 TF-IDF 的评分和特别是 Lucene 评分的更多信息,请参见 http://en.wikipedia.org/wiki/Tf-idfLucene TFIDFSimilarity javadocs。另请参见 逆文档频率 (IDF)

事务日志

每个 副本 维护的仅追加的写入操作日志。SolrCloud 实现需要此日志,并且由 Solr 自动创建和管理。

W

通配符

通配符允许替换单词的一个或多个字母,以考虑拼写或时态的可能变化。

Z

ZooKeeper

也称为 Apache ZooKeeper。SolrCloud 用于跟踪群集的配置文件和节点名称的系统。ZooKeeper 群集用作群集的中央配置存储,用于需要分布式同步的操作的协调器以及群集拓扑的记录系统。另请参见 SolrCloud