使用转换过滤器对附件执行全文索引

使用转换过滤器对附件执行全文索引时,Domino® 服务器和 Notes® 标准客户机使用 Apache Tika 1.24.1 开源转换过滤器提取文本以对附件进行全文搜索。

Tika 取代了在 Domino 10 之前使用的 KeyView 转换过滤器。Tika 的实施支持以下功能:
  • 过滤多种格式。
  • 过滤包含 UTF-8 编码的 ASCII 文本文件。

Tika 作为启动 Notes® 标准客户机或 Domino®Java 进程运行。缺省情况下,该进程会调用 tika-server.jar,其将启动 HTTP 服务器并侦听端口 9998 上的文本提取请求。如果升级到 the Notes® 标准客户机或升级到 Domino® 10 或以上,以前使用 KeyView 过滤器提取文本的全文索引将使用 Tika 过滤器重新生成。

有关 Tika 1.24.1 支持的文件格式列表,请参阅 Apache Tika 网站

注: tika-server.jar 启动 HTTP 服务器并侦听端口 9998 上的文本提取请求。如果该端口已被其他应用程序使用,请使用以下 notes.ini 设置将 Tika 端口更改为 9997:
TIKA_PORT=9997
注:

Notes® 基本客户机不使用 Tika 过滤器在本地数据库中进行附件过滤。Notes® 基本客户机用户可以选择为本地数据库的附件编制索引,但只会索引并仅可搜索 ASCII 文本附件。