修改文件附件索引

管理员可以在数据库和文件级别配置文件附件的索引过程。

当全文子系统处理数据库时,它需要在数据库级别回答一个问题,在文档附件级别回答两个问题:
  • 是否应为该数据库索引附件?
  • 正在检查的特定附件是否应该被索引?
  • 如何从该特定附件中检索文本?

Database-level controls

可以设置以下 INI 值来控制服务器范围内每个数据库的附件索引:

  • FT_INDEX_ATTACHMENTS=1

    为每个索引数据库建立索引附件,即使数据库管理员没有选择该选项。此外,永远不会对附件进行过滤,只会进行强力文本剥离。

  • FT_INDEX_ATTACHMENTS=2

    永远不要为任何索引数据库索引附件,即使数据库管理员选择了该选项。

  • FT_INDEX_ATTACHMENTS=3

    为每个索引数据库建立索引附件,即使未选择该选项。与 FT_INDEX_ATTACHMENTS=1 的区别在于,在适用时将对附件执行过滤,并且将根据文件扩展名的强力列表使用强力文本剥离。

File-level controls

有两种粗粒度的设备可用于控制特定附件是否是索引候选:忽略列表(默认启用)和白名单(必须明确启用)。这两个列表都可以超出其默认值进行扩展,如果需要,白名单可以完全被替代。

如果附件文件的扩展名与忽略列表中的项目匹配,则通常不会被编入索引。

如果附件文件的扩展名与白名单中的项目匹配,那么它将始终被编入索引。如果不匹配,则不会被索引。

如果忽略列表和白名单中的扩展名发生冲突,则白名单优先。

每个列表均具有以下默认文件扩展名:
  • 忽略列表

    *.ap、*.au、*.bkf、*.bqy、*.cab、*.cca、*.dbd、*.dll、*.exe、*.gif、*.gz、*.img、*.jar、*.jpg、*.lwp、*.m4p、*.m4v、*.MIF、*.mov、*.mp3、*.mp4、*.mpg、*.msi、*.nsf、*.ntf、*.p7m、*.p7s、*.pag、*.pdb、*.pic、*.png、*.pst、*.rar、*.shw、*.sys、*.tar、*.tar、*.tif、*.wav、*.wmf、*.wpl、*.wq1、*.z、*.zip

  • 白名单

    *.123、*.ami、*.as、*.aw、*.dca、*.doc*、*.dwg、*.emf、*.emz、*.fff、*.fft、*.flg、*.fm、*.htm*、*.hwp、*.jar、*.jtd、*.jtt、*.mime、*.oas、*.odp、*.ods、*.odt、*.pdf*、*.ppt*、*.qpw、*.r13、*.r14、*.rtf、*.sam、*.swp、*.vsd*、*.wk4、*.wks、*.wp*、*.wri、*.xlr、*.xls*、*.xml、*.xy*、*.zip

若要修改忽略列表、白名单和其他索引流程,请参考以下操作:

扩展忽略列表

可以扩展忽略列表以排除除默认类型之外的特定类型的文档附件。为此,请设置 FT_INDEX_IGNORE_ATTACHMENT_TYPES notes.ini,通过列出带有通配符 (*) 的文件类型扩展名,用逗号分隔,不使用空格字符。例如:
FT_INDEX_IGNORE_ATTACHMENT_TYPES=*.asf,*.avi,*.bin,*.bmp,*.dat,*.iso,*.mpeg,*.ogg,*.qz,*.rm,*.so,*.swf,*.wmv 
此示例将导致以下完整的排除附件集:*.ap、*.asf、*.au、*.avi、*.bin、*.bkf、*.bmp、*.bqy、*.cab、*.cca、*.dat、*.dbd、*.dll、*.exe、*.gif、*.gz、*.img、*.iso、*.jar、*.jpg、*.lwp、*.m4p、*.m4v、*.MIF、*.mov、*.mp3、*.mp3、*.mpeg、*.mpg、*.msi、*.nsf、*.ntf、*.ogg、*.p7m、*.p7s、*.pag、*.pdb、*.pic、*.png、*.pst、*.qz、*.rar、*.rm、*.shw、*.so、*.swf、*.sys、*.tar、 *.tif、*.wav、*.wmf、*.wmv、*.wpl、*.wq1、*.z、*.zip
注意: FT_INDEX_IGNORE_ATTACHMENT_TYPES 有 256 个字符的限制。如果要排除的文件类型的值超出此限制,则可以使用附加设置 FT_INDEX_IGNORE_ATTACHMENT_TYPES2 和 FT_INDEX_IGNORE_ATTACHMENT_TYPES3。

启用白名单

白名单有两种模式,分别有两个 .ini 文件用于启用这些模式:
  • FT_USE_ATTACHMENT_WHITE_LIST=1 设置启用默认白名单,其中包含本文档前面列出的默认文件扩展名。您可以使用扩展白名单将其附加到此默认列表。
  • FT_USE_MY_ATTACHMENT_WHITE_LIST=1 设置会丢弃默认列表并专门引用 FT_INDEX_FILTER_ATTACHMENT_TYPES,如扩展白名单中所述。
扩大白名单

白名单可以按照与忽略列表类似的方式进行扩展。为此,请设置 FT_INDEX_FILTER_ATTACHMENT_TYPES notes.ini,通过列出带有通配符 (*) 的文件类型扩展名,用逗号分隔,不使用空格字符。

此外,FT_INDEX_FILTER_ATTACHMENT_TYPES_MAX_MB 是一个配套设置,它强制执行白名单中包含的文件大小的上限。它接受表示兆字节 (MiB) 的整数值。

覆盖白名单

将 FT_USE_MY_ATTACHMENT_WHITE_LIST=1 与 FT_INDEX_FILTER_ATTACHMENT_TYPES 一起设置,以专门使用要索引的自定义文件列表。

注意:在 FT_USE_MY_ATTACHMENT_WHITE_LIST 的情况下,如果未设置 FT_INDEX_FILTER_ATTACHMENT_TYPES,则会导致服务器上的任何数据库都不会索引文件附件。

扩展特定数据库的白名单

系统中有效的白名单可以通过设置 FT_INDEX_FILTER_ATTACHMENT_TYPES_ 针对特定数据库进行额外扩展。<database replica id> 。有效的白名单可以是默认的,也可以是通过 FT_INDEX_FILTER_ATTACHMENT_TYPES 进行扩展或替换的。

此外,可以通过指定设置 FT_INDEX_FILTER_ATTACHMENT_TYPES_MAX_MB_ 来限制此列表中出现的任何附件文件类型的大小。<database replica id>如果需要的话。

控制文本检索

一旦全文子系统确定要索引附件,下一步就是决定如何从该文件附件中提取文本。存在两种方法:智能解析器(Tika)和 ASCII 文本剥离。

默认情况下,文件将被发送到智能解析器,除非文件扩展名在 ASCII 文本剥离列表中明确列出。虽然智能解析器通常会向索引器返回更多相关的文本标记,但它比原始 ASCII 文本剥离速度慢。然而,文本剥离可能会导致更多多余的标记(例如文本格式元素等)返回到索引器,这可能会降低搜索准确性。

注意:如果大多数文件附件主要包含非 ASCII 字符,建议强制所有文件附件通过智能解析器。

以下是 ASCII 文本剥离默认文件扩展名列表:

*.ans、*.ascii、*.log、*.out、*.sms、*.text、*.txt、*.uni、*.utxt

扩展 ASCII 文本剥离列表

与忽略列表和白名单类似,可以通过 FT_INDEX_BRUTE_FORCE_ATTACHMENT_TYPES notes.ini 添加条目来扩展文本剥离列表。再次,使用通配符 (*) 列出文件类型扩展名,用逗号分隔,不使用空格字符。

覆盖 ASCII 文本剥离

在 Domino 14 中,您可以设置 FT_USE_MY_ATTACHMENT_BRUTE_LIST=1 以及 FT_INDEX_BRUTE_FORCE_ATTACHMENT_TYPES,以专门使用要进行文本剥离的自定义文件列表。

禁用 ASCII 文本剥离

设置 FT_DISABLE_BRUTE_FORCE=1 以防止通过 ASCII 文本剥离发送附件。

禁用附件文件名索引

默认情况下,智能解析器和 ASCII 文本剥离器都会记录从中检索文本的文件的名称。如果您希望用户搜索附件文件名,请使用 DISABLE_ATTACHMENT_SEARCH_BY_FILENAMES=1 设置。