修改文件附件索引
管理员可以在数据库和文件级别配置文件附件的索引过程。
- 是否应为该数据库索引附件?
- 正在检查的特定附件是否应该被索引?
- 如何从该特定附件中检索文本?
Database-level controls
可以设置以下 INI 值来控制服务器范围内每个数据库的附件索引:
- FT_INDEX_ATTACHMENTS=1
为每个索引数据库建立索引附件,即使数据库管理员没有选择该选项。此外,永远不会对附件进行过滤,只会进行强力文本剥离。
- FT_INDEX_ATTACHMENTS=2
永远不要为任何索引数据库索引附件,即使数据库管理员选择了该选项。
- FT_INDEX_ATTACHMENTS=3
为每个索引数据库建立索引附件,即使未选择该选项。与 FT_INDEX_ATTACHMENTS=1 的区别在于,在适用时将对附件执行过滤,并且将根据文件扩展名的强力列表使用强力文本剥离。
File-level controls
有两种粗粒度的设备可用于控制特定附件是否是索引候选:忽略列表(默认启用)和白名单(必须明确启用)。这两个列表都可以超出其默认值进行扩展,如果需要,白名单可以完全被替代。
如果附件文件的扩展名与忽略列表中的项目匹配,则通常不会被编入索引。
如果附件文件的扩展名与白名单中的项目匹配,那么它将始终被编入索引。如果不匹配,则不会被索引。
如果忽略列表和白名单中的扩展名发生冲突,则白名单优先。
- 忽略列表
*.ap、*.au、*.bkf、*.bqy、*.cab、*.cca、*.dbd、*.dll、*.exe、*.gif、*.gz、*.img、*.jar、*.jpg、*.lwp、*.m4p、*.m4v、*.MIF、*.mov、*.mp3、*.mp4、*.mpg、*.msi、*.nsf、*.ntf、*.p7m、*.p7s、*.pag、*.pdb、*.pic、*.png、*.pst、*.rar、*.shw、*.sys、*.tar、*.tar、*.tif、*.wav、*.wmf、*.wpl、*.wq1、*.z、*.zip
- 白名单
*.123、*.ami、*.as、*.aw、*.dca、*.doc*、*.dwg、*.emf、*.emz、*.fff、*.fft、*.flg、*.fm、*.htm*、*.hwp、*.jar、*.jtd、*.jtt、*.mime、*.oas、*.odp、*.ods、*.odt、*.pdf*、*.ppt*、*.qpw、*.r13、*.r14、*.rtf、*.sam、*.swp、*.vsd*、*.wk4、*.wks、*.wp*、*.wri、*.xlr、*.xls*、*.xml、*.xy*、*.zip
若要修改忽略列表、白名单和其他索引流程,请参考以下操作:
扩展忽略列表
FT_INDEX_IGNORE_ATTACHMENT_TYPES=*.asf,*.avi,*.bin,*.bmp,*.dat,*.iso,*.mpeg,*.ogg,*.qz,*.rm,*.so,*.swf,*.wmv
启用白名单
- FT_USE_ATTACHMENT_WHITE_LIST=1 设置启用默认白名单,其中包含本文档前面列出的默认文件扩展名。您可以使用扩展白名单将其附加到此默认列表。
- FT_USE_MY_ATTACHMENT_WHITE_LIST=1 设置会丢弃默认列表并专门引用 FT_INDEX_FILTER_ATTACHMENT_TYPES,如扩展白名单中所述。
白名单可以按照与忽略列表类似的方式进行扩展。为此,请设置 FT_INDEX_FILTER_ATTACHMENT_TYPES notes.ini,通过列出带有通配符 (*) 的文件类型扩展名,用逗号分隔,不使用空格字符。
此外,FT_INDEX_FILTER_ATTACHMENT_TYPES_MAX_MB 是一个配套设置,它强制执行白名单中包含的文件大小的上限。它接受表示兆字节 (MiB) 的整数值。
覆盖白名单
将 FT_USE_MY_ATTACHMENT_WHITE_LIST=1 与 FT_INDEX_FILTER_ATTACHMENT_TYPES 一起设置,以专门使用要索引的自定义文件列表。
扩展特定数据库的白名单
系统中有效的白名单可以通过设置 FT_INDEX_FILTER_ATTACHMENT_TYPES_ 针对特定数据库进行额外扩展。<database replica id> 。有效的白名单可以是默认的,也可以是通过 FT_INDEX_FILTER_ATTACHMENT_TYPES 进行扩展或替换的。
此外,可以通过指定设置 FT_INDEX_FILTER_ATTACHMENT_TYPES_MAX_MB_ 来限制此列表中出现的任何附件文件类型的大小。<database replica id>如果需要的话。
控制文本检索
一旦全文子系统确定要索引附件,下一步就是决定如何从该文件附件中提取文本。存在两种方法:智能解析器(Tika)和 ASCII 文本剥离。
默认情况下,文件将被发送到智能解析器,除非文件扩展名在 ASCII 文本剥离列表中明确列出。虽然智能解析器通常会向索引器返回更多相关的文本标记,但它比原始 ASCII 文本剥离速度慢。然而,文本剥离可能会导致更多多余的标记(例如文本格式元素等)返回到索引器,这可能会降低搜索准确性。
以下是 ASCII 文本剥离默认文件扩展名列表:
*.ans、*.ascii、*.log、*.out、*.sms、*.text、*.txt、*.uni、*.utxt
扩展 ASCII 文本剥离列表与忽略列表和白名单类似,可以通过 FT_INDEX_BRUTE_FORCE_ATTACHMENT_TYPES notes.ini 添加条目来扩展文本剥离列表。再次,使用通配符 (*) 列出文件类型扩展名,用逗号分隔,不使用空格字符。
覆盖 ASCII 文本剥离
在 Domino 14 中,您可以设置 FT_USE_MY_ATTACHMENT_BRUTE_LIST=1 以及 FT_INDEX_BRUTE_FORCE_ATTACHMENT_TYPES,以专门使用要进行文本剥离的自定义文件列表。
禁用 ASCII 文本剥离
设置 FT_DISABLE_BRUTE_FORCE=1 以防止通过 ASCII 文本剥离发送附件。
禁用附件文件名索引
默认情况下,智能解析器和 ASCII 文本剥离器都会记录从中检索文本的文件的名称。如果您不希望用户搜索附件文件名,请使用 DISABLE_ATTACHMENT_SEARCH_BY_FILENAMES=1 设置。