添付ファイルのインデックスの変更

管理者は、データベース レベルとファイル レベルでファイル添付ファイルのインデックス作成プロセスを構成できます。

フルテキスト サブシステムがデータベースを処理する場合、データベース レベルで 1 つの質問に回答し、ドキュメント添付ファイル レベルで 2 つの質問に答える必要があります。
  • このデータベースの添付ファイルをインデックス化する必要がありますか?
  • 調査中の特定の添付ファイルをインデックス化する必要がありますか?
  • この特定の添付ファイルからテキストはどのように取得されるのでしょうか?

データベースレベルの制御

次の INI 値を設定すると、サーバー全体のすべてのデータベースの添付ファイルのインデックス作成を制御できます。

  • FT_INDEX_ATTACHMENTS=1

    データベース マネージャーによってそのオプションが選択されていない場合でも、インデックスが付けられたすべてのデータベースの添付ファイルをインデックスします。さらに、添付ファイルに対してフィルタリングは実行されず、ブルートフォースによるテキスト削除のみが実行されます。

  • FT_INDEX_ATTACHMENTS=2

    データベース マネージャーがそのオプションを選択した場合でも、インデックス付けされたデータベースの添付ファイルはインデックス付けしないでください。

  • FT_INDEX_ATTACHMENTS=3

    そのオプションが選択されていない場合でも、インデックスが作成されたすべてのデータベースの添付ファイルをインデックスします。FT_INDEX_ATTACHMENTS=1 との違いは、該当する場合は添付ファイルに対してフィルタリングが実行され、ファイル拡張子のブルート フォース リストに基づいてブルート フォース テキスト除去が使用されることです。

ファイルレベルのコントロール

特定の添付ファイルがインデックス作成の候補であるかどうかを制御するために使用できる、大まかなデバイスが 2 つあります。無視リスト (デフォルトで有効) とホワイト リスト (明示的に有効にする必要があります) です。両方のリストはデフォルトを超えて拡張することができ、必要に応じてホワイト リストを完全に置き換えることができます。

添付ファイルの拡張子が無視リスト内の項目と一致する場合、通常はインデックスが作成されませ

添付ファイルの拡張子がホワイト リスト内の項目と一致する場合、そのファイルは必ずインデックスに登録されます。一致しない場合はインデックス化されません。

無視リストとホワイト リスト内の拡張子が衝突する場合は、ホワイト リストが優先されます。

各リストには、次のデフォルトのファイル拡張子があります。
  • 無視リスト

    *.ap、*.au、*.bkf、*.bqy、*.cab、*.cca、*.dbd、*.dll、*.exe、*.gif、*.gz、*.img、*.jar、*.jpg、*.lwp、*.m4p、*.m4v、*.MIF、*.mov、*.mp3、*.mp4、*.mpg、*.msi、*.nsf、*.ntf、*.p7m、*.p7s、*.pag、*.pdb、*.pic、*.png、*.pst、*.rar、*.shw、*.sys、*.tar、*.tar、*.tif、*.wav、*.wmf、*.wpl、*.wq1、*.z、*.zip

  • ホワイトリスト

    *.123、*.ami、*.as、*.aw、*.dca、*.doc*、*.dwg、*.emf、*.emz、*.fff、*.fft、*.flg、*.fm、*.htm*、*.hwp、*.jar、*.jtd、*.jtt、*.mime、*.oas、*.odp、*.ods、*.odt、*.pdf*、*.ppt*、*.qpw、*.r13、*.r14、*.rtf、*.sam、*.swp、*.vsd*、*.wk4、*.wks、*.wp*、*.wri、*.xlr、*.xls*、*.xml、*.xy*、*.zip

無視リスト、ホワイト リスト、およびその他のインデックス作成プロセスを変更するには、次のアクションを参照してください。

無視リストの拡張

無視リストを拡張して、デフォルトのタイプに加えて特定のタイプのドキュメント添付ファイルを除外することができます。これを行うには、スペース文字を使用せず、ワイルドカード文字 (*) でファイル タイプ拡張子をカンマで区切ってリストし、FT_INDEX_IGNORE_ATTACHMENT_TYPES notes.ini を設定します。以下に例を示します。
FT_INDEX_IGNORE_ATTACHMENT_TYPES=*.asf,*.avi,*.bin,*.bmp,*.dat,*.iso,*.mpeg,*.ogg,*.qz,*.rm,*.so,*.swf,*.wmv 
この例では、除外される添付ファイルの完全なセットは次のようになります: *.ap、*.asf、*.au、*.avi、*.bin、*.bkf、*.bmp、*.bqy、*.cab、*.cca、*.dat、*.dbd、*.dll、*.exe、*.gif、*.gz、*.img、*.iso、*.jar、*.jpg、*.lwp、*.m4p、*.m4v、*.MIF、*.mov、*.mp3、*.mp3、*.mpeg、*.mpg、*.msi、*.nsf、*.ntf、*.ogg、*.p7m、*.p7s、*.pag、*.pdb、*.pic、*.png、*.pst、*.qz、*.rar、*.rm、*.shw、*.so、*.swf、*.sys、*.tar、 *.tif、*.wav、*.wmf、*.wmv、*.wpl、*.wq1、*.z、*.zip
注: FT_INDEX_IGNORE_ATTACHMENT_TYPES には 256 文字の制限があります。除外するファイルタイプの値がこの制限を超える場合は、追加の設定 FT_INDEX_IGNORE_ATTACHMENT_TYPES2 と FT_INDEX_IGNORE_ATTACHMENT_TYPES3 を使用できます。

ホワイトリストを有効にする

ホワイト リストには 2 つのモードがあり、それぞれのモードを有効にする 2 つの .ini があります。
  • FT_USE_ATTACHMENT_WHITE_LIST=1 設定により、このドキュメントで前述したデフォルトのファイル拡張子を持つデフォルトのホワイト リストが有効になります。ホワイト リストの拡張を使用して、このデフォルト リストに追加できます。
  • FT_USE_MY_ATTACHMENT_WHITE_LIST=1 設定は、デフォルトのリストを破棄し、 「ホワイト リストの拡張」に記載されているように、FT_INDEX_FILTER_ATTACHMENT_TYPES のみを参照します。
ホワイトリストの拡張

ホワイト リストは、無視リストと同様の方法で拡張できます。これを行うには、スペース文字を使用せず、ワイルドカード文字 (*) でファイル タイプ拡張子をコンマで区切ってリストし、FT_INDEX_FILTER_ATTACHMENT_TYPES notes.ini を設定します。

さらに、FT_INDEX_FILTER_ATTACHMENT_TYPES_MAX_MB は、ホワイト リストに含まれるファイルのサイズの上限を強制する関連設定です。メビバイト (MiB) を表す整数値を受け入れます。

ホワイトリストの上書き

インデックスを作成するファイルのカスタム リストを排他的に使用するには、FT_USE_MY_ATTACHMENT_WHITE_LIST=1 を FT_INDEX_FILTER_ATTACHMENT_TYPES とともに設定します。

注意: FT_USE_MY_ATTACHMENT_WHITE_LIST の場合、FT_INDEX_FILTER_ATTACHMENT_TYPES が設定されていないと、サーバー上のどのデータベースでも添付ファイルはインデックス化されません。

特定のデータベースのホワイトリストを拡張する

システムで有効なホワイトリストは、FT_INDEX_FILTER_ATTACHMENT_TYPES_の設定によって特定のデータベースに対してさらに拡張できます。<database replica id> 。有効なホワイトリストは、デフォルトにすることも、FT_INDEX_FILTER_ATTACHMENT_TYPESを介して拡張または置換することもできます。

また、このリストに表示される添付ファイルの種類は、FT_INDEX_FILTER_ATTACHMENT_TYPES_MAX_MB_設定を指定することでサイズ制限を設定できます。<database replica id>ご希望の場合。

テキスト検索の制御

フルテキスト サブシステムが添付ファイルをインデックス化することを決定したら、次にその添付ファイルからテキストを抽出する方法を決定します。インテリジェント パーサー (Tika) と ASCII テキスト除去の 2 つの方法があります。

デフォルトでは、ファイル拡張子が ASCII テキスト削除リストに明示的にリストされていない限り、ファイルはインテリジェント パーサーに送信されます。インテリジェント パーサーは通常、より関連性の高いテキスト トークンをインデクサーに返しますが、生の ASCII テキストの削除よりも遅くなります。ただし、テキストを削除すると、テキスト書式設定要素などの不要なトークンがさらに多くインデクサーに返され、検索の精度が低下する可能性があります。

注:添付ファイルの大部分に主に非 ASCII 文字が含まれている場合は、すべての添付ファイルをインテリジェント パーサーに強制的に通すことをお勧めします。

以下は、ASCII テキスト削除のファイル拡張子のデフォルト リストです。

*.ans、*.ascii、*.log、*.out、*.sms、*.text、*.txt、*.uni、*.utxt

ASCII テキスト除去リストの拡張

無視リストやホワイト リストと同様に、テキスト削除リストは、FT_INDEX_BRUTE_FORCE_ATTACHMENT_TYPES notes.ini を介してエントリを追加することで拡張できます。ここでも、ファイル タイプ拡張子をワイルドカード文字 (*) でリストし、スペース文字を使用せずにコンマで区切ります。

ASCIIテキスト除去の無効化

Domino 14 以降では、FT_INDEX_BRUTE_FORCE_ATTACHMENT_TYPES とともに FT_USE_MY_ATTACHMENT_BRUTE_LIST=1 を設定すると、テキストを削除するファイルのカスタム リストを排他的に使用できます。

ASCIIテキスト除去を無効にする

ASCII テキストの削除による添付ファイルの送信を防ぐには、FT_DISABLE_BRUTE_FORCE=1 を設定します。

添付ファイル名のインデックスを無効にする

デフォルトでは、インテリジェント パーサーと ASCII テキスト ストリッパーの両方が、テキストを取得するファイルの名前を記録します。ユーザーが添付ファイル名を検索できないようにする場合は、DISABLE_ATTACHMENT_SEARCH_BY_FILENAMES=1 設定を使用します。