파일 첨부 인덱싱 수정
관리자는 데이터베이스 및 파일 수준에서 첨부 파일에 대한 인덱싱 프로세스를 구성할 수 있습니다.
- 이 데이터베이스에 대한 첨부 파일을 색인화해야 합니까?
- 검사 중인 특정 첨부 파일을 색인화해야 합니까?
- 이 특정 첨부 파일에서 텍스트를 어떻게 검색합니까?
데이터베이스 수준 제어
다음 INI 값을 설정하여 서버 전체의 모든 데이터베이스에 대한 첨부 파일 인덱싱을 제어할 수 있습니다.
- FT_INDEX_ATTACHMENTS=1
데이터베이스 관리자가 해당 옵션을 선택하지 않은 경우에도 인덱스화된 모든 데이터베이스에 대한 인덱스 첨부입니다. 또한 첨부 파일에는 필터링이 수행되지 않으며 무차별 텍스트 제거만 수행됩니다.
- FT_INDEX_ATTACHMENTS=2
데이터베이스 관리자가 해당 옵션을 선택한 경우에도 색인화된 데이터베이스에 대한 첨부를 색인화하지 마십시오.
- FT_INDEX_ATTACHMENTS=3
해당 옵션을 선택하지 않은 경우에도 인덱스된 모든 데이터베이스에 대한 인덱스 첨부 파일입니다. FT_INDEX_ATTACHMENTS=1과의 차이점은 해당되는 경우 첨부 파일에 대해 필터링이 수행되고 파일 확장자의 무차별 대입 목록을 기반으로 무차별 텍스트 스트리핑이 사용된다는 점입니다.
파일 수준 제어
특정 첨부 파일이 인덱싱 후보인지 여부를 제어하는 데 사용할 수 있는 두 가지 대략적인 장치, 즉 무시 목록(기본적으로 활성화됨)과 화이트 목록(명시적으로 활성화되어야 함)이 있습니다. 두 목록 모두 기본값 이상으로 확장할 수 있으며 원하는 경우 화이트리스트를 완전히 대체할 수 있습니다.
첨부 파일의 확장자가 무시 목록의 항목과 일치하면 일반적으로 색인이 생성되지 않습니다 .
첨부 파일의 확장자가 화이트리스트의 항목과 일치하면 항상 색인이 생성됩니다. 일치하지 않으면 색인이 생성되지 않습니다.
무시 목록과 화이트 목록의 확장이 충돌하는 경우 화이트 목록이 우선적으로 적용됩니다.
- 무시 목록
*.ap, *.au, *.bkf, *.bqy, *.cab, *.cca, *.dbd, *.dll, *.exe, *.gif, *.gz, *.img, *. jar, *.jpg, *.lwp, *.m4p, *.m4v, *.MIF, *.mov, *.mp3, *.mp4, *.mpg, *.msi, *.nsf, *.ntf, *.p7m, *.p7s, *.pag, *.pdb, *.pic, *.png, *.pst, *.rar, *.shw, *.sys, *.tar, *.tar, *. tif, *.wav, *.wmf, *.wpl, *.wq1, *.z, *.zip
- 바람직한 것의 리스트
*.123, *.ami, *.as, *.aw, *.dca, *.doc*, *.dwg, *.emf, *.emz, *.fff, *.fft, *.flg, * .fm, *.htm*, *.hwp, *.jar, *.jtd, *.jtt, *.mime, *.oas, *.odp, *.ods, *.odt, *.pdf*, * .ppt*, *.qpw, *.r13, *.r14, *.rtf, *.sam, *.swp, *.vsd*, *.wk4, *.wks, *.wp*, *.wri, *.xlr, *.xls*, *.xml, *.xy*, *.zip
무시 목록, 화이트 목록 및 기타 인덱싱 프로세스를 수정하려면 다음 작업을 참조하십시오.
무시 목록 확장
FT_INDEX_IGNORE_ATTACHMENT_TYPES=*.asf,*.avi,*.bin,*.bmp,*.dat,*.iso,*.mpeg,*.ogg,*.qz,*.rm,*.so,*.swf,*.wmv
화이트리스트 활성화
- FT_USE_ATTACHMENT_WHITE_LIST=1 설정은 이 문서의 앞부분에 나열된 기본 파일 확장자를 갖는 기본 화이트리스트를 활성화합니다. 화이트리스트 확장을 사용하여 이 기본 목록에 추가할 수 있습니다.
- FT_USE_MY_ATTACHMENT_WHITE_LIST=1 설정은 기본 목록을 삭제하고 화이트리스트 확장 에 설명된 대로 FT_INDEX_FILTER_ATTACHMENT_TYPES를 독점적으로 참조합니다.
화이트리스트는 무시리스트와 비슷한 방식으로 확장될 수 있습니다. 이렇게 하려면 공백 문자를 사용하지 않고 쉼표로 구분된 와일드카드 문자(*)로 파일 유형 확장자를 나열하여 FT_INDEX_FILTER_ATTACHMENT_TYPES Notes.ini를 설정하십시오.
또한 FT_INDEX_FILTER_ATTACHMENT_TYPES_MAX_MB는 화이트리스트에 포함되는 파일 크기의 상한을 적용하는 동반 설정입니다. 메비바이트(MiB)를 나타내는 정수 값을 허용합니다.
화이트리스트 재정의
인덱싱할 파일의 사용자 정의 목록을 독점적으로 사용하려면 FT_INDEX_FILTER_ATTACHMENT_TYPES와 함께 FT_USE_MY_ATTACHMENT_WHITE_LIST=1을 설정합니다.
특정 데이터베이스에 대한 화이트리스트 확장
시스템에 적용되는 화이트리스트는 FT_INDEX_FILTER_ATTACHMENT_TYPES_ 설정을 통해 특정 데이터베이스에 대해 추가로 확장될 수 있습니다.<database replica id> . 유효한 화이트리스트는 기본값이거나 FT_INDEX_FILTER_ATTACHMENT_TYPES를 통해 확장 또는 대체될 수 있습니다.
또한 이 목록에 나타나는 모든 첨부 파일 형식은 FT_INDEX_FILTER_ATTACHMENT_TYPES_MAX_MB_ 설정을 지정하여 크기를 제한할 수 있습니다.<database replica id> 원한다면.
텍스트 검색 제어
전체 텍스트 하위 시스템에서 첨부 파일을 색인화하기로 결정한 후 다음 결정은 해당 첨부 파일에서 텍스트를 추출하는 방법입니다. 지능형 파서(Tika)와 ASCII 텍스트 스트리핑이라는 두 가지 방법이 있습니다.
기본적으로 파일 확장자가 ASCII 텍스트 스트립 목록에 명시적으로 나열되어 있지 않으면 파일이 지능형 파서로 전송됩니다. 지능형 파서는 일반적으로 더 관련성이 높은 텍스트 토큰을 인덱서에 반환하지만 원시 ASCII 텍스트 스트리핑보다 속도가 느립니다. 그러나 텍스트 스트리핑을 사용하면 텍스트 서식 지정 요소 등과 같은 더 많은 불필요한 토큰이 인덱서로 반환되어 검색 정확도가 떨어질 수 있습니다.
다음은 ASCII 텍스트 스트리핑 기본 파일 확장자 목록입니다.
*.ans,*.ascii,*.log,*.out,*.sms,*.text,*.txt,*.uni,*.utxt
ASCII 텍스트 제거 목록 확장무시 목록 및 화이트 목록과 유사하게 텍스트 제거 목록은 FT_INDEX_BRUTE_FORCE_ATTACHMENT_TYPES Notes.ini를 통해 항목을 추가하여 확장할 수 있습니다. 이번에도 공백 문자를 사용하지 않고 쉼표로 구분된 와일드카드 문자(*)를 사용하여 파일 형식 확장자를 나열합니다.
ASCII 텍스트 스트리핑 재정의
Domino 14에서는 FT_INDEX_BRUTE_FORCE_ATTACHMENT_TYPES와 함께 FT_USE_MY_ATTACHMENT_BRUTE_LIST=1을 설정하여 텍스트 제거할 사용자 정의 파일 목록을 독점적으로 사용할 수 있습니다.
ASCII 텍스트 스트리핑 비활성화
ASCII 텍스트 스트리핑을 통해 첨부 파일을 보내는 것을 방지하려면 FT_DISABLE_BRUTE_FORCE=1을 설정하십시오.
첨부 파일 이름 색인화 비활성화
기본적으로 지능형 파서와 ASCII 텍스트 스트리퍼는 모두 텍스트가 검색된 파일의 이름을 기록합니다. 사용자가 첨부 파일 이름을 검색 하지 않도록 하려면 DISABLE_ATTACHMENT_SEARCH_BY_FILENAMES=1 설정을 사용하세요.