파일 첨부 인덱싱 수정

관리자는 데이터베이스 및 파일 수준에서 첨부 파일에 대한 인덱싱 프로세스를 구성할 수 있습니다.

전체 텍스트 하위 시스템이 데이터베이스를 처리할 때 데이터베이스 수준에서 하나의 질문에 대답하고 문서 첨부 수준에서 두 가지 질문에 대답해야 합니다.
  • 이 데이터베이스에 대한 첨부 파일을 색인화해야 합니까?
  • 검사 중인 특정 첨부 파일을 색인화해야 합니까?
  • 이 특정 첨부 파일에서 텍스트를 어떻게 검색합니까?

데이터베이스 수준 제어

다음 INI 값을 설정하여 서버 전체의 모든 데이터베이스에 대한 첨부 파일 인덱싱을 제어할 수 있습니다.

  • FT_INDEX_ATTACHMENTS=1

    데이터베이스 관리자가 해당 옵션을 선택하지 않은 경우에도 인덱스화된 모든 데이터베이스에 대한 인덱스 첨부입니다. 또한 첨부 파일에는 필터링이 수행되지 않으며 무차별 텍스트 제거만 수행됩니다.

  • FT_INDEX_ATTACHMENTS=2

    데이터베이스 관리자가 해당 옵션을 선택한 경우에도 색인화된 데이터베이스에 대한 첨부를 색인화하지 마십시오.

  • FT_INDEX_ATTACHMENTS=3

    해당 옵션을 선택하지 않은 경우에도 인덱스된 모든 데이터베이스에 대한 인덱스 첨부 파일입니다. FT_INDEX_ATTACHMENTS=1과의 차이점은 해당되는 경우 첨부 파일에 대해 필터링이 수행되고 파일 확장자의 무차별 대입 목록을 기반으로 무차별 텍스트 스트리핑이 사용된다는 점입니다.

파일 수준 제어

특정 첨부 파일이 인덱싱 후보인지 여부를 제어하는 ​​데 사용할 수 있는 두 가지 대략적인 장치, 즉 무시 목록(기본적으로 활성화됨)과 화이트 목록(명시적으로 활성화되어야 함)이 있습니다. 두 목록 모두 기본값 이상으로 확장할 수 있으며 원하는 경우 화이트리스트를 완전히 대체할 수 있습니다.

첨부 파일의 확장자가 무시 목록의 항목과 일치하면 일반적으로 색인이 생성되지 않습니다 .

첨부 파일의 확장자가 화이트리스트의 항목과 일치하면 항상 색인이 생성됩니다. 일치하지 않으면 색인이 생성되지 않습니다.

무시 목록과 화이트 목록의 확장이 충돌하는 경우 화이트 목록이 우선적으로 적용됩니다.

각 목록에는 다음과 같은 기본 파일 확장자가 있습니다.
  • 무시 목록

    *.ap, *.au, *.bkf, *.bqy, *.cab, *.cca, *.dbd, *.dll, *.exe, *.gif, *.gz, *.img, *. jar, *.jpg, *.lwp, *.m4p, *.m4v, *.MIF, *.mov, *.mp3, *.mp4, *.mpg, *.msi, *.nsf, *.ntf, *.p7m, *.p7s, *.pag, *.pdb, *.pic, *.png, *.pst, *.rar, *.shw, *.sys, *.tar, *.tar, *. tif, *.wav, *.wmf, *.wpl, *.wq1, *.z, *.zip

  • 바람직한 것의 리스트

    *.123, *.ami, *.as, *.aw, *.dca, *.doc*, *.dwg, *.emf, *.emz, *.fff, *.fft, *.flg, * .fm, *.htm*, *.hwp, *.jar, *.jtd, *.jtt, *.mime, *.oas, *.odp, *.ods, *.odt, *.pdf*, * .ppt*, *.qpw, *.r13, *.r14, *.rtf, *.sam, *.swp, *.vsd*, *.wk4, *.wks, *.wp*, *.wri, *.xlr, *.xls*, *.xml, *.xy*, *.zip

무시 목록, 화이트 목록 및 기타 인덱싱 프로세스를 수정하려면 다음 작업을 참조하십시오.

무시 목록 확장

기본 유형 외에 특정 유형의 문서 첨부 파일을 제외하도록 무시 목록을 확장할 수 있습니다. 이렇게 하려면 공백 문자를 사용하지 않고 쉼표로 구분된 와일드카드 문자(*)로 파일 유형 확장자를 나열하여 FT_INDEX_IGNORE_ATTACHMENT_TYPES Notes.ini를 설정하십시오. 예를 들어:
FT_INDEX_IGNORE_ATTACHMENT_TYPES=*.asf,*.avi,*.bin,*.bmp,*.dat,*.iso,*.mpeg,*.ogg,*.qz,*.rm,*.so,*.swf,*.wmv 
이 예에서는 *.ap, *.asf, *.au, *.avi, *.bin, *.bkf, *.bmp, *.bqy, *.cab, *와 같은 제외된 첨부 파일 전체 세트가 생성됩니다. cca, *.dat, *.dbd, *.dll, *.exe, *.gif, *.gz, *.img, *.iso, *.jar, *.jpg, *.lwp, *.m4p, *.m4v, *.MIF, *.mov, *.mp3, *.mp3, *.mpeg, *.mpg, *.msi, *.nsf, *.ntf, *.ogg, *.p7m, *. p7s, *.pag, *.pdb, *.pic, *.png, *.pst, *.qz, *.rar, *.rm, *.shw, *.so, *.swf, *.sys, *.tar, *.tif, *.wav, *.wmf, *.wmv, *.wpl, *.wq1, *.z, *.zip
참고: FT_INDEX_IGNORE_ATTACHMENT_TYPES에는 256자로 제한됩니다. 제외할 파일 형식의 값이 이 제한을 초과하는 경우 FT_INDEX_IGNORE_ATTACHMENT_TYPES2 및 FT_INDEX_IGNORE_ATTACHMENT_TYPES3 추가 설정을 사용할 수 있습니다.

화이트리스트 활성화

화이트리스트에는 두 가지 모드가 있으며 각각 해당 모드를 활성화하는 두 개의 .ini가 있습니다.
  • FT_USE_ATTACHMENT_WHITE_LIST=1 설정은 이 문서의 앞부분에 나열된 기본 파일 확장자를 갖는 기본 화이트리스트를 활성화합니다. 화이트리스트 확장을 사용하여 이 기본 목록에 추가할 수 있습니다.
  • FT_USE_MY_ATTACHMENT_WHITE_LIST=1 설정은 기본 목록을 삭제하고 화이트리스트 확장 에 설명된 대로 FT_INDEX_FILTER_ATTACHMENT_TYPES를 독점적으로 참조합니다.
화이트리스트 확장

화이트리스트는 무시리스트와 비슷한 방식으로 확장될 수 있습니다. 이렇게 하려면 공백 문자를 사용하지 않고 쉼표로 구분된 와일드카드 문자(*)로 파일 유형 확장자를 나열하여 FT_INDEX_FILTER_ATTACHMENT_TYPES Notes.ini를 설정하십시오.

또한 FT_INDEX_FILTER_ATTACHMENT_TYPES_MAX_MB는 화이트리스트에 포함되는 파일 크기의 상한을 적용하는 동반 설정입니다. 메비바이트(MiB)를 나타내는 정수 값을 허용합니다.

화이트리스트 재정의

인덱싱할 파일의 사용자 정의 목록을 독점적으로 사용하려면 FT_INDEX_FILTER_ATTACHMENT_TYPES와 함께 FT_USE_MY_ATTACHMENT_WHITE_LIST=1을 설정합니다.

참고: FT_USE_MY_ATTACHMENT_WHITE_LIST의 경우 FT_INDEX_FILTER_ATTACHMENT_TYPES가 설정되지 않으면 서버의 모든 데이터베이스에 대해 색인화된 첨부 파일이 생성되지 않습니다.

특정 데이터베이스에 대한 화이트리스트 확장

시스템에 적용되는 화이트리스트는 FT_INDEX_FILTER_ATTACHMENT_TYPES_ 설정을 통해 특정 데이터베이스에 대해 추가로 확장될 수 있습니다.<database replica id> . 유효한 화이트리스트는 기본값이거나 FT_INDEX_FILTER_ATTACHMENT_TYPES를 통해 확장 또는 대체될 수 있습니다.

또한 이 목록에 나타나는 모든 첨부 파일 형식은 FT_INDEX_FILTER_ATTACHMENT_TYPES_MAX_MB_ 설정을 지정하여 크기를 제한할 수 있습니다.<database replica id> 원한다면.

텍스트 검색 제어

전체 텍스트 하위 시스템에서 첨부 파일을 색인화하기로 결정한 후 다음 결정은 해당 첨부 파일에서 텍스트를 추출하는 방법입니다. 지능형 파서(Tika)와 ASCII 텍스트 스트리핑이라는 두 가지 방법이 있습니다.

기본적으로 파일 확장자가 ASCII 텍스트 스트립 목록에 명시적으로 나열되어 있지 않으면 파일이 지능형 파서로 전송됩니다. 지능형 파서는 일반적으로 더 관련성이 높은 텍스트 토큰을 인덱서에 반환하지만 원시 ASCII 텍스트 스트리핑보다 속도가 느립니다. 그러나 텍스트 스트리핑을 사용하면 텍스트 서식 지정 요소 등과 같은 더 많은 불필요한 토큰이 인덱서로 반환되어 검색 정확도가 떨어질 수 있습니다.

참고: 대부분의 첨부 파일에 주로 비ASCII 문자가 포함되어 있는 경우 지능형 파서를 통해 모든 파일 첨부를 강제 실행하는 것이 좋습니다.

다음은 ASCII 텍스트 스트리핑 기본 파일 확장자 목록입니다.

*.ans,*.ascii,*.log,*.out,*.sms,*.text,*.txt,*.uni,*.utxt

ASCII 텍스트 제거 목록 확장

무시 목록 및 화이트 목록과 유사하게 텍스트 제거 목록은 FT_INDEX_BRUTE_FORCE_ATTACHMENT_TYPES Notes.ini를 통해 항목을 추가하여 확장할 수 있습니다. 이번에도 공백 문자를 사용하지 않고 쉼표로 구분된 와일드카드 문자(*)를 사용하여 파일 형식 확장자를 나열합니다.

ASCII 텍스트 스트리핑 재정의

Domino 14에서는 FT_INDEX_BRUTE_FORCE_ATTACHMENT_TYPES와 함께 FT_USE_MY_ATTACHMENT_BRUTE_LIST=1을 설정하여 텍스트 제거할 사용자 정의 파일 목록을 독점적으로 사용할 수 있습니다.

ASCII 텍스트 스트리핑 비활성화

ASCII 텍스트 스트리핑을 통해 첨부 파일을 보내는 것을 방지하려면 FT_DISABLE_BRUTE_FORCE=1을 설정하십시오.

첨부 파일 이름 색인화 비활성화

기본적으로 지능형 파서와 ASCII 텍스트 스트리퍼는 모두 텍스트가 검색된 파일의 이름을 기록합니다. 사용자가 첨부 파일 이름을 검색 하지 않도록 하려면 DISABLE_ATTACHMENT_SEARCH_BY_FILENAMES=1 설정을 사용하세요.