변환 필터로 첨부 파일 전체 텍스트 색인 작성

첨부 파일 전체 텍스트 색인 작성에 변환 필터를 사용하면 Domino® 서버와 Notes® 표준 클라이언트에서는 오픈 소스 변환 필터 Apache Tika 2.4.1을 사용하여 첨부 파일의 전체 텍스트를 검색할 텍스트를 추출합니다.

TikaDomino 10 이전에 사용된 변환 필터 KeyView 대신에 Tika가 사용됩니다. Tika의 구현으로 다음이 지원됩니다.
  • 광범위한 형식을 필터링합니다.
  • UTF-8 인코딩이 포함된 ASCII 텍스트 파일을 필터링합니다.

Tika는 Notes® 표준 클라이언트 또는 Domino® 시작 시 Java 프로세스로 실행됩니다. 기본적으로, HTTP 서버를 시작하고 포트 9998의 텍스트 추출 요청을 수신하는 tika-server.jar를 프로세스에서 호출합니다. the Notes® 표준 클라이언트 또는 Domino® 10 이상으로 업그레이드하면 이전에 사용한 KeyView에서 필터링하여 텍스트를 추출한 전체 텍스트 색인이 Tika 필터를 통해 다시 빌드됩니다.

Tika 2.4.1에서 지원하는 파일 형식 목록은 Apache Tika 웹 사이트를 참조하십시오.

PDF 첨부 파일이 포함된 일부 문서가 관련된 경우 전체 텍스트 검색에서 예상된 결과가 반환되지 않는 경우가 있습니다. 검색 결과에 거짓 부정 또는 거짓 긍정 결과가 포함될 수 있습니다. 해결 방법은 HCL 지원 사이트에서 전체 텍스트 색인: 일부 PDF는 Tika 기본 설정을 사용하여 올바르게 토큰화되지 않음 문서를 참조하십시오.

주: tika-server.jar 파일이 HTTP 서버를 시작하고 포트 9998의 텍스트 추출 요청을 수신합니다. 다른 애플리케이션에서 이 포트를 이미 사용 중인 경우 다음 notes.ini 설정을 사용하여 Tike 포트를 9997로 변경합니다.
TIKA_PORT=9997
주:

기본 클라이언트 Notes®에서는 로컬 데이터베이스의 첨부 파일 필터링에 Tika 필터를 사용하지 않습니다. 기본 클라이언트 Notes® 사용자가 로컬 데이터베이스의 첨부 파일 색인 작성을 선택할 수는 있지만, ASCII 첨부 파일만 색인이 작성되고 검색할 수 있습니다.