監視服務品質

「服務品質」(或稱 QoS)是設計來針對 Domino® 伺服器的一般作業做反應,使該伺服器能夠可靠地運作並隨時可用。如果服務品質偵測到伺服器未回應或當掉,服務品質可探測配置為透過電子郵件將問題自動寄送給管理員,以及(或)自動終止伺服器並重新啟動它。服務品質日誌資訊對支援中心的分析也很有幫助。

執行這項作業的原因和時機

注意: 服務品質及錯誤回復不應該同時啟用。
重要: 如果服務品質(重新)啟動在 server.id 檔案上具有密碼的伺服器,則在管理員連接至該伺服器上的主控台並輸入密碼之後,才會啟動伺服器。因此,如果您想要服務品質能夠(重新)啟動 Domino,而無需人為介入特定的伺服器(例如,在管理員無法手動輸入密碼的不便之時),請不要在該伺服器上的 server.id 檔案使用密碼。

服務品質需要 Domino® 伺服器在 Java 控制器下使用 Java 主控台來執行。

可在伺服器的 NOTES.INI 檔案中,以 Domino® 伺服器上的下列設定來配置 qosprobe 增益集作業:
  • QOS_PROBE_INTERVAL=n

    探測間隔(以分鐘為單位)。可以在 notes.ini 中設定。預設值是 1 分鐘。

  • QOS_PROBE_TIMEOUT=n

    探測逾時(以分鐘為單位)。可以在 dcontroller.ini 中設定。預設值為 5 分鐘。

提示: QOS_PROBE_TIMEOUT 應該遠大於 QOS_PROBE_INTERVAL。如果在探測設為回應之前就發生逾時,伺服器將不斷地重新啟動。
伺服器控制器會監視 qosprobe 增益集將其探測結果傳送前往的訊息佇列。(SUCCESS、ERROR、TIMEOUT)。這些訊息會擷取到伺服器資料目錄的 qosctnrlrtimestamp.out 檔案中。下列是 SUCCESS 訊息的範例:
2010/01/07 07:42:56 QoS Probe: SUCCESS (88ms)
下列是錯誤訊息的範例:
2010/01/07 08:05:59 QoS Probe: ERROR: ProbeError=4803
啟用服務品質伺服器後,當 TIMEOUT 時,控制器會對伺服器執行 smart kill,然後重新啟動。在下列任一情況下,可能會發生逾時:
  • 探測所使用的 NSFDbOpenNIFOpenCollection 呼叫會傳回 Domino 的 ERR_TIMEOUT 錯誤。此錯誤會傳送至控制器,並起始 smart kill/重新啟動。控制器在逾時期間 (QOS_PROBE_TIMEOUT) 內未接收到 qosprobe 的訊息。這可能會以下列其中一種方式發生:qosprobe 被告知要結束 ('tell qosprobe quit') 或者它未執行。qosprobe 在探測時當掉。

如果控制器接收到探測逾時,它可能無法起始 伺服器 kill/重新啟動,因為有長時間執行及(或)負載密集作業正在執行(因而導致探測逾時)。這些作業包括 備份、COMPACT、DB複製、FIXUP 及 DBPURGE。在這些情況下,您會在 qoscntrlrtimestamp.out 檔案中看到一則訊息,其類似下列訊息:

2010/01/07 07:42:56 QoS Controller: The controller has received a probe timeout.
2010/01/07 07:42:56 QoS Controller: There are long running applications - probing will pause until they have completed.

如果偵測到此狀況,則控制器容許冗長(長時間執行)作業有更多時間完成。如果有任何冗長作業無法在該時間量之內完成,則控制器會進行 smart kill/重新啟動。您會在 qoscntrlrtimestamp.out 檔案中看到一則訊息,其類似下列範例中的訊息:

2010/01/07 07:42:56 QoS Controller: Applications are not making progress.
重要: 對於下列六個 NOTES.INI 值,如果您未配置該值,或配置的值小於預設值,則會套用預設值。您只能將值變更為比預設值更大的值。
  • QOS_PROBE_INTERVAL
  • QOS_PROBE_TIMEOUT
  • QOS_RESTART_LIMIT_PERIOD
  • QOS_SHUTDOWN_TIMEOUT
  • QOS_RESTART_TIMEOUT
  • QOS_APPS_TIMEOUT

程序

執行下列步驟: