监控服务质量

服务质量(即 QoS)旨在对 Domino® 服务器的常规操作出响应,以保持该服务器可靠地运行并始终可用。如果 QoS 检测到服务器未响应或已挂起,可配置 QoS 探测,以便向管理员发送有关该问题的电子邮件和/或自动终止服务器并重新启动。QoS 日志信息也对支持部门执行分析很有用。

关于此任务

警告: QoS 和故障恢复不应同时启用。
重要: 如果 QoS(重新)启动在 server.id 文件中有密码的服务器,那么该服务器将在管理员连接到该服务器上的控制台并输入密码之后才会启动。因此,如果希望 QoS 能够(重新)启动 Domino 而不干扰特定服务器(例如,管理员不方便手动输入密码时),那么不要在该服务器上使用 server.id 文件中的密码。

QoS 需要 Domino® 服务器使用 Java 控制台在 Java 控制器下运行。

qosprobe 附加任务可通过 Domino® 服务器上的服务器 NOTES.INI 文件中的以下设置进行配置:
  • QOS_PROBE_INTERVAL=n

    探测时间间隔以分钟为单位。可以在 notes.ini 中设置。缺省值为 1 分钟。

  • QOS_PROBE_TIMEOUT=n

    探测超时以分钟为单位。可以在 dcontroller.ini 中设置。缺省值为 5 分钟。

提示: QOS_PROBE_TIMEOUT 应dayushould be much greater than QOS_PROBE_INTERVAL. 如果设置探测以响应之前发生了超时,将一直重新启动服务器。
服务器控制器监视 qosprobe 附加组件将探测结果传达到的消息队列。(SUCCESS、ERROR、TIMEOUT)。消息将捕获到服务器数据目录中找到的 qosctnrlrtimestamp.out 文件内。下面是 SUCCESS 消息的示例:
2010/01/07 07:42:56 QoS Probe: SUCCESS (88ms)
下面是错误消息的示例:
2010/01/07 08:05:59 QoS Probe: ERROR: ProbeError=4803
如果启用了 QoS 服务器,TIMEOUT 时,控制器将智能结束服务器并重新启动。以下情况下可能发生超时:
  • 探测使用的 NSFDbOpenNIFOpenCollection 调用返回 Domino 的 ERR_TIMEOUT 错误。将把此错误发送到控制器,并启动智能结束/重新启动。控制器在超时时间段内 (QOS_PROBE_TIMEOUT) 不能从 qosprobe 收到消息。以下某种情况下可能出现这种情况:通知 qosprobe 退出(“tell qosprobe quit”)或 qosprobe 未在运行。探测时 qosprobe 挂起。

如果控制器接收探测超时,可能不会启动服务器结束/重新启动,因为长时期运行和/或负载密集型操作正在运行(并且已经导致了探测超时)。这些操作包括 BACKUP、COMPACT、DBCOPY、FIXUP 和 DBPURGE。在这些情况下,将在 qoscntrlrtimestamp.out 文件中看到与以下类似的消息:

2010/01/07 07:42:56 QoS Controller: The controller has received a probe timeout.
2010/01/07 07:42:56 QoS Controller: There are long running applications - probing will pause until they have completed.

如果检测到这种情况,控制器将运行冗长(“长时间运行”)操作使用更多时间来完成。如果任何冗长操作在该时间量内未能完成,控制器将继续执行智能结束/重新启动。将看到类似 qoscntrlrtimestamp.out 文件中以下示例的消息:

2010/01/07 07:42:56 QoS Controller: Applications are not making progress.
重要: 对于下面的六个 NOTES.INI 值,如果不配置,或配置为小于缺省值,将应用缺省值。智能将这些值更改为大于缺省值。
  • QOS_PROBE_INTERVAL
  • QOS_PROBE_TIMEOUT
  • QOS_RESTART_LIMIT_PERIOD
  • QOS_SHUTDOWN_TIMEOUT
  • QOS_RESTART_TIMEOUT
  • QOS_APPS_TIMEOUT

过程

执行以下任务: