如何使用警报工单

警报工单功能

警报和工单是一个全新的集成系统(不是具有不同 GUI 的螺栓固定包)。 它将来自 Toolbox 监控的警报和外部警报(如 Syslog)整合在一起,然后在整个系统中分流和呈现它们,包括在 Toolbox 实时地图(包括探针)中。


工单可以自动生成或手动添加并发送给一般或专业团队。 该系统通过与工程师和监管池交谈,使用优雅但世界一流的设置自动跟踪和追踪票证。 图表说明了轮询操作,请参见下一页。

警报系统的作用

该系统旨在分析和分类警报,并与其他 (SIEM) 警报管理系统一起使用,以在分布式工具箱 GUI 中显示警报,尤其是在实时地图中。

警报由 Toolbox 内的监视器创建,网络设备在外部创建为 SNMP TRAP 和 Syslog 消息。 这些来源在警报处理中合并,并在查看警报顶部面板中的原始警报表单中查看。 警报分为许多类别(用户可编程)并显示在标准和(可选)用户创建的仪表板中。

警报可以修改,使用分流(杜绝警报泛滥)收集在一起,并可用于创建工单。 必须使用警报过滤器系统使用过滤器匹配器对第一个警报进行分类,这可以节省以后的时间,因为警报分类(过滤器)也可以在地图动画中应用。

传入警报可能会被修改,例如更改优先级或将消息更改为易于理解的内容。 然后可以将它们作为 TRAPS 或 Syslog 重新传输,或者只是在内部处理。

作业工单 系统与 分类 一起使用,是一个功能强大但简单的 Job Ticket 分配系统,具有 3 Ticket Priorities。 工程师池由用户创建,以解决特定功能,例如服务器维护或地理区域。 单个界面指定每个工单优先级的操作,包括跟踪工程师和工单进度的全套报告。

警报源图

警报工单概览显示

如果不需要完整的警报分类和工单系统,则可以使用快速解除警报机制。 

带有警报列表的警报 GUI 示例如下:

alerts ticket new sys.bmp

新警报(非分流) - 勾选行,然后按按钮关闭警报,见下文:

简单的警报关闭还是完整的分流系统?

警报操作

处理传入的新警报可以

  1. 在新警报显示中勾选以关闭它们

或 2) 由警报分类系统智能处理。

1) 简单的新警报解除流程

  • + 使用简单。
  • + 无需设置。
  • – 必须手动解除所有警报。
  • – 无法自动创建工单。
  • – 无法自动抑制警报泛滥。

2) 分类新警报流程

  • + 通过将警报洪水转换为工单来自动抑制警报泛滥(警报链接到工单以供以后深入研究)。
  • + 创建工单以分配工程师资源并跟踪修复处理。
  • + 广泛的报告来分析基于分类的警报。
  • – 需要设置工程师池、电子邮件、警报单和分类规则。

工单完整状态跟踪

这是一个非常重要的升级,允许完全跟踪以及与工程师和工单的交互——请参阅下面的帮助系统除外:-

右侧窗口包含工单摘要网格,它提供工单状态的实时更新:-

单击工单行时,工单摘要显示如下:-

在这里可以立即取消工单、向指定的工程师请求更新或将工单重新分配给其他工程师。

如何使用警报和工单

各种警报最初显示在警报选项卡顶部面板网格中。

他们可以简单地被解除,或者通过创建一个工单,使用分流系统自动解除。

但是,如果有与任何传入警报匹配的分流规则 ,则会自动确认并从顶部面板网格中删除。 匹配的警报保留在系统中,并附加到匹配的分流规则,可在分流分析网格报告中查看。

使用分流系统的关键是设置警报过滤器 匹配器,因为这些匹配器用于触发分流规则匹配。

使用警报选项卡式网格

网格显示新警报:可以按照使用警报和简单警报解除 中的说明解除。

已出工单的警报 是已根据状态列中列出的分流规则成功分类的警报——在这种情况下,警报已使用慢 Ping 时间 分流规则出票。

所有警报 标签显示所有警报,包括手动关闭和分流已关闭的警报。 可以使用标准网格功能对列表进行搜索/过滤和排序。 被抑制的警报是指由分流系统自动抑制的警报。

被解除的警报 标签可用于查看已被手动解除的警报。

检索 Windows 警报

Toolbox 可以使用 WMI 与 Windows 对话框对话,从它们的 Windows NT 日志中收集事件,然后将它们转换为 Toolbox 警报格式。 然后它们会在 Toolbox 中正常处理,这意味着它们可以使用警报过滤器 来修改警报、创建工单或作为 SYSLOG 或 SNMP 陷阱发送出去。

通过单击设置 Windows 日志记录按钮设置 Windows 警报处理,如下图所示:

2020 enable windows event track.bmp

出现以下对话框。 选择要从 Windows 系统检索的 Windows 日志和警报优先级。

2020 dlg event log track.bmp

使用警报和简单的警报解除

此面板显示几个分类下的警报,显示简单解除警报系统或分流系统结果发生的情况。

使用 "简单手动解除警报 "系统,点击网格行上的复选框,选择警报,然后点击解除警报 按钮。将会出现一个弹出窗口,如下所示:-

点击对话框中的解除警报 按钮,将把警报移到解除的警报标签,它们将不再是工具箱中的活动警报,例如在地图或诊断中。

工单流程示意图

故障单可以由分类引擎自动创建或在 Toolbox Web GUI 中手动添加。

根据分流规则或手动工单对话框分配的组,工单被分配给特定的工程师组。 新工单通过电子邮件分配给工程师。

监管,如果设置,通过电子邮件通知工单分配和未能响应。

通过电子邮件与工程师沟通

以下是Toolbox工单系统在创建新工单时的操作。 首先,系统会在工单中指定的同一工程师组中寻找空闲的工程师。

Toolbox 工程师 之间的电子邮件 *命令*

 工单以如下格式分配给工程师:

<<<您已被分配这张工单 – 回复 *接受* 或 *拒绝*

*?* 命令帮助>>>

在回复代码 (*….*) 被 ** 终止后添加评论 

优先加急 – 票证参考 #100103,

创建于 2018-06-13 11:33:16,作为慢 Ping 时间

设备 -  http://www.worldtimeserver.com/  [http://www.worldtimeserver.com/ ] 全球网站无供应商——位置美国 

站点 - 本地

(工单分配摘要 – 来自 DEV 1 系统监视器 Pinger 的警报 – 警报 117 毫秒”警报“低值测试”关于  http://www.worldtimeserver.com/  [http://www.worldtimeserver.com/ ] 全球网站无供应商--位置美国

Pinger QoS >平均 Ping 时间 130 毫秒 超过限制 117 毫秒)

工程师被邀请通过回复 *接受* 来接受工单,通常后跟评论,例如“将立即调查**”。 ** 用于终止工程师评论(如果省略,系统将记录电子邮件的其余部分)。 Toolbox系统读取回复后,会向工程师发出确认,系统会更新工单和工程师的状态。

“*接受*” 我将对这张工单负责。 工单现已注册到该工程师。

“*拒绝*” 我不能接受这张工单。 
“*重新分配*” 虽然我接受了这张工单,但我现在需要其他人来处理它。 工单向团队中的所有工程师公布

“*更新*” 这是状态更新,管理器也可能要求状态更新。

“*已完成*” 我已成功完成工单。 工单现在标记为已成功关闭。
“*无解决方案*” 我无法解决问题并标记为关闭失败。

这些是工程师发送的用于更新管理器的状态消息——它们不会影响现有的工单分配。
“*忙碌*” 在Toolbox系统收到可用消息更新之前,我无法接受更多工单。
“*可用*” 我现在可以接受新工单
“*病假*” – 生病请假
“*度假*”, – 报告为在假期


“*帮助*”或“*?*”——请求完整的命令列表及其含义。

使用工单摘要对话框

右侧窗口包含工单摘要网格,它提供工单状态的实时更新:

单击工单行时,工单摘要显示如下:

在这里可以立即取消工单、向指定的工程师请求更新或将工单重新分配给其他工程师。

工单面板说明

此面板可访问多个工单功能:

操作员可以通过点击添加工单 按钮将新工单直接添加到工单系统,而无需通过警报分流系统,如下所示:

可查看所有工程师关于工单进度的状态以及对单个工单事件的进一步深入信息,如下所示:

单击网格行将显示该工程师的事件分析,如下所示:

单击监管网格行,还会显示监管事件列表:

使用警报过滤器

此面板允许用户定义非常广泛的警报过滤器,例如简单的警报优先级或非常详细的警报过滤器,例如具有多个匹配组件的复杂警报文本匹配。

它们主要用于警报分流,但也可用于过滤 Toolbox 产品拓扑图中的警报动画。

Toolbox警报组

此匹配器匹配 Toolbox 内部警报类型组,它是为了完整性而不是前线功能而添加的。 通过打开组网格列来了解工具箱内部组名称,可以在原始警报中看到组。

详细设置警报过滤器

添加新的警报过滤器 ,只需点击下面以黄色突出显示的按钮:

编辑现有的警报过滤器 ,双击网格行,如下所示:

要添加或修改警报过滤器,请使用警报过滤器对话框弹出窗口,如下所示:

尽管此弹出窗口有很多选项,但通常实际上只需要一个或几个。

现在对各种选项进行一一描述。

过滤器标题、类别和图标

过滤器的关键是输入一个唯一的 标题。 重要的是,名称需要说明过滤器匹配的内容。

还可以添加一个可选的 ,用于对过滤器进行分类,例如安全警报匹配。 注意: 可以通过单击网格底部的列图标添加类列来显示在警报网格中。

此外,可以将可选的图标 添加到过滤器匹配中。 强烈建议这样做,以使过滤器在整个工具箱系统中更加图形化。

匹配警报优先级

传入的警报优先级可以通过首先选择条件,然后在两个下拉菜单中选择优先级来匹配。 对于匹配高优先级警报很有用,可能与某些警报过滤器匹配属性结合使用。

匹配 IP 地址或Toolbox组

这可用于匹配整个 IP 地址或 IP 地址的片段,例如“10.26.”,方法是选择 IP 地址Type: 选项。

通过选择组类型: 选项 ,过滤器将在指定的组 IP 范围内查找 IP 地址。 注意:组是在设置选项卡->组面板下设置的。

匹配单元/设备类型

这用于匹配交换机路由器服务器 等设备(单元)类型或其他类型。 要匹配,例如第 3 层和第 2 层交换机,请匹配 *Switch ,因此匹配以通配符 * 字符开头(即匹配 L3 Switch 以及切换 )。

匹配消息文本

这可能是最重要的匹配器,因为它匹配消息的内容,例如 系统日志消息 内容或 SNMP 陷阱 内容或 工具箱生成的警报 像阈值突破等。

匹配器充分利用 *_ 等通配符来分别对多个或单个字符进行通配符。

匹配器可以有 1 到 4 个单独的匹配器术语,它们可以一起进行 AND 或 OR 运算。

1个术语

两个OR术语

具有不匹配排除项的两个项

三个术语AND匹配。

使用分流到作业工单系统

分流系统取决于警报过滤器,见下文:

例如,已创建警报过滤器以匹配来自 Toolbox 数据流分析 的警报。

分流参考下面的过滤器来启动分流操作——在这种情况下是创建一个工单。

标题 是用户设置的分流规则的名称,应描述分流规则。

绝对关键是匹配警报过滤器 ,它是系统中所有警报过滤器 的下拉列表,设置在警报过滤器 下 控制板。

可以有多个警报过滤器,它们都可以与分类规则相关联,并由工具箱处理以创建许多报告,显示触发分类的原因的详细信息。 例如,警报过滤器可以设置为跟踪 Pinger、TCP 端口和网页访问的警报,这些都将与规则触发器相关联。 其他故障点,例如中间链接和设备,可以使用警报过滤器(例如基于 SNMP 或 Pingers)进行跟踪,例如丢弃的数据包、响应缓慢以添加更多信息并在分类规则钻取报告中进行分析。

此作业单分类规则的匹配操作 指定将分配给哪个支持团队 。 Toolbox 设置了几个标准团队,但用户可以根据需要添加任意数量的支持团队。 优先级 下拉菜单选择紧急加急常规 ,这会直接影响在分配和进行时如何处理工单 门票。 紧急 工单将比 常规 工单更积极地被 Toolbox 作业追踪系统追踪

工单也显示在实时网络地图中,包括来自远程探测器。

使用分流修改警报

修改警报系统适用于匹配 一个或多个警报过滤器的单个警报。

修改警报规则应具有唯一的描述性标题

选择一个或多个警报过滤器 来触发此修改类型的分类规则。

要选择性地修改警报优先级,请使用Priority :下拉控件选择一个优先级。 这可用于降级警报优先级以降低匹配警报的重要性,或者升级指定警报过滤器匹配警报的优先级。

如果已知更好或替代的分组,则可以根据警报过滤器匹配更改警报组( )。

可以修改警报文本以匹配警报以在警报中添加文本、替换文本或附加文本。 有助于解释神秘的警报或翻译外语内容以匹配本地站点语言。

注意 :警报修改在任何其他警报处理完成之前完成。

使用分流执行直接操作

这种分流类型允许执行一系列操作,例如将警报转换为不同的警报类型,如 SNMP、电子邮件或系统日志。 此外,它可以触发预定义服务器脚本的执行。 它还可以用于复制 陷阱和系统日志,例如转发到另一个目的地,例如特殊的管理站。

与其他分类类型一样,该机制由匹配预定义的警报过滤器驱动。

工单创建和处理

工单由警报和分流系统创建,也可以由 Toolbox 用户手动创建。

要处理工单,需要工程师列表和可选的监控列表。 创建新工单后,系统会扫描工程师列表,寻找与工单支持组匹配的空闲工程师。 支持组在 Toolbox 中预定义,但用户可以添加其他组,例如地理区域。

当找到匹配的空闲工程师时,系统将通过电子邮件将工单发送给该工程师。 工程师可以在回复电子邮件中选择*接受*或*拒绝*该工单。 系统依靠电子邮件主题行(请勿编辑)中的工单参考号 #999999 来跟踪工程师的回复。

工程师可以在任何时候向系统异步报告问题等意外情况,同样也可以报告可用性。系统会根据提交给Toolbox的计划来跟踪假期和可用性。请参阅工具箱工程师之间的电子邮件*命令*。

工单将按照“编辑规则”和“超时”按钮设置的规则进行处理。 这指定了超时(按工单优先级)和程序,例如当监管器通过电子邮件更新分配和程序失败时。

工程师请求的完整列表

这些消息由系统自动发送给工程师。

“已为您分配了这张工单 - 回复 *接受* 或 *拒绝*”

“向任何工程师提供工单 – 回复 *接受* 以获取此工单”

“系统已确认您已接受此工单。\n 当工单成功完成时,您可以使用进一步的 *UPDATE* 回复和 *已完成* 提供进度详细信息。\n 回复 *重新分配* 以放弃此工单。\n 回复 *无解决方案 * 表示无法修复”

“您对工单分配没有任何回应 – 回复 *接受* 或 *拒绝*”

“你能在进度上更新系统吗?输入 *更新* 然后是详细信息或 *已关闭* 或 *重新分配* 或 *无解决方案*”  

“系统无法识别您的回复 - 请使用正确的回复文本回复”

“系统无法识别您的上一次回复 - 现在将重新发送工单详细信息(请勿修改标题行)”

“系统已确认您已拒绝此工单。”

“监管器 - 工单已分配给”

“监管器 - 工单分配超时 - 重新分配工单”   

“工单完成确认”,    

“工单无解决方案确认”,   

“更新收据确认”,    

“系统已确认您已重新分配此工单。”,               

“系统操作员已取消此工单。”,               

“系统操作员已重新分配此工单。”,

“此工单已超过最大作业时间。”,

“帮助 – *接受*提供的工单\n*已完成*工单已完成 ok\n*更新* 将详细信息添加到工单\n*重新分配* 将工单重新分配给工程师\n*无解决方案* 关闭未修复\n\n至主管状态 更新——*忙碌*、*可用*、*生病*、*假期*”