NTTアクセスサ−ビスシステム研究所
ホーム  >  ANSL R&D Times  >  バックナンバー  >  第99号(2017_09)  >  1  >  保守者ノウハウを学習して障害箇所をすぐに見つけます
ANSL R&D Times

保守者ノウハウを学習して障害箇所をすぐに見つけます

自動障害箇所推定システム

人では見いだすことの難しい障害時における障害原因とアラームの因果関係(ルール)を保守者ノウハウから学習し自律的に導出する技術を開発しました。障害発生時に障害原因と箇所の候補を瞬時に提示する自動障害箇所推定システムを紹介します。

背景

 大規模ネットワークにおける障害対応では、スキルを有する保守者が大量のアラームを分析し、導通試験等により障害箇所の切り分け作業を行う必要があります(図1(a))。場合によっては数時間~数日を要するこの分析・切り分け作業を短縮し、障害復旧の迅速化による保守業務の負担軽減(OPEX削減)をめざした研究開発に取り組んでいます。
概要

 本技術は、ネットワークの障害箇所の特定において、これまで保守者のスキルとノウハウに頼って手作業で実施していた障害箇所の切り分けと要因特定を自動化するNetwork-AI技術です。
 何らかの設備やシステムにおいて障害が発生したときに、障害原因とシステムが発するアラームなど(以下、イベント)から、障害とイベントの因果関係(以下、ルール)を導き出します。アラームとルールを照らし合わせることで、瞬時にネットワーク障害原因を推定することができるようになります(図1(b))。これまで、ルールを固定的に与えて障害を推定する技術はありましたが、保守者が分析した障害対応の履歴などから、ルールそのものを自動的に作り出したり、修正したりする技術はありませんでした。
 本技術は、アラームから障害原因を推定するシステムを構築可能な技術であり、幅広い分野での適用が可能な技術です。また、障害切り分け時の保守者ノウハウがルールという形で学習されるため、障害対応業務(保守者ノウハウ)のナレッジ化に寄与することが可能です。
  ※Network-AIはcorevo®を構成する4種のAIの1つです。

 

図1 自動障害箇所推定技術の適用イメージ

 

図1 自動障害箇所推定技術の適用イメージ

今後の予定
 今後は、システムとしての開発、また、通知されるアラームやログ情報などのイベント群だけでは判定困難な複雑な障害ケースも推定できるよう、試験ツール(試験機能)との連携や様々な異常検知技術との連携、保守者へのアクション提示など、ネットワーク保全の高度化を目指します。さらに、通信以外の分野への適用拡大も目指します。
担当者
アクセスオペレーションプロジェクト オペレーション方式SEグループ
岡崎 勝彦(グループリーダ)
大石 晴夫(主任研究員)
鈴木 聡(主任研究員)
矢川 太祐(研究主任)
糸井 謙史(研究員)
梶原 功司(研究員)
カテゴリートップ
TOP
次
1.保守者の分析・切分け試験稼働を削減