検索検索
English

日本発のソフトウェアを世界へ送り出す

【VOICEs - 社内インタビュー】「SIOS iQ」は仮想環境における課題を独自の機械学習技術によって分析・解決するインテリジェントなプラットフォームです。既存の監視ツールとはどのように違うのでしょうか。サイオステクノロジー SIOS iQ事業企画部長の野田勝彦に聞きました。

ピープル2015年11月 5日

― 2013年にサイオスに入社されたとお聞きしました。その背景に、技術者としての特別な想いがあったようですね。

80年〜90年代にかけて私が勤務していた住友金属という企業は、「日本国内で製造した製品を海外に輸出するビジネス」に力を入れていました。私はその会社で、システム系の研究部門に所属していましたがそのシステム部門でも、海外に製品を輸出することを大前提に研究・開発していました。私自身もまた、自分が開発した製品を海外へ輸出しよう、と試みました。しかし、あえなく事業は撤退。当時の私にはソフトウェア販売の経験が無く、撤退は当然の帰結だったかもしれません。その後、私は3社ほどの外資系企業に勤め、住友金属時代とは逆に「海外のソフトウェア製品を輸入し、日本国内で販売する」という仕事に従事しました。

外資系で働いている間も、いつかは日本製のソフトウェアを海外へ輸出する仕事に戻りたいという想いは胸の内でくすぶっていました。そんな折、幸運にも2013年にサイオスとの出会いがあり、入社を決意しました。そして今、日本企業であるサイオスが開発したSIOS iQという製品を世界に広めるという仕事に取り組んでいます。

― SIOS iQは、どのような背景や経緯で、開発することになったのでしょうか?

近年の仮想化技術の急激な発展と普及に伴って顕著に現れた新たな問題を解決するためです。

― そもそも仮想化が急速に普及した理由には、どんなことが考えられますか?

エンタープライズにおける今日の仮想環境は、共有リソースを動的に割り当てるメカニズムにより、高度なスケーラビリティの実現が可能です。クラウドや仮想環境は、絶え間なく変化するビジネスニーズに俊敏に適合できるようデザインされ、例えば、アクセスが集中する時間帯の瞬間的な負荷の上昇に対応するため、一時的にリソースを追加したり、仮想マシンを停止させることなく別のホストに移動したりすることも可能です。

また、ピーク時に合わせてリソースを増強したり、アクセスの少ない時間帯に縮退し、オフピーク時だけ稼働する仮想マシンを設置したりすることも可能です。企業の情報システム部門は、日増しに処理量が増えつつある基幹データベースやERPシステムなどの業務アプリケーションを、厳しいビジネス要件を満たすために仮想環境に移行しなければならない状況となりました。

― 一方で「仮想化技術の普及に伴って現れた新たな問題」というのは、どのようなものですか?

仮想環境は、リソースが固定され厳密な管理・運用が可能な物理環境とは異なり、様々な要因が関係・影響し合い、とても複雑です。システム全体を理解し、最適化することは容易ではありません。ある業務アプリケーションの動作が他のシステムに与える影響といった微妙な相互作用は、問題発生時における迅速な解決を非常に難しくします。

一方、運用担当者のスキルは、個々の技術領域ごとにサイロ化され、何か問題が発生した場合は、専門家チームを招集し専門分野ごとに分析した後、分析結果を持ち寄って、さらなる議論と調査を重ねなければなりません。

厳しいビジネス要件を満たすために導入したはずの仮想化技術が、問題が発生した途端、ビジネスの継続を妨害しかねません。

― 既存の製品やツールでは、なぜ、その問題を解決できないのでしょうか?

従来の問題検出アプローチは、各種メトリクスに閾値を設け、閾値を超えた場合にアラートするというものでした。ただし閾値には、設定が低すぎればアラート・ストームを引き起こし、高すぎれば異常を検知できないという欠点が内在します。

たしかに、最新の監視ツールでは、複数のメトリクスが同時に閾値を超えた場合のみアラートするポリシーや、機械学習により閾値を自動調整する機構を備えた製品も開発されました。

とはいえやはり、閾値による問題検出アプローチには、現象のみを捉えて原因分析は人手に委ねられるという点、さらに補足対象のイベントは人が理解している範囲に限られてしまうという本質的な欠陥が存在し、静的な構成から推測できません。仮想環境の柔軟性に由来して動的に発生する微細な間接的作用は閾値によるアプローチでは識別されません。

― そもそも膨大かつ複雑なシステムを人手で管理するのには限界がある、ということですね。

その通りです。この課題を克服するために開発された製品が、SIOS iQなのです。


現象の検出から解決策の提案まで行うSIOS iQ

従来の監視ツールが現象を捉えるだけであったのに対し、SIOS iQは、現象の検出と同時に、根本原因と影響の分析、必要な修正や改善策を提案します。また、閾値によるアプローチでは決して検出できない些細な現象も捕捉することができますので、問題が表面化する前に、未然に防止することも可能です。

SIOS iQの7大特長

あらためて、SIOS iQの7つの特長を説明させていただきます。

1. 閾値やポリシーを使わない
SIOS iQは、システムの振る舞いを観察し、常態学習を重ねた上で、アノマリーを検出するというアプローチを採用したため、従来のアプローチのような閾値やポリシーを使いません。

2. 全体を俯瞰するとともに、詳細をドリルダウンするためのダッシュボード
SIOS iQは、システム全体の健全性を俯瞰するためのダッシュボードを提供します。また、タブレットなどのタッチインターフェースにも対応し、簡単な操作で、詳細な情報までドリルダウンすることが可能です。

3. 現象・影響・原因・解決策を同時に報告
SIOS iQを使用すれば、もう原因分析に時間を費やす必要はありません。従来のアプローチでは、閾値によって現象を捉えるのみでしたが、SIOS iQはシステムの振る舞いを分析し、異常検出と原因分析を同時に行います。異常が検出された時には既に原因が特定されており、原因となるオブジェクト、影響を受けているオブジェクト、症状が1つのレポートで報告されます。さらに、SIOS iQは、異常を検出するだけではなく、異常を改善するための解決策の提案と、シミュレーションも行い、全ての情報が一覧でレポート化されます。

4. 問題を未然に防止
SIOS iQは、システムの振る舞いを分析します。したがって閾値では検出できない微細な振る舞いの差異を識別し、問題が表面化する前にその発生を予測、警告することができます。警告レベルで対応すれば深刻な問題を未然に防止することも可能です。

5. ノイズ・レス
SIOS iQは、メトリクスの高さや低さで異常を識別するのではなく、学習で得た知識を利用し、振る舞いとしてのアノマリーを識別します。そのため、ノイズの無い問題検出と最適な解決策の提案を行います。

6. エージェント・レス
SIOS iQを使用するために、エージェント・プログラムをインストールする必要はありません。柔軟で拡張性のあるアーキテクチャの採用で、様々なデータ・ソースから情報を包括的に集約し、機械学習技術を応用した高度な分析と学習を行います。

7. コンパクト
システムの振る舞いを学習し、知識を蓄えるため、過去の膨大なログ・データを保存する必要がありません。長期間にわたって使用しても知識ベースはコンパクトです。またログのバックアップと消去が不要です。

SIOS iQの画面から提供される情報とは

― 具体的にSIOS iQの画面を見せてもらえますか?

承知しました。では、SIOS iQが検出した性能に関する問題をレビューする画面をご紹介します 。それが、「Performance Root Causesダッシュボード」です(下図を参照)。Performance Root Causesダッシュボードには、検出された問題のリストと、イベントの詳細な情報が表示されます。


Performance Root Causesダッシュボードの画面

Performance Root Causesダッシュボードに表示されているのが、「問題リスト」です(左カラムのメニューバー右隣の部分)。ここには検出された問題が、上から順にリスト表示されます。表示順序を問題の深刻度()、発生時刻、終息時刻、問題種別など任意のカラムで並べ替えを行うことが可能です。

「問題リスト」の右隣には、個々の問題を多角的に分析する3つのタブが表示されています。詳細情報(Detailsタブ)影響分析(Impact Analysisタブ)症状の分析(Symptomタブ)です。順に説明しましょう。

「詳細情報(Detailsタブ)」は、問題リストの中から選択された問題の詳細情報を表示します。


Performance Root Causesダッシュボード「問題リスト」の右側に示された「詳細情報(Detailsタブ)」

この「詳細情報(Detailsタブ)には、以下のような情報が一覧で表示されます。

詳細情報 説明
Issue Type(問題種別) アプリケーション・インパクト、ストレージ競合、アプリケーション・ストレージ競合、物理ホスト・レベルのCPU/メモリ不足、アプリケーションのCPU/メモリ不足など問題の種別を表示します。
Issue Symptom(問題の症状) レイテンシ、IOPS、CPU稼働率、メモリ使用率、CPU待ち時間、メモリ・スワップ、メモリ・バルーニングなど、問題を識別するに至った症状を表示します。
Layer(問題検出レイヤ) アプリケーション、CPU/メモリ、ストレージ、ネットワークなど問題を検出したインフラストラクチャ上のレイヤに関する情報を表示します。
Time Detail(時刻詳細) 問題が発生・終息した時刻、継続時間を表示します。
Root Cause Object(原因オブジェクト) データ・ストア、物理ホスト、仮想マシン、アプリケーションなど、問題を引き起こしているオブジェクトの種別とそのオブジェクトの名前を表示します。
Recommendation(提案) 検出された問題を解決するために、推奨される解決策を表示します。

詳細情報タブの右隣が、「影響分析(Impact Analysisタブ)」です(下図)。

こちらは、問題リストから選択された問題と関係するオブジェクトのリストを表示します。vGraphにより関係性があると判断されたオブジェクトは全てここに表示されます。また、IOPSレイテンシCPU待ち時間などを診断することにより、各オブジェクトが影響を受けたか否かが判定され、その結果が表示されます。オブジェクトを選択し、Performance Impactボタンをクリックすると、IOPSやレイテンシの時系列グラフが表示され、オブジェクトが受けたインパクトを精査することが可能です。


問題リストに表示される「影響分析(Impactタブ)」

「問題リスト」の3つ目が、「症状の分析(Symptomタブ)」です(下図)。

このタブは、問題リストから選択された問題の症状に関する情報を時系列グラフで表示します。例えば、イベントの種別がストレージ競合の場合には、IOの最大レイテンシ、通常時との偏差、問題が発生した期間・時間帯における遅延時間の統計値のグラフを表示します。また、グラフには、問題の発生時刻から終息時刻がわかるように強調表示されます。


問題リストに表示される「症状の分析(Symptomタブ)」

3つのユースケース

SIOS iQの機能と用途の具体的な利用イメージを持っていただくために、3つのユースケースをホワイトペーパーにまとめましたので、ご紹介します。

このユースケースでは、IT運用責任者が、アプリケーションの性能上の問題に直面した際、SIOS iQを使用して、いかに迅速に問題の原因を特定し、解決できるかを解説します。

このユースケースでは、IT運用責任者が、SIOS iQを使用して、どのようにフラッシュ・リード・キャッシュの設定を最適化し、アプリケーションの性能を改善するかを解説します。

このユースケースでは、IT運用責任者が、SIOS iQを使用して、どのように使用されていない仮想マシンや不要なバックアップを特定し、浪費されていたITインフラ資源を節約するかを解説します。

ホワイトペーパーは、こちらからダウンロードが可能です。

ところでSIOS iQは、どのような技術を利用して、このような機能を実現しているのでしょうか。

2015年11月10日~11日に、ザ・プリンスパークタワー東京で開催されるvForum2015のサイオスのセッション「徹底解説 性能劣化の原因を完全自動分析するSIOS iQの実装技術」で、SIOS iQの実装技術について、詳細に解説する予定です。セッション番号は、SD4S084Tです。ぜひ、こちらのセッションにご参加ください。

― SIOS iQはどのようなユーザーに利用されているのでしょうか。

プライベートクラウドやパブリッククラウドなど、物理ホストが10台以上の規模のVMware製品を利用した仮想環境を想定しています。クラウド事業者だけでなく、ユーザー数や提供するサービスが増加し続けている企業や、ピーク時の負荷が平常時と比べて大きいサービスでは、SIOS iQによる価値を実感していただけると思います。また、開発環境のように比較的変化の激しい利用環境でも利用価値は高いと考えられます。

私はサイオスで、システムコンサルティングに携わる機会が何度かありましたが、その多くが「システム性能改善」案件でした。複雑化したシステムの性能低下に多くのお客様がお困りであることを改めて強く実感しました。実際、一般企業ではIT部門の運用管理の担当者や、CIOなどマネジメント層の方が高い関心を持ってくださります。

また、クラウド事業者ではVMware製品を用いてクラウドサービスを提供しているケースが多くあり、そうした事業者においては、急速にSIOS iQの利用が広がると期待しています。

― SIOS iQを使えば、既存の監視系ツールは不要になるのでしょうか。

いいえ、そうではありません。それぞれ特徴は異なるため、むしろ補完しあう関係といえるでしょう。

監視系ツールはログデータを長期にわたって蓄積することができます。監査用途などで、1年前のデータを見ることもできますが、SIOS iQは24時間、1週間、1カ月という単位でデータを要約してしまいますので、1カ月前の1週間のデータを見ることや、1年前の1か月間のデータを見ることはできません。

進化し続けるSIOS iQ

― 今後リリースされるバージョンではどのような機能が拡充されるのでしょうか。

我々は、今後も機械学習技術をコア技術として、機能を拡張していく予定です。現在のバージョンでは、性能分析にフォーカスした機能だけを提供していますが、今後、効率性分析信頼性分析キャパシティ予測の4つの分野で、コアとなる機械学習技術を応用し、サイオスにしか提供できない機能を順次、提供していく予定でおります。

また、あくまでビジョンレベルですが、将来的にはOpenStackなど他のハイパーバイザー製品への対応や、AWSやAzureなどのパブリッククラウドへの対応も検討しています。より多くのお客様が利用されれば、そこで得られる声がサイオスでの製品開発にフィードバックされ、より満足度の高い製品になっていく好循環が生まれます。

今後、積極的にお客様のご意見を製品に反映していく考えです。進化し続けていくSIOS iQに、どうぞご期待ください。

― こうした製品開発を通じて蓄積される機械学習など先進技術の知見やノウハウが、サイオスにおける新たな製品開発などにも生かされそうですね。

そうですね。SIOS iQだけでなく、ほかにもサイオスらしい日本発の様々なプロダクトを開発して、世界に打って出たい、というのが私のビジネスの原動力になっています。そのためにこれまで培った事業の立ち上げ経験などをフルに生かしたいと考えています。

●プロフィール
サイオステクノロジー
SIOS iQ事業企画部長
野田勝彦(Katsuhiko Noda)

成蹊大学卒業後、住友金属工業にて、1024個のCPUを搭載したSIMD型超並列計算機SM-1の開発に携わる。その後、ソフトウェア・テスト・ツールMemlightを開発・商品化し、同事業を立ち上げる。さらに学習機能搭載の現キヤノンITソリューションズのGUARDIANシリーズの初代製品GUARDIAN AUDITの開発と商品化を行う。1999年に日本ラショナル・ソフトウェアの設立に伴い、スタートアップ・メンバーとして技術部長に就任。2003年に日本IBMに吸収合併され、シニアITアーキテクトとして、大規模ブロジェクトの開発プロセスや品質の改善に従事。2005年に米国Parasoft Corporationの日本法人であるParasoft Japan株式会社を設立し、代表取締役に就任する。

2013年、日本発のプロダクトを世界へ、という想いでサイオスに入社。2015年7月にSIOS iQ事業企画部長に着任した。SIOS iQの事業を軌道に乗せ、国内外を含めた販路を広げるためにこれまで培った豊富な経験を役立てている。

(取材/2015年8月)

SIOS iQの実装技術を探る記事はこちらから