東京工業大学大岡山キャンパスは,東急目蒲線/大井町線 大岡山駅下車徒歩1分です. 会場の西7号館までは正門横の学内地図を参考にお越しください. 詳しくは東京工業大学のページを御覧下さい.
しかし,PC クラスタ等の並列計算分野では,これまでこうした耐故障性につい てのソフトウェア開発が重視されておらず,十分でなかった.また,信頼性,ユー ザ透過性,実行時オーバーヘッドの兼ね合いをユーザが指定することのできる. 柔軟な耐故障性機構が求められているが,従来のクラスタ向け耐故障性システム では,単一のポリシ/機構専用のものがほとんどであった.加えて,実アプリケー ションを用いた場合のオーバヘッドも明らかではなかった.
今回は (i) に関する研究として,耐故障性機構をもつ MPI である, Parakeet システム, (ii) に関する研究として,クラスタ構築/管理ツール LUCIE を紹介 する.
ユーザは Parakeet システムを用いることによって,性能を損ねることなく, MPI 上で容易に耐故障性,リカバリのポリシ/機構を指定できる.本稿では予備 段階として, MPICH 上にユーザレベルチェックポインタ,およびプロセスマイ グレーションと Coordinated Checkpointing の一部をユーザ透過に実装した. 実装は主にシステムコールへのラッパーライブラリとして提供されている.予備 的な評価の結果,Parakeet システムは MPICH 自体への変更をほとんど必要とせ ず,ラッパーライブラリ自体のオーバーヘッドも低いことがわかった.
LUCIE は PC クラスタ用のインストーラ/管理ツールである.ユーザーは対話的 操作なしに Vanilla PC からハードディスクのパーティショニング,インストー ル,/etc ファイル等の設定までを含めて数分で PC クラスタ全体をセットアッ プし、すぐにクラスタとして使いはじめることができる.LUCIE は松岡研究室, および他組織のクラスタ管理に実際に運用されはじめている.
まとめとして,両システムの簡単なデモと,将来的な目標であるプラグアンドプ レイクラスタリングの研究計画について述べる.
LUCIEの基本的なコンセプトは「何か問題が起こった場合には,何も考えずに 即,再インストール」というもので,例えば故障したノードが出た場合,代替の ノードに復旧インストールを行い,即座に故障ノードの復旧を行う。また,管理 ミスで設定ファイルやバイナリにおいてノード間の不整合が起きた場合も,問題 のあるノードを再インストールする事で解決する。
今回は実際にLUCIEを使用したインストールのデモを交えながら,LUCIEの概要 を説明する。
・・・・予定だったのですが,開発者の高宮安仁が諸事情によりPTTに出席でき なくなってしまったので,急遽,代理として同期の笹生が付け焼き刃の知識で説 明させて頂きました。かなり聞き苦しかったかもしれません。誠にすみませんで した。
LUCIEに関する情報は
http://matsu-www.is.titech.ac.jp/~takamiya/lucie/
をご覧ください。
余った時間で松岡研のPrestoIIIクラスタ構築の裏話をさせて頂きました。
質疑応答:
忘れてしまいました。すみません。