第 277 回 PTT のお知らせ


日時: 2002年2月28日 (木) 18:30 から
場所: 東京工業大学大岡山キャンパス西7号館302号室
      東京工業大学大岡山キャンパスは,東急目蒲線/大井町線
      大岡山駅下車徒歩1分です.
      会場の西7号館までは正門横の学内地図を参考にお越しください.
      詳しくは東京工業大学のページを御覧下さい.       

話者: 高宮安仁(東京工業大学)
題名:二題噺
「コモディティクラスタのユーザ透過な耐故障性の実現にむけて」
「コモディティクラスタ構築・管理ツールLUCIE」
概要:
コモディティクラスタリングシステムにおける,ノード数規模の拡大,計算実行 時間およびメモリ空間の急激なスケールアップに伴い,(i). アプリケーション およびシステムの障害発生の潜在的可能性への対処, および (ii). クラスタリ ングシステムの自己組織化,動的な再構築機能の達成が急務となっている.

しかし,PC クラスタ等の並列計算分野では,これまでこうした耐故障性につい てのソフトウェア開発が重視されておらず,十分でなかった.また,信頼性,ユー ザ透過性,実行時オーバーヘッドの兼ね合いをユーザが指定することのできる. 柔軟な耐故障性機構が求められているが,従来のクラスタ向け耐故障性システム では,単一のポリシ/機構専用のものがほとんどであった.加えて,実アプリケー ションを用いた場合のオーバヘッドも明らかではなかった.

今回は (i) に関する研究として,耐故障性機構をもつ MPI である, Parakeet システム, (ii) に関する研究として,クラスタ構築/管理ツール LUCIE を紹介 する.

ユーザは Parakeet システムを用いることによって,性能を損ねることなく, MPI 上で容易に耐故障性,リカバリのポリシ/機構を指定できる.本稿では予備 段階として, MPICH 上にユーザレベルチェックポインタ,およびプロセスマイ グレーションと Coordinated Checkpointing の一部をユーザ透過に実装した. 実装は主にシステムコールへのラッパーライブラリとして提供されている.予備 的な評価の結果,Parakeet システムは MPICH 自体への変更をほとんど必要とせ ず,ラッパーライブラリ自体のオーバーヘッドも低いことがわかった.

LUCIE は PC クラスタ用のインストーラ/管理ツールである.ユーザーは対話的 操作なしに Vanilla PC からハードディスクのパーティショニング,インストー ル,/etc ファイル等の設定までを含めて数分で PC クラスタ全体をセットアッ プし、すぐにクラスタとして使いはじめることができる.LUCIE は松岡研究室, および他組織のクラスタ管理に実際に運用されはじめている.

まとめとして,両システムの簡単なデモと,将来的な目標であるプラグアンドプ レイクラスタリングの研究計画について述べる.



第277回 PTTメモ

日時: 2002年2月28日 (木) 18:30 から
場所: 東京工業大学大岡山キャンパス西7号館302号室
出席者: 秋山智宏,小倉章嗣,早田恭彦,栄純明,丸山直也,小川宏高(東工大) , 伊知地宏(ラムダ数学教育研),和田英一(富士通研),森山絵美, 繁富利恵(津田塾大),石畑清(明大),竹内一弓,兵藤和樹, 城勘友秀(電通大),丸山一貴,寺田実,副田俊介,林田卓朗, 田中哲朗(東大)
題目: 二題噺 「コモディティクラスタのユーザ透過な耐故障性の実現にむけて」 「コモディティクラスタ構築・管理ツールLUCIE」 「おまけ:クラスタ構築苦労話」
話者: 笹生健(東京工業大学)
概 要:
LUCIEは PC クラスタ用のインストーラ・コンフィグレーションツールである. まったくまっさらな状態の PC からハードディスクのパーティショニング,イン ストール,/etc ファイル等の設定までを含めて数分で PCクラスタ全体をセット アップし、すぐにクラスタとして使いはじめることができる.インストール中は, キーボード操作等の対話的操作はまったく必要無い.

LUCIEの基本的なコンセプトは「何か問題が起こった場合には,何も考えずに 即,再インストール」というもので,例えば故障したノードが出た場合,代替の ノードに復旧インストールを行い,即座に故障ノードの復旧を行う。また,管理 ミスで設定ファイルやバイナリにおいてノード間の不整合が起きた場合も,問題 のあるノードを再インストールする事で解決する。

今回は実際にLUCIEを使用したインストールのデモを交えながら,LUCIEの概要 を説明する。

・・・・予定だったのですが,開発者の高宮安仁が諸事情によりPTTに出席でき なくなってしまったので,急遽,代理として同期の笹生が付け焼き刃の知識で説 明させて頂きました。かなり聞き苦しかったかもしれません。誠にすみませんで した。

LUCIEに関する情報は http://matsu-www.is.titech.ac.jp/~takamiya/lucie/ をご覧ください。

余った時間で松岡研のPrestoIIIクラスタ構築の裏話をさせて頂きました。


質疑応答:
忘れてしまいました。すみません。