サーバ監視、何使ってる? 72
ストーリー by GetSet
hide.jikyll 曰く、
SF.JP Magazineで「Webインタフェースでマシンを監視する4つの方法」という記事が掲載されています。Webインタフェースを持つ4つのサーバ監視ツール(collectd、Cacti、Monitorix、Munin)の特徴をそれぞれ解説した記事で、筆者は記事の末尾で以下のように述べています。
サーバ監視ツールといえば一昔前はMRTGが定番でしたが、1つのグラフに3系列以上のデータをプロットすることができないなどの欠点があることから、現在は同じ作者(Tobias Oetiker)によるRRDtoolをベースとするツールが主流になってきているようです。/.Jの皆さんはどんなツールでサーバを監視していますか?データをじっくりと分析する場合や、管理者以外のユーザからもシステムの統計情報を参照できるようにする場合は、最初にCactiをあたるのがよさそうだ。すでに十分な負荷がかかっているシステムで情報収集を行うなら、システムに与える影響の小さいcollectdを試せばよい。また、多数のノードで個別のアプリケーションパッケージを使って情報を集めるMuninは、同じようなマシンで構成される小規模なグループの監視に向いており、1台しかないサーバの状態を手っとり早く把握したければ、とりあえずCactiかMonitorixのどちらかを検討するのが妥当だろう。
監視対象が小規模クラスなら (スコア:5, 参考になる)
MRTGやRRDtool単体は動作させるまでにSNMPやらなんやらと監視する項目ごとに設定が必要になってきますけど、muninは自動検知一発(munin-node-configure)でほぼすべてのグラフを生成してくれますからね。
自動設定させておいて、あとは必要ないグラフ(プラグイン)を削除していくだけ。
カーネルやOSの異なるサーバーでも、10~20台規模なら2~3時間もあれば設定できてしまう。
独自のノードプラグインもシェルスクリプトできる人なら簡単に作成できるのも魅力。
使ったことはないけどWindows用のノードも用意されているらしいのでWindowsサーバーも監視対象にできるようです。
Re:監視対象が小規模クラスなら (スコア:2, 参考になる)
Munin用のプラグイン一覧。
Re: (スコア:0)
これはいいよね。測定方法さえ決まってれば、簡単に作れるし。
負荷調査の他、特定ログの出現回数の時間推移を追いたい時も使える。
Windowsのエージェントは、測定項目によっては微妙なのかな、wshで
見える範囲は対応できて、便利そうなんだけど、CPU については、
グラフが変な感じ(合計が100%にならなかったり、パフォーマンスモニタで
みたのと、違ってるようだったり)なんで、wshでの測定結果をテキストファイルに
落としておいて、Linuxからファイル共有接続してmuninで処理
させたりしてみてる。
Re: (スコア:0)
大規模だとgangliaがいいらしい。
http://ganglia.info/ [ganglia.info]
遠隔監視 (スコア:5, おもしろおかしい)
Re:遠隔監視 (スコア:5, おもしろおかしい)
障害からの自動復旧まで行ってくれるうえに、
マニュアルの陰に隠しておいた工口本まで探し出してくれる優れものです。
人生をリセットしたくなることもあります。
Re:遠隔監視 (スコア:1)
さらに高性能になると、ウェブを漁って拡張子が.jpgのログファイルをたくさん作ってくれます。
spam嫌いなbeefeater
でも豚肉は好き
Re:遠隔監視 (スコア:1)
ログを分析すると,すでに入手済みのjpgファイルだったりして...
Re:遠隔監視 (スコア:5, おもしろおかしい)
Re:遠隔監視 (スコア:2, おもしろおかしい)
Re:遠隔監視 (スコア:2, おもしろおかしい)
Re:遠隔監視 (スコア:1)
ように思います。リセットボタンというより、電源長押しですね。
Re:遠隔監視 (スコア:1)
というのは、実家にサーバを置いていて、まれに応答がなくなったりしたときにサーバやルータの再起動をイモートに電話でお願いしたりしていたのです。
時々カーチャン監視システムで代用もしました。
Re:遠隔監視 (スコア:1)
Re:遠隔監視 (スコア:1)
Re: (スコア:0)
システム自体の誤動作が原因のトラブルの方が多くないですか?
Re: (スコア:0)
監視システムのリセットボタンかと思って「どこにあるんだろう?」と妄想してしまった。
#ちょびっツは・・・だよね? とか。
Re:ヤバイ (スコア:1)
答えはある。それを見つける能力が無いだけだ。
管理の内容によると思いますが (スコア:3, 興味深い)
・余計なアプリは入れない
・中身のわからない余計なソフトのバグで悩まされない
という主義だったので、シェルを使った自前のスクリプト(バグあり)を使って管理していました。
統計のグラフ表示とかも、
・sqlやvmstat,iostat等を使ったリソース表示スクリプトを個々に作成しておき
・crontabに登録したそのスクリプトを使ってcsv形式のリソースデータを出力し、
・そのデータファイルをサーバルームのその場でsed & awkを使ったスクリプトを動かして
コンソール上に直にグラフ表示させていました。
以下みたいに
09:00 10501 ##########
09:05 16777 ################
09:10 13218 #############
09:15 11431 ###########
あとでまとめてWindowsマシンに持って行き、
Excelのマクロを使って自動的にインポートしてグラフ表示をさせ、
全体把握や比較をしたりもしましたが、
日々表示させて変化点を把握するだけなら上記だけで十分だったような気がします。
そして、朝一でこのコマンドを叩いた後は休憩室でコーヒーを飲むのです。
やっぱ、Systems Insight Manager (スコア:3, 参考になる)
http://h50146.www5.hp.com/products/software/management/hpsim/ [hp.com]
これ無償ですが結構使えます。
PCにECC Registeredメモリの利用を推奨します。
WBEMベースでやってる人には便利かも (スコア:1)
ちょっと使ってみます。
WBEMベースであれこれやってる人には特に便利かもしれませんね。
屍体メモ [windy.cx]
Nagiosを使っていました (スコア:2, 参考になる)
必要に応じてプラグインを作っていました。今は常時監視しなきゃ
ならない部分を外に出しちゃっているので、使ってない…
屍体メモ [windy.cx]
Re: (スコア:0)
Nagios+MRTGで構成して、それぞれお手製のプラグインで拡張していました。
今はどちらも使わず、商用の監視ソフトを使ってますが、
障害時の挙動でこれらが組み込まれていたりするのを感じると、懐かしいなと思います。
Nagiosの設定は自由度が高すぎて、複数人で管理していると、散らかりやすいので、
途中からインクルードの記載ルールを厳格にしまくったなぁ・・・。
Re: (スコア:0)
Cactiの方は監視対象の利用者数を、SNMPで拾えるようにしたりと、少々変わった使いかたでした。
Nagiosの設定は更新頻度が高かったので、m4のテンプレートで書くようにしてましたね。
大阪さんの場合 (スコア:2, おもしろおかしい)
Zenoss (スコア:2, 参考になる)
http://www.moongift.jp/2007/04/zenoss/ [moongift.jp]
派遣 (スコア:2, おもしろおかしい)
派遣なら、口頭で指示できるし圧力を加えると作業量が増えたり価格を下げることができる。
契約を工夫すれば問題の責任も押し付けられる。
あと、不要になった場合の処分も簡単。
(; ;)
SAG (スコア:2, 参考になる)
gnuplotとnetpbmくらいあれば動作するので お手軽に使えます。 あと、(gnuplotを使ってるので)グラフのカスタマイズが 色々できるのも吉。
Webインターフェ-ス限定なら (スコア:2, おもしろおかしい)
定番 (スコア:2, 参考になる)
基本的にグラフ化するソフトは監視と報告はしてくれず、監視はグラフ化してくれないので、
監視+グラフ or 統合でいくものと思います。
一覧 - http://en.wikipedia.org/wiki/Network_monitoring_comparison [wikipedia.org]
monitが載ってないけど、サービス監視として結構おいしい。
これで、nagiosのごちゃごちゃとおさらば。(大規模だとNagiosがいいらしいけど、汚さから使う気になれない。)
簡単にいきたい人は、やっぱり、
- munin (ちょっとがんばるならcacti。munin/nagios exchangeみたく、cacti exchangeみたいの無いんですかね・・・
debianhelp.co.uk [debianhelp.co.uk]とこしか一覧が無いような。)
- monit
- syslog-ng(集約ログ)+ php-syslog-ng
または、zabbixですかね。
Zabbix (スコア:1)
http://www.zabbix.com/
What'sUp -> PHPで自作 -> nagios -> cacti -> zabbix
ただ、モバイルだと見るのがちと辛い。
netbook買おうかなぁ。
Re:Zabbix (スコア:3, 参考になる)
某顧客のシステムに導入して現在も稼働中です。対応システムも多いですし、機能も揃ってますので
十分実用になりますね。
ただちょっとGUIが独特なのと、バックエンドがRDBMSな分管理は容易だけど、規模が大きくなると
重くなりがちかな、という感じはあります。
#RDBMSのこまめなチューニングで改善されるのでしょうが。
>http://www.zabbix.com/
アンオフィシャルですが日本語サイトは
http://www.zabbix.jp/ [zabbix.jp]
SoftwareDesignの11月号がZabbixの特集でしたので、今度新しくリニューアル(現在稼働中のシステムはNagios)
する自社の監視システムではもう一度Zabbixにしようかな、と……。
意外に (スコア:1, 興味深い)
私は相変わらず使ってます。50台ぐらいまとめて監視してます。
もっとも、グラフはほとんど見ません。
平時の挙動を保存しておくのと、そこから外れたら
コマンドを投げらればOKなので。
Re:意外に (スコア:1)
3台サーバがあって、2台に仕込んでます。
1台はメインに使うLinux環境なので監視の必要ないし。
CGIやMySQL不要なやつ (スコア:1)
監視システムを利用するのが自分らであれば、DBMS使うようなアプリでも良いんですが、
お客に納めっきりで「ルータのsnmpさえ取れればいいよ」ぐらいのシステムだと
CGIやMySQLが不要なシンプルなやつになりますね。
いや、納入数年後に「ねぇ、MySQLのadmin pass何だっけ?」みたいな質問をされても、こっちも覚えてないですから。。
BigSister (スコア:1)
ライブドアデータホテルパトロール (スコア:0)
使った経験がある方がいらっしゃいましたら、教えて下さい。
また、これを使うと営業電話などが掛かってくるかどうかも、教えていただけると幸いです。
Re: (スコア:0)
月1ペースで障害やメンテの停止があるような監視サービスではとても使い物にはなりません。
むしろ弊害のほうが大きくなってしまいます。
ポートやPINGでの障害検知というのは、監視側が監視対象より稼働率が高いことが大前提であるわけで
いくら高いコストをかけてサーバーを安定させ、回線の品質保証を確保して稼働率を年間99.9%以上に保ったとしても、監視する側の稼働率が98.0%では監視する意味がまったくないわけです。
監視サービスは目新しさやサービスの多様性ではなく「安定性と信頼」に尽きます。
無料の監視サービスでも、数年に渡って実績を積んだ極めて安定したサービスを提供してくれているところはありますよ。
Re:ライブドアデータホテルパトロール (スコア:1)
MRTG のような統計収集なら多少の欠損も問題ないけど
死活監視やログ監視で稼働率 99% では有料サービス
としては使えないですね。9が2つ以上足りません。
監視対象が1000ノードあれば各ノードの稼働率が99.99%(≠故障率 0.01%)でも
全部あわせた稼働率は約90%、1台のMTTRが2.5時間なら毎日1台はダウンします。
監視側が稼働率98%では1年のうち1週間落ちていることになるから
7ノードは検知に失敗ですね。
残りの993 ノードに関しては、監視システムダウン中に
何か起こらなかったかを確認せねばならないので、大変な手間です。
死活監視だけではなくログ監視等も行う場合は、通常もっと故障発生頻度が
高くなるので、監視ノード稼働率98%という数値はありえないですね。
[Q][W][E][R][T][Y]
Re:ライブドアデータホテルパトロール (スコア:1, すばらしい洞察)
仮に年5000円で稼働率98%
年5万円で稼働率99%
年50万円で稼働率99.99%
だとして、会社概要のパンフとして使うなら、
どう考えても価格効果比的に年5000円が最善でしょ。
安価なサービスをバカにするのが好きな人って多いよね。
アイボールセンサー (スコア:0)
Awstats (スコア:0)
ってお呼びでない?
1日当たりの転送料くらいしかチェックしてませんが。
あ、どんなキーワードでぐぐってきたのかとか
どんなOS使ってるかを見るのは楽しいです。
(BSDさんとかPSPさんがチラホラ居たりとか…)
Re:Awstats (スコア:1)
*bb*はスルー? (スコア:0)
Re: (スコア:0)
いいんでないかい?負荷や統計値見るんならmuninは便利だ。
hobbitって人気ないのね (スコア:0)
なんだかんだいって、商用製品を使ってるところが多いでしょ。 (スコア:0)
管理ソフトだけど監視にも使えるし (スコア:0)
日本で開発されているのが何よりありがたい・・・英語が苦手すぎな人には英語圏で開発されているソフトは細かい情報を得ようとするときついのです。
Re:管理ソフトだけど監視にも使えるし (スコア:2)
とか言う割に、情報が少ないのもまたHinemosなのだ…
結局開発元がどーとかより「日本人のユーザーがいかに多いか」
「マニュアルがほぼ不要なレベルに簡潔な(わかりやすい)ソフトか」
が重要かというのを思い知らせてくれたいい例だった。
Hinemos,Nagios,Cactiの3つを使ってみて、一番面倒に感じてかつ
負荷が高いので早々に候補から外れました。
sysstat (スコア:0)
# そもそも監視用のデーモンがリソース喰い過ぎとかって問題もあったり・・