ECCメモリは有効ですか? 112
ストーリー by mhatta
保険みたいなものか 部門より
保険みたいなものか 部門より
Another_View曰く、"MicrosoftがWindows VistaにはECCメモリを推奨する今日この頃。メモリの大容量化はとどまるところを知りません。メモリが大容量になればなるほど、ECCの有効性は高まります。
しかしECCは縁の下の力持ち。ECCが実際に機能するところは見た目にはわかりません(ECCが機能すればなにごともなく動作し、ECCがなければクラッシュしたりデータがおかしくなったりする)。かくいう私も1GBのECC付きRAMをのせたPCにWindows Server 2003をいれてソフトウェア開発に使用していますが、有効に機能しているのかどうなのかわかりません。マシンは大変に安定していますが、それは余計なハードウェアがないせいや、OSやアプリケーションが安定しているせいにも思えます。
そこで皆さんに聞きたいのですが、皆さんの環境ではECCってホントに有効ですか?"
信じるものは救われる? (スコア:4, おもしろおかしい)
ペンギン教
悪魔教
林檎教
SCSI教
RAID教
自作教Intel派,AMD派
オカルトオーディオ教
さて、このなかで信じても救われないのはどれだろう。
Re:信じるものは救われる? (スコア:4, すばらしい洞察)
疑うから、バカを見た事に気が付くんです。
------------
惑星ケイロンまであと何マイル?
Re:信じるものは救われる? (スコア:3, おもしろおかしい)
みんなすくわれますよ!
足元を。
Re:信じるものは救われる? (スコア:2, 興味深い)
http://uyota.asablo.jp/blog/cat/vos/ [asablo.jp]で最近、つらつらと書いています。
CPU の計算結果すら盲目的には信じたりはしません。
http://www.stratus.co.jp/ [stratus.co.jp]が日本支社。
Re:信じるものは救われる? (スコア:2, すばらしい洞察)
UPSを設置して以来,一度も動作したことがありません。壊れているのでしょうか?
Re:信じるものは救われる? (スコア:2, 参考になる)
ちゃんと鳴いてくれれば壊れていませんので安心しましょう。
ただし、1度も使ったことが無い新品同然の電池でも交換しましょう。
そうしないとUPS以外のところが本当に壊れます。
故障が疑われるときは (スコア:2, おもしろおかしい)
#下らないけどID
Re:信じるものは救われる? (スコア:1, おもしろおかしい)
一度、UPSを外して運用してみて下さい。
たぶんUPSの有難味を実感できると思います。
from マーフィー (w
Re:信じるものは救われる? (スコア:2, 興味深い)
コンセントが空いてる!ってUPSに掃除機をつないでくれるかもしれませんよ。
#それでUPS落ちた経験が…(涙)
え〜ぞう
#北斗神拳使いのroot三連星
Re:信じるものは救われる? (スコア:1)
信じるものは馬鹿をみる! (スコア:1, すばらしい洞察)
Re:信じるものは救われる? (スコア:1)
orz
それはさておき、実際ECCでエラー訂正が発生しているPCって
メモリorバス周りに問題ある気がしません?
Re:信じるものは救われる? (スコア:2, おもしろおかしい)
orz
Re:信じるものは救われる? (スコア:1)
# GPU派とかオーバークロック派とか(ぇ
# 微妙に字が違うような気がするけど気にしない。
Re:信じるものは救われる? (スコア:1)
#…言われるまでもなく、この世は病んでやがるんだ。しかし、そんな世が愛しいのさ。
Re:信じるものは救われる? (スコア:3, 興味深い)
SONY教も末期かも。
で、件のECC(RAID1/5やUPSあたりもかな)ですが、
あくまで気休め、他の対策を十分とった上での保険程度かと。
というよりECCやRAID、UPS自体が"対策"の一環な訳ですし
#RAID組んでてもアホが使えば意味無いですよ
#状況はいつも最悪、でもそれが当たり前
Re:信じるものは救われる? (スコア:5, 参考になる)
「一日に三回以上あがったらメモリー交換を強くお勧めするする」とか、発生箇所が同じだったら「壊れているんで交換させてくれ」とか、ハードウェアサポートベンダさんが、言ってきましたね。
# 交換させてくれ=可用性判定履歴に載るのがいや..らしい。
>ECCが実際に有意に有効だ、という検証が欲しいですねぇ。
ログを常時チェックする程度で、有意性は判断できると思います。
ECCのコレクタブルエラー発生時にデスクトップに表示するといった手段が、あまりデスクトップ側にないってのがありますね。後になってわかったりするし...
Re:信じるものは救われる? (スコア:2, 参考になる)
HALをベンダー独自のものに置き換えたりする奴もあるので一長一短みたいですけど。サーバだしてるベンダーはたいていそういうのあるんじゃないのかなぁ。少なくともそういう奴を一社は知ってま
す。
Windows単体はわかりません。
#ちょっとばかし中の人なのでAC
OS は監視・報告しないのかしら (スコア:4, 参考になる)
長らく使ってた Tru64 では、年に何回かそういう情報が syslog に見られたりしたもんですが……。
Re:OS は監視・報告しないのかしら (スコア:4, 参考になる)
Intelであれば、875や925・955等でしょうか。
Single Bit errorやMulti bit errorの区別、発生したアドレス、チャンネル等が分かります。
(それらは先ほどのチップセットであればPCI Configuration空間上に存在します。詳しくは該当MCHのDatasheetを参照。)
ワークステーションだと (スコア:4, 参考になる)
そのままほぉっておいたマシンはカーネルパニックで落ちることが多かったのでECCによるエラー検出・訂正は有効だと思います。
#とわいえ今は身近にECC付きメモリ搭載のマシンが無いので落ちてからmemtest86走らすとかしか無いのですが;;
Re:ワークステーションだと (スコア:2, 参考になる)
ただ,出荷時にはチューニングが完了&デバッグ用のメッセージをoffにしたので,見掛けることはなくなりましたが...
# この時,最近の高精密機器では宇宙
船戦~H線 を気にしなきゃいけないのを初めて知りました.M-FalconSky (暑いか寒い)
Re:ワークステーションだと (スコア:2, 興味深い)
おうちにある骨董品の SPARCStation2 も数年に一度ぐらいソフトエラーで失神してたりします。
最近のメモリは昔のと違ってメモリセルの電荷容量(?)が大きいため簡単にはソフトエラーは起きないらしいです。
でも、主記憶の容量自体が大きくなってますから、そういう意味では発生確率は高くなって ECC の出番も増えるのかもしれませんね。
#うちの SS2 は元気に使えてるし、メール読み書きのメインマシンだ!
#でも、メモリはフル実装でも 64MB だ!
#携帯に刺さってる miniSD にも負けてる。。。。orz
大昔のことなので,記憶があやふやですが・・・ (スコア:4, 興味深い)
月刊ASCIIだかDOS/Vマガジンだかその手の雑誌で,
「宇宙から来るγ線がメモリにあたってビットがひっくり返るのが,メモリ1GBのせていると1年に1回程度」
という記述を目にしました.根拠になる数値や計算式などは全く載っていませんでしたが.
この見積もりが正しいとすると,OSのハングアップよりパリティエラーの方が問題になってくる分岐点は,10GB程度かな?
実験してみるとしたら,近くに密封線源でも置いて
パリティエラーが出るまでの時間とメモリ容量との相間を見ればよいのかな?
Re:大昔のことなので,記憶があやふやですが・・・ (スコア:5, 興味深い)
それだけの台数だと定期的にMemoryエラーが出るのは普通なのですが、発生は周期的でしかも全国で同時期に一斉に発生するのです。
不思議に思っていベンダーサポートに聞いてみると「太陽から発生している宇宙線の影響です!」と、自信いっぱいに回答がきました。
まさかと思って調べてみると確かにエラーが発生する時期は太陽の活動が活発な時期と一致しているので、変に感心した覚えがあります。
Re:大昔のことなので,記憶があやふやですが・・・ (スコア:2, 参考になる)
ソフトエラーが引き起こす [ednjapan.com]
ECCメモリについて [hpc.co.jp]
旧来は、不純物による放射線の影響と外来放射線の影響が
あったようですが、不純物による放射線の影響を抑えることにより
トータルのソフトエラーを抑えていたよう。
なお、ソフトエラーは物理的な故障とは異なるため一定時間で、
エラー無しの状態に戻る。
Re:大昔のことなので,記憶があやふやですが・・・ (スコア:2, 参考になる)
ほっといても戻りません。
「上書きすれば直る」というのがソフトエラー。
Re:大昔のことなので,記憶があやふやですが・・・ (スコア:2, 興味深い)
Re:大昔のことなので,記憶があやふやですが・・・ (スコア:2, 参考になる)
そんなものでメモリーエラーになるのか?
通常問題になるα線はヘリウムの原子核で、通り道の
近くの電子を引き剥がしてしまうからエラーになるのだが。
ちなみに中性子は電荷をもっていないので、何でも
(分厚い鉛でも)貫通してしまうよ。
遮へいに一番有効なのは、ほとんど同じ重さの水素の
原子核を大量に持つ水だとか。
# 熱中性子だと地上(もちろん1気圧)でも1km以上飛ぶ
# らしいが、東海村から筑波までは数十km。
# もちろん、紙1枚で止まってしまうα線が東海村から
# 到達する訳がない。
EDAC/Bluesmoke で確認してます (スコア:4, 参考になる)
…で、Linux の ECC 検出モジュールである EDAC/bluesmoke [sourceforge.net]を使っています。
Linux 2.6.16 では EDAC がカーネルに収録されました。(ただし少し古い版で K8 モジュールは未収録)
ASUS A8V-Deluxe (K8T800) ではちゃんと検出できてます。
1GB * 4 を載せているうち 1 枚だけが Correctable Error を 3bit/day ぐらい出してます。
ECC の効きが分かり、ちゃんとメモリが修正されてビット化けが無いことは分かるのですが、
こうも頻々と CE が出るのは複雑な気分です。
# ASUS A8V-E SE (K8T890) では ECC が memtest86+ や EDAC/bluesmoke で検出できない現象に悩み中。
# う〜ん。
Re:EDAC/Bluesmoke で確認してます (スコア:3, 興味深い)
…でしょうね。挿し位置を変えても、「その一枚」が CE を出し続けるので。
しかし、一度も UE (Uncorrectable Error) を出してないので使い続けてます。
# ある方にその話をしたら、「それは ECC のチェック用に使えるから欲しい」と言われました。
# なるほどそういう使い方もあるのか。(^^;
メモリエラーで落ちても (スコア:3, すばらしい洞察)
Re:メモリエラーで落ちても (スコア:3, 参考になる)
データ化けとかデータ破損が起きる事も・・・
知人のPCが再起動するとレジストリが破損するという謎現象の原因がメモリエラーだった時は脱力しましたorz
# Memtestの長時間コースじゃないと検出できなかった上に、特定のビットパターンの時のみで発生という微妙な壊れ方だった・・・
Re:メモリエラーで落ちても (スコア:2, 興味深い)
ECCメモリさえつければVistaの信頼性はUNIX並 [itmedia.co.jp]と主張する専門家もいます。
今後の展開 (スコア:3, おもしろおかしい)
↓
「CPU にも問題がある。次の Windows *** では2個の CPU を LockStep 動作させて CPU ミラーリングを推奨する。」
↓
「2 個 CPU じゃ足らない。次の Windows *** では 3個で三重多数決冗長を推奨する。」
# クアッドコアOpteron [impress.co.jp] はメモリミラーリング機能が入るようなので洒落にならん。
コンタミは発見の母
有効かどうか (スコア:2, おもしろおかしい)
>メモリが大容量になればなるほど、ECCの有効性は高まります。
>ECCが実際に機能するところは見た目にはわかりません
>有効に機能しているのかどうなのかわかりません。
>ECCってホントに有効ですか?
選べる楽しみ広げます [www.ecc.jp] だそうです。
本家IBMのサイトいってくれ (スコア:2, 興味深い)
知りたいひとは、ぜひ探してください。
Non-ECCとECCの効果を示した情報でした
デスクトップにはあまり気にしなくてもいい連続起動時間
1週間からSDRAM特有の情報変化が起こることがあり
一ヶ月たつと非常に変化がおこりやすく
システムがダウンする確立がたかくなるとかないとか・・・・
ってかむかしNON-ECCのシステムで3年間動いたままの
経験もあるので なんとも・・・
エエェとりあえず終日稼動のPCにはECC乗っけています<ってか昔全部のPCにECCつきメモリー乗っけていたけど
パリティー用のメモリーがおかしいものがあり よくこけていました(w
Re:本家IBMのサイトいってくれ (スコア:1, おもしろおかしい)
Re:本家IBMのサイトいってくれ (スコア:1)
実際に企業内なんかでは往々にしてある。
それも、単に
「誰も電源を切る人間が居ない。」
ってだけで。
#意図してって事であれば同意。
440BXのころは (スコア:2, 参考になる)
最近のチップセットでどの程度ECC対応してるかは知らないんですけど。
ECCを有効に使うには (スコア:2, 興味深い)
ちゃんとOSなりで拾ってログに吐いて人間に気づかせるのはもちろんだが、 スクラビング(定期的にメモリ全域をなめる)して 発生した誤りをきっちり検出・訂正しないと、 長期間アクセスのない領域に誤りが蓄積する。
OSによっては、ECCの訂正能力を超える2bit誤りでも、 運よく誤りの起きたページがswapにコピーがあったり read onlyなプログラムのテキストセグメントだったり した場合にはディスクから読んできて上書き、 それでも誤りが再現したらそのページを使わないようにして別のページを代わりに割り当てる、 とかいった逃げがあり得るかもしれない。
Windows VistaがECC推奨というのは どこまで面倒見てくれるんだろうか?
Re:ECCを有効に使うには (スコア:2, 参考になる)
Re:ECCを有効に使うには (スコア:2, 参考になる)
ECCでは1bitは訂正可能エラーで(場合によって自動で)補正されます.
2bitは検出可能な訂正不可能エラーなので,エラーが有ることは確実です.
それに大概のswapは2次記憶(HDDとか)にあるので,メモリよりは信頼性が高いと思います.
# なので余程のことがなければswapのを書き戻しでOKだと思います.
## 今現在メモリ上で動作している領域がswap領域にのこっている場合もあんまりなさそうだけど
M-FalconSky (暑いか寒い)
memtest86 (スコア:1, 参考になる)
Re:memtest86 (スコア:2, おもしろおかしい)
一年ROMってろという言葉が連想された。
#疲れてますね。一年休んでなさい
ECCってそういうものでしたっけ? (スコア:1)
ちょっとしたメモリエラーの場合はデータを修復できるけど、修復不能なほど派手に逝かれた場合でも、故障を検出できるんじゃありませんでしたっけ?
ECCはいらないけどRegisteredメモリは欲しいのでID。
Re:ECCってそういうものでしたっけ? (スコア:4, 興味深い)
--------------------------
システム情報エージェント: ヘルス: 修復可能な メモリエラーが検出されました。
このエラーは修正されましたが、 このメモリモジュールは交換する必要があります。
ボードまたは、カートリッジ: '0' モジュール: '4' スペア パーツ番号: ''
モジュール サイズ: '262144' システム id: 'XXXXXXX`'
--------------------------
これってECCで修復されたと言うこと?
Re:ECCってそういうものでしたっけ? (スコア:2, 参考になる)
ProLiantっぽいメッセージですが、
うちならすぐ保守呼んで交換させます。
Re:比較対象(おふとぴ) (スコア:1)
ヒースキット山口 heath yamaguchi
Re:教えて皆様!! (スコア:2, おもしろおかしい)
#遅い…orz
#状況はいつも最悪、でもそれが当たり前