パスワードを忘れた? アカウント作成
12586 story
ハードウェア

ECCメモリは有効ですか? 112

ストーリー by mhatta
保険みたいなものか 部門より

Another_View曰く、"MicrosoftがWindows VistaにはECCメモリを推奨する今日この頃。メモリの大容量化はとどまるところを知りません。メモリが大容量になればなるほど、ECCの有効性は高まります。
しかしECCは縁の下の力持ち。ECCが実際に機能するところは見た目にはわかりません(ECCが機能すればなにごともなく動作し、ECCがなければクラッシュしたりデータがおかしくなったりする)。かくいう私も1GBのECC付きRAMをのせたPCにWindows Server 2003をいれてソフトウェア開発に使用していますが、有効に機能しているのかどうなのかわかりません。マシンは大変に安定していますが、それは余計なハードウェアがないせいや、OSやアプリケーションが安定しているせいにも思えます。
そこで皆さんに聞きたいのですが、皆さんの環境ではECCってホントに有効ですか?"

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • 信じるものは救われる? (スコア:4, おもしろおかしい)

    by SNT (23129) on 2006年05月25日 13時08分 (#945901)
    ECC教
    ペンギン教
    悪魔教
    林檎教
    SCSI教
    RAID教
    自作教Intel派,AMD派
    オカルトオーディオ教

    さて、このなかで信じても救われないのはどれだろう。
  • by passer-by (13494) on 2006年05月25日 13時26分 (#945916) 日記
    ECC が働いた時って、ハードがそれを示すフラグを立てて OS がその情報を集めたりしていないものでしょうか?
    長らく使ってた Tru64 では、年に何回かそういう情報が syslog に見られたりしたもんですが……。
    • by Li on (9067) on 2006年05月25日 14時58分 (#946005) 日記
      対応しているCPU/ChipsetであればDRAM Controller上でエラー報告のビットが存在します。
      Intelであれば、875や925・955等でしょうか。
      Single Bit errorやMulti bit errorの区別、発生したアドレス、チャンネル等が分かります。
      (それらは先ほどのチップセットであればPCI Configuration空間上に存在します。詳しくは該当MCHのDatasheetを参照。)
      親コメント
  • by chacha_ichigo (10494) on 2006年05月25日 13時31分 (#945925)
    SparcStationやNEWSを大量に使ってた頃は、syslogにたびたびECCエラーが記録されてました。
    そのままほぉっておいたマシンはカーネルパニックで落ちることが多かったのでECCによるエラー検出・訂正は有効だと思います。

    #とわいえ今は身近にECC付きメモリ搭載のマシンが無いので落ちてからmemtest86走らすとかしか無いのですが;;
    • 組込みでも結構でてました.

      ただ,出荷時にはチューニングが完了&デバッグ用のメッセージをoffにしたので,見掛けることはなくなりましたが...

      # この時,最近の高精密機器では宇宙戦~H を気にしなきゃいけないのを初めて知りました.
      --
      M-FalconSky (暑いか寒い)
      親コメント
      • by lunatic_sparc (15416) on 2006年05月25日 14時32分 (#945980)
        > # この時,最近の高精密機器では宇宙船戦~H線 を気にしなきゃいけないのを初めて知りました.

        おうちにある骨董品の SPARCStation2 も数年に一度ぐらいソフトエラーで失神してたりします。

        最近のメモリは昔のと違ってメモリセルの電荷容量(?)が大きいため簡単にはソフトエラーは起きないらしいです。

        でも、主記憶の容量自体が大きくなってますから、そういう意味では発生確率は高くなって ECC の出番も増えるのかもしれませんね。

        #うちの SS2 は元気に使えてるし、メール読み書きのメインマシンだ!
        #でも、メモリはフル実装でも 64MB だ!
        #携帯に刺さってる miniSD にも負けてる。。。。orz
        親コメント
  • ECC付のSIMMしか使えないPC-9821Rv20をメインマシンにしていた頃,
    月刊ASCIIだかDOS/Vマガジンだかその手の雑誌で,
    「宇宙から来るγ線がメモリにあたってビットがひっくり返るのが,メモリ1GBのせていると1年に1回程度」
    という記述を目にしました.根拠になる数値や計算式などは全く載っていませんでしたが.

    この見積もりが正しいとすると,OSのハングアップよりパリティエラーの方が問題になってくる分岐点は,10GB程度かな?

    実験してみるとしたら,近くに密封線源でも置いて
    パリティエラーが出るまでの時間とメモリ容量との相間を見ればよいのかな?
    • ある大手プロバイダで日本全国の数百台のCISCOルータの管理の仕事をしている時の話です。
      それだけの台数だと定期的にMemoryエラーが出るのは普通なのですが、発生は周期的でしかも全国で同時期に一斉に発生するのです。
      不思議に思っていベンダーサポートに聞いてみると「太陽から発生している宇宙線の影響です!」と、自信いっぱいに回答がきました。
      まさかと思って調べてみると確かにエラーが発生する時期は太陽の活動が活発な時期と一致しているので、変に感心した覚えがあります。

      親コメント
    • 関連のありそうなソフトエラーのリンク集

      ソフトエラーが引き起こす [ednjapan.com]
      ECCメモリについて [hpc.co.jp]

      旧来は、不純物による放射線の影響と外来放射線の影響が
      あったようですが、不純物による放射線の影響を抑えることにより
      トータルのソフトエラーを抑えていたよう。

      なお、ソフトエラーは物理的な故障とは異なるため一定時間で、
      エラー無しの状態に戻る。
      親コメント
    • by Anonymous Coward on 2006年05月25日 18時42分 (#946147)
      東海村で臨界が起きてしまったとき、筑波界隈でもECCログにかなりヒットしたらしいですぜ。
      親コメント
      • by Anonymous Coward on 2006年05月25日 23時34分 (#946474)
        あの時ばらまいたのは中性子(いわゆるγ線)だけど、
        そんなものでメモリーエラーになるのか?

        通常問題になるα線はヘリウムの原子核で、通り道の
        近くの電子を引き剥がしてしまうからエラーになるのだが。

        ちなみに中性子は電荷をもっていないので、何でも
        (分厚い鉛でも)貫通してしまうよ。
        遮へいに一番有効なのは、ほとんど同じ重さの水素の
        原子核を大量に持つ水だとか。

        # 熱中性子だと地上(もちろん1気圧)でも1km以上飛ぶ
        # らしいが、東海村から筑波までは数十km。
        # もちろん、紙1枚で止まってしまうα線が東海村から
        # 到達する訳がない。
        親コメント
  • by Zepto (5428) on 2006年05月25日 15時11分 (#946015)
    最近の Athlon64 系マザーだと ASUS 製が ECC 対応であることが多いようで良く使っています。
    …で、Linux の ECC 検出モジュールである EDAC/bluesmoke [sourceforge.net]を使っています。
    Linux 2.6.16 では EDAC がカーネルに収録されました。(ただし少し古い版で K8 モジュールは未収録)

    ASUS A8V-Deluxe (K8T800) ではちゃんと検出できてます。
    1GB * 4 を載せているうち 1 枚だけが Correctable Error を 3bit/day ぐらい出してます。
    ECC の効きが分かり、ちゃんとメモリが修正されてビット化けが無いことは分かるのですが、
    こうも頻々と CE が出るのは複雑な気分です。

    # ASUS A8V-E SE (K8T890) では ECC が memtest86+ や EDAC/bluesmoke で検出できない現象に悩み中。
    # う〜ん。
  • by saitoh (10803) on 2006年05月25日 15時29分 (#946033)
    メモリのエラーで落ちてもWindowsのせいだとみんな思うので、「ECCがあったらなぁ」とは誰も思ってないのではないでしょうか。
  • 今後の展開 (スコア:3, おもしろおかしい)

    by nminoru (5013) <nminoruNO@SPAMnminoru.jp> on 2006年05月25日 21時16分 (#946297) ホームページ
    「ECC では足らなかった。次の Windows *** ではメモリを二重化してメモリミラーリングを推奨する。」

    「CPU にも問題がある。次の Windows *** では2個の CPU を LockStep 動作させて CPU ミラーリングを推奨する。」

    「2 個 CPU じゃ足らない。次の Windows *** では 3個で三重多数決冗長を推奨する。」

    クアッドコアOpteron [impress.co.jp] はメモリミラーリング機能が入るようなので洒落にならん。
    --
    コンタミは発見の母
  • 有効かどうか (スコア:2, おもしろおかしい)

    by Anonymous Coward on 2006年05月25日 13時22分 (#945911)
    >MicrosoftがWindows VistaにはECCメモリを推奨する

    >メモリが大容量になればなるほど、ECCの有効性は高まります。

    >ECCが実際に機能するところは見た目にはわかりません

    >有効に機能しているのかどうなのかわかりません。

    >ECCってホントに有効ですか?

    選べる楽しみ広げます [www.ecc.jp] だそうです。

  • by Anonymous Coward on 2006年05月25日 13時28分 (#945921)
    ECCについて興味深い資料がむかしありました
    知りたいひとは、ぜひ探してください。
    Non-ECCとECCの効果を示した情報でした

    デスクトップにはあまり気にしなくてもいい連続起動時間
    1週間からSDRAM特有の情報変化が起こることがあり
    一ヶ月たつと非常に変化がおこりやすく
    システムがダウンする確立がたかくなるとかないとか・・・・

    ってかむかしNON-ECCのシステムで3年間動いたままの
    経験もあるので なんとも・・・

    エエェとりあえず終日稼動のPCにはECC乗っけています<ってか昔全部のPCにECCつきメモリー乗っけていたけど
    パリティー用のメモリーがおかしいものがあり よくこけていました(w
  • 440BXのころは (スコア:2, 参考になる)

    by Kazsa (25846) on 2006年05月25日 14時42分 (#945992) 日記
    昔440BXのデータシートを見ていたころは、ECCでエラー訂正が入るとセットされるフラグがノースブリッジにあって、ソフトからモニターできるようでした。
    最近のチップセットでどの程度ECC対応してるかは知らないんですけど。
  • by tmiura (6268) on 2006年05月25日 15時54分 (#946052) 日記

    ちゃんとOSなりで拾ってログに吐いて人間に気づかせるのはもちろんだが、 スクラビング(定期的にメモリ全域をなめる)して 発生した誤りをきっちり検出・訂正しないと、 長期間アクセスのない領域に誤りが蓄積する。

    OSによっては、ECCの訂正能力を超える2bit誤りでも、 運よく誤りの起きたページがswapにコピーがあったり read onlyなプログラムのテキストセグメントだったり した場合にはディスクから読んできて上書き、 それでも誤りが再現したらそのページを使わないようにして別のページを代わりに割り当てる、 とかいった逃げがあり得るかもしれない。

    Windows VistaがECC推奨というのは どこまで面倒見てくれるんだろうか?

    • by stssk (27523) on 2006年05月25日 21時11分 (#946292) ホームページ 日記
      我が社で長期連続運用している某システム(汎用コンピュータではない)がこの前突然落ちました。メモリダンプを解析した結果ECCの訂正能力を超えた2ビット誤りにより異常動作になっていました。ECCはメモリの読込みだけで書込みをしないと訂正が行われない様です。スワップしない常駐プログラムでECC誤りが発生した場合に、OSで回復処理を可能とするのは、なかなか困難かもしれません。
      親コメント
  • memtest86 (スコア:1, 参考になる)

    by Anonymous Coward on 2006年05月25日 13時15分 (#945906)
    職場でPCが納品されたら、一応走らせてます。
    • Re:memtest86 (スコア:2, おもしろおかしい)

      by Anonymous Coward on 2006年05月25日 15時37分 (#946040)
      「一応走らせてます」が「一年走らせてます」に見え、
      一年ROMってろという言葉が連想された。

      #疲れてますね。一年休んでなさい
      親コメント
  • > ECCが実際に機能するところは見た目にはわかりません
    ちょっとしたメモリエラーの場合はデータを修復できるけど、修復不能なほど派手に逝かれた場合でも、故障を検出できるんじゃありませんでしたっけ?

    ECCはいらないけどRegisteredメモリは欲しいのでID。
    • by RX-178 (2626) on 2006年05月25日 14時18分 (#945969)
      Windows2000Server上で昨日の夕方こんなのが出ました
      --------------------------
      システム情報エージェント: ヘルス: 修復可能な メモリエラーが検出されました。
      このエラーは修正されましたが、 このメモリモジュールは交換する必要があります。
      ボードまたは、カートリッジ: '0' モジュール: '4' スペア パーツ番号: ''
      モジュール サイズ: '262144' システム id: 'XXXXXXX`'
      --------------------------
      これってECCで修復されたと言うこと?
      親コメント
typodupeerror

人生の大半の問題はスルー力で解決する -- スルー力研究専門家

読み込み中...