スラドに聞け:ペタバイト級のデータの移行ってどうやるの? 77
ストーリー by hylom
1PB=1000TB 部門より
1PB=1000TB 部門より
route127 曰く、
ノーベル賞受賞研究で最近も話題となったスーパーカミオカンデだが、16日付官報でその計算機システム一式が「スーパー神岡実験用電子計算機システム一式」名目で資料招請されていた。気になるのは以下の文言。
D 大量の観測データの長期保存が可能かつ、連続稼働が可能な高い信頼性を持つ10PB程度の大容量のファイルシステムを持つこと。
(中略)
I 現システム上で開発されたユーザーソフトウェア資産及び現システム上に保管されているデータの移行が可能なこと。移行すべきデータは、ディスク上に3PB程度、テープ上には1PB弱となっており、このデータ移行作業も稼働前に完了する必要がある。これだけのデータ量を扱えるファイルシステムとその移行作業というものに想像がつかない。ペタバイトといわずとも大量のデータを扱った経験談があれば聞いてみたい。
いい時代だ。官報が家にいながら無料で閲覧できるとは。 (スコア:4, 興味深い)
かつて個人的趣味で1年間有料購読したことがあったが。
とはいえページ毎にブツ切りとかいろいろ不満は残る。
Hadoopなら可能でしょ (スコア:3, 興味深い)
4TBのHDDを12個搭載したサーバを1000台ぐらい用意してHadoopシステムを構成すれば、HDD容量は合計48PBです。hadoopのデータを3重の冗長化構成とすれば16PBぐらいの容量になります。サーバ1台を100万円で購入できれば空調やラックやスイッチなど周辺装置も含めて20億円ぐらい。
サーバ1台30kgとして100平方メートルに分散すれば1平方メートルあたりの荷重は0.3トン、周辺装置も含めて0.5トン以下に収まります。
1サーバが500Wだとトータルで500KW、電気代は月500万円を超えそうです。
40台のサーバをL2スイッチでまとめて40Gbpsのイーサーネットでつなぐと1000台で合計1Tbpsです。普通のストレージやテープでこの速度のコピーは無理と思いますが、Hadoop間コピーだとサーバ間の分散コピーになるので1Tbpsのコピーができます。4PBのコピーは1日あれば可能です。
Re:Hadoopなら可能でしょ (スコア:1)
関連ニュース:アマゾンの雪玉 (スコア:1)
最近AWSでそんなニュース聞いたなあ。
AWS Import/Export Snowball。これかな?
「【AWS発表】AWS Import/Export Snowball ? Amazon所有のストレージアプライアンスを利用して1週間あたり1ペタバイトのデータ転送を実現」
http://aws.typepad.com/aws_japan/2015/10/aws-importexport-snowball-pet... [typepad.com]
https://aws.amazon.com/jp/importexport/ [amazon.com]
http://www.publickey1.jp/blog/15/amazon_snowball_aws_reinvent_2015.html [publickey1.jp]
専用の防水、耐タンパー性(例:データを吸い出すために分解などすると自己破壊する機能)や暗号化機能の付いた、専用HDDユニットで運んでくれるサービスらしい。
こういうサービスが必要とされるくらいには、大変な作業なんだろう。
ぐぐってたら、こんなのもひっかかった。
cloudpack 「データ転送量が必要な場合のみの従量課金サービス」
http://cloudpack.jp/service/option/data-transfer.html [cloudpack.jp]
こっちは100GBオーダーだから、全く足りなさそう。
#注:自分はAmazonの手のものではありません。
Re: (スコア:0)
大容量データを遠隔地に移す場合、通信回線を使うよりもHDDを持って飛行機で運んだほうが圧倒的に速いことがありますね。
メガバンクの統合の時、テープに入った大容量データを大勢の行員たちが手分けして鍵付きのカバンに入れて新幹線で運んでましたね。
腕とカバンも手錠でつないでいたようないなかったような。
Re:関連ニュース:アマゾンの雪玉 (スコア:4, 興味深い)
> 大容量データを遠隔地に移す場合、
> 通信回線を使うよりもHDDを持って飛行機で運んだほうが圧倒的に速いことがありますね。
1TBを東京から大阪まで運んだことあります。
カバンに鍵をかけ手と手錠でつながされました。
※親指落とせば手錠はずれるって脅されました。
Re: (スコア:0)
1980年代ですが、MTを抱えて太平洋を何往復もしました。せいぜい300MBのディスクがいっぱいになる程度のデータでした。今はいい時代になったものだ。
Re:関連ニュース:アマゾンの雪玉 (スコア:1)
HDD抱えて事業所間連絡バスに乗ったのもいい思い出...
昔のことで、容量は記憶にないが、ケースに入れて抱えて(鞄に入らないので)移動しましたですよ...
Re: (スコア:0)
指紋認証を突破するのに指を切り落とすくらいやるんだし、本気で盗む奴なら腕くらい切りますよね。
Raidで使ってるHDDなら1人1台づつ別々のルートで運ばせれば輸送人員の安全は多少は保たれるかもしれないけど。
Re: (スコア:0)
警備輸送は使わないのか?
Re:関連ニュース:アマゾンの雪玉 (スコア:1)
デコイとしてダミーを輸送させたんじゃね?
Re:関連ニュース:アマゾンの雪玉 (スコア:3, おもしろおかしい)
そして本物のデータは頭取が娘さんに買い与えたスマフォの中に仕込まれてて、完全に隠蔽して運べるはずが、何故かバレてて娘さん共々誘拐、暗号化されたデータのパスワードを教えなければ、娘の命は無いとか言われるんですね。
そして主人公はここまでやっても犯人グループにバレたのは内通者がいたに違いないとかいって平行して犯人捜しをし、内部犯を特定したところで実は銀行の頭取が不正をやっている証拠がその中に含まれていて、内部犯はそれを告発するためにやったんだみたいな事になった直後、内通者は謎のスナイパーに射殺されるんです。
んで、犯人を追い詰めて港の古倉庫まで追い詰めたところで、銃撃戦とお涙ちょうだいの説得合戦が繰り広げられ、最後娘さんはそもそも誘拐されていたわけで、ほぼ面識が無いはずの主人公に何故か恋愛感情をもって抱きついてスマフォを渡して、主人公の手によって銀行の不正は世に出て世の中は平和になるってもんです。
そして、巨悪に立ち向かうサイバー犯罪うんぬんみたいな煽り文句で映画になってて、ネット民から「いや、普通に警備運送頼めよ」「サイバー犯罪(物理)」とか煽られる所まで幻視しました。
いや、真面目にオペレートする本人は中身の具体的データは知らされず、さらにはこれが本物か偽物かも知らされないというのはある事ですけども。
Re: (スコア:0)
媒体がコワレモノだから請け負ってもらえなかったのかもしれませんね。
頑丈な通箱作ってもそれ以降使い道が多分に無いですし。
Re:関連ニュース:アマゾンの雪玉 (スコア:2)
HIRATA Yasuyuki
Re:関連ニュース:アマゾンの雪玉 (スコア:2)
専門会社じゃなくても普通に運送会社でやってくれますよ。
もちろん、別途契約になりますが、データセンターのデータの退避のため、週次でテープをトランク詰めして隣県の施設に送ってました。
帰り便で先週分のテープを持って帰ってもらい、再バックアップするという運用で。
Re: (スコア:0)
警備輸送は美術品なども手がけるんで、壊れ物だから無理って事は無いのでは?
エアサス車でサーバーなんかも警備輸送請け負ってくれますよ。えらい金とられるけど。
なんで、時間合わせてチャーターしてあったのに不足の自体が発生して使えなくなり、どうにもならなくて社員に持たせたに一票。
Re: (スコア:0)
Snowball の移送先の Amazon S3 は 0.000000001%のオブジェクト平均年間予測喪失率 [amazon.com] らしいので,データ量でざっくり計算すると年間 10kB が失われる可能性があるのか。容量がでかいと絶対的な喪失量も大きいな。
ペタバイトって何? (スコア:1, おもしろおかしい)
炉利画像?
Re: (スコア:0)
業務用の動画編集システムとかだと、ストレージなんて本当にいくらあっても足りないですよ。特に放送がデジタル化した今となっては尚更の事。
#同様にネットワーク速度も。
1000ペタバイト (スコア:1)
昔、エクサバイトって会社でテープドライブ出してるところがあったよね。
と思ってググったらあった。 [ascii.jp]
1999年10月の記事で容量は最大150GB。看板に偽りあり。
Re:1000ペタバイト (スコア:3, 興味深い)
Exabyteは買収されてタンベルグデータになってます。 [tandbergdata.com]
スパコンのストレージ (スコア:0)
大量のデータを吐き出すスパコンには大容量のストレージ(と可視化システム)が不可欠のはずだが、ペタバイト・クラスものものあるんではないの? そして、それらのデータ移行は?
Re: (スコア:0)
1PBクラスのテープライブラリなら、動作試験で組み立てたことがあるよ。納品後の試験もやったけれど、ひたすら三交代で機械の番人でしんどかった。
全テープ装填テストから始まって、排出テストまでやるのだから、たまらないよ。
Re: (スコア:0)
テープって何巻くらいあったの?
ガッチャガッチャ差し込んだり、順番にガッシャンガッシャン沢山イジェクトされるのカッコイイ!
Re:スパコンのストレージ (スコア:5, 参考になる)
現行最大容量のLTO Ultrium6で圧縮が効けば160本、ダメだと400本 [fujitsu.com]みたいですな。
既に圧縮済みとかで圧縮が効かないワーストでも、6キャビネット有れば保管に関しては満たせそう。
# 1キャビネットに非圧縮で1.7PB入って1200W程度で済むことに技術の進歩を感じた。
Re:スパコンのストレージ (スコア:2)
現行最大容量はIBM TS1150の10TB/巻だと思います。
次点がおそらくOracle T10000Dの8.5TB/巻。
メーカ独自仕様なのでパーツ単価はLTOより高いけど
総額はLTOより安く済ませられるはず。
Re:スパコンのストレージ (スコア:5, 参考になる)
IBMテープライブラリの導入に携わった事がありますので、一つの事例としてお話します。
ただし、大型並列計算機への接続ではありません。
Windows PCネットワークのNASとして納入しました。
TS3500基本フレーム1台+拡張フレーム1台
基本フレームにLTO5ドライブを2台装着
基本フレームにLTO5テープを200巻装填
ファイルサーバ1台(TS3500とFC接続)
アセットマネジメントソフト開発+Webサーバ構築(ここは弊社担当)
エンドユーザ渡しの価格は7000~8000万円程度だったと思います。
IBM年間保守も乗った価格ですが、どのレベルの契約か正確には覚えていない。
テープを全部装填すれば
基本フレーム 1.5テラバイト×287巻=430テラバイト
拡張フレーム 1.5テラバイト×440巻=660テラバイト
非圧縮状態で約1ペタバイトなんですが、初年度で700巻買うのは
お客さん側がキツいという事で、とりあえず200巻で運用開始。
拡張フレームは15台まで連結できるので、15台×440巻=6600巻
容量上限は約10ペタバイト。
逼迫したら拡張フレームを継ぎ足しましょうねという話になってます。
ギリギリになってから言ってくるのは勘弁して欲しい...
初めて扱う人がやってしまう落とし穴。
ロボットアームが止まっているから大丈夫と、フロントドアをうっかり開けてしまう。
これやっちゃうと、テープドライブも含めたライブラリ装置全体がオフラインになる。
ドアを閉めても自動では動作復帰しない。
全テープをドライブに読ませてスキャンさせ直すまで、テープライブラリはオンラインに戻らない。
ロボットアームの動きだけは結構速いです。
ドライブからテープを抜く->棚へ戻す->次のテープを取りに行く->ドライブへ入れる
この一連の動作、20秒くらいで終わります。
ただ、テープスキャンが長い。どのくらいのレベルで検査をするのか、所要時間が予想できない。
最短でも1巻3分。200巻で10時間。悪夢というかお客様大激怒。
PetaB級データロガー (スコア:0)
なんとなくスパースなデータだろうと想像できるので、圧縮したら
え、圧縮済でPBですか?
...
移行用I/Fはやっぱりパラな光ファイバなんでしょうね。
データセンタも神岡(の地下)にあるんだろうか
#門外漢です
Re:PetaB級データロガー (スコア:1)
展開前と展開後の両方を保存できる記憶容量が必要だよね。
テープ→HDDとかHDD→テープだとHDD容量は半分とかにできるけれど、圧縮しながらテープライブラリに記録していくって勇気が要るなー。途中でこけたら最初からやり直しになりそう……
単なるコピーと違ってCPUでの圧縮が律速段階になるから、どのくらいの転送速度が出るのか、どれくらいの時間が掛かるのか、事前に計算しにくそう……
自分ならやりたくねぇ。その分記録メディアを多く購入しようよ……
Re: (スコア:0)
>データセンタも神岡(の地下)にあるんだろうか
大昔見学したが、スーパーカミオカンデの処理システムは坑道の外にあった。
何度かリプレースしてるだろうが当時は確か富士通のハードだったなー
Re: (スコア:0)
どんな感じのデータなんでしょうね。あまり圧縮できないということはノイズが多いとか?
Re:PetaB級データロガー (スコア:1)
スーパーカミオカンデでの実験の一例ですけど、たぶんこんなデータじゃないかと
スーパーカミオカンデのイベントディスプレイ http://t2k-experiment.org/ja/?page_id=1369&preview=true [t2k-experiment.org]
これは画像変換されたものを表しているので、生データはどんなようになってるのかはわからないのですけど。
10PB (スコア:0)
10ペタバイトってすごいデータ量だなと思ったけど約10,000TBか。
8TBのHDDを1250個用意すればいいのかな?
Re:10PB (スコア:1)
HDDは、平均寿命期間中でも年間3%は壊れるから、1250個もあったら信頼性がどれだけ確保できるか疑問だなあ。信頼性確保の見地からすると、実際にはその2~4倍の台数が必要だろうね。
Re:10PB (スコア:2)
その昔, DECがまだ存在していた頃, 当時主流の4GBのディスクを使って2TBのストレージシステムを構築した際に, 最悪ケースで毎週数個のディスク障害で交換が必要になるという計算になったことがあります.
障害が頻発する頃にはディスクの入手が困難になっているだろうから, あらかじめストックしておいたほうがいいですよとは言っておいたんですが, そのプロジェクトからは離れちゃったんでどうなったことやら.
# そのシステムで作られた製品は世間に広く流通しているので, 問題は無かったんだろうけど
Re: (スコア:0)
パレット上かコンテナに収められたストレージユニットを、トラックで運送するイメージ?
Re:10PB (スコア:1)
そのトラックで道なき道を...現代版恐怖の報酬か?
Re: (スコア:0)
マジレスすると、単純なSAS接続15,000rpmのHDDでは転送速度が絶望的に足りない。
シーケンシャルな書込みで大体毎秒200MByte程度の書込み速度ですが、8TBのHDDを埋めるためには11時間程度必要となります。
仮に一般的なHDDとシステムでやろうと思ったら超大規模なRAIDシステムが必要かなと。
HDDの重さだけで数トンになると思いますw
Re:10PB (スコア:2)
10億円拾ったら、1億円でストレージ容量を売る専門会社を起業したいんだけど、
そのデータセンターはSGかWDの工場の真横に建てるよ。
先にAIBOに故障HDDの交換やらせること考えなきゃ。
Re:10PB (スコア:1)
このクラスって、FUJITSU Storage ETERNUS DX8900 S3とかをFC接続ってのが一般的なんでしょうね。FUJITSU Storage ETERNUS DX8900 S3だと1キャビネットでHDDを4608台、最大13824TBの容量がある。実システムだと正副2台一組で運用するだろうから、結構な威容だよ。
まあ、基本2.5インチなんで、2TBぐらいのドライブを使うんですけれどね。
Re:10PB (スコア:2)
SATAドライブだと信頼性に欠けるので、SASを使うのが一般的かと。
そうすると1ドライブ当たり300GBとかが今でも普通ですよ。
Re: (スコア:0)
振動対策大変そう。
そんな重さのものがRAID書き込みで一斉に動き出すとか恐怖でしか無い。
例えばこんなヤツとか? (スコア:0)
もう販売終了しちゃったけど、昔こんな製品がありました。
http://www.sony.jp/products/Professional/DataArchive/products/dtf/peta... [www.sony.jp]
Re: (スコア:0)
Petasiteはその昔仕事で携わってた。懐かしい。
8mmテープの似たようなシステムと違ってUIも近未来的だった。
Re:例えばこんなヤツとか? (スコア:2, おもしろおかしい)
営業さんがテープをくしゃくしゃにしても読めるくらいの、耐久性があるんですよ。
といってたけど、
使ってる人からアドバイスもらったら「よく、テープ噛んでとまるよ」
と言われたのは良い思い出
昔話として (スコア:0)
IBMのディスク格納型装置で、データがどっか行っちゃったから見たら、(どうやら回転でぶっ壊れたメディアが)床に粉々になって落ちていた。
というのを聞いた覚えが。
電磁的記録として (スコア:0)
非改竄性も担保するのでしょうか?
CERN (スコア:0)
CERNは全体で200か300PBは使ってるって聞いた事あります。
ソースは俺。
Re:CERN (スコア:1)
「聞いたことある、ソースは俺」 って、つまり幻聴ってこと?
Re:CERN (スコア:5, 参考になる)
LHC実験で年間30PB
CERNでは130PB(たぶん累計)使っているみたいですね。
http://information-technology.web.cern.ch/about/computer-centre [web.cern.ch]
このページの情報がいつのデータなのか書いてないですけど、ソースは俺さんはいい線いってるんじゃないかと。