あるAnonymous Coward 曰く、2月11日夜、auでメールが送受信しにくい状況が発生した。原因はネットワークセンター内の通信設備における電源設備の故障だという(KDDIの発表)。ケータイWatchによると、この設備は冗長構成を取っていたが、障害発生当時はメンテナンス中で1系統のみで運用していたという。この状態でUPSが故障したため給電が止まり、サーバーが停止してしまったそうだ。1月末に発生したNTTドコモの障害のようにトラフィックが原因ではないとのこと。
メールがこないと思ったら (スコア:4, おもしろおかしい)
バレンタイン前の週末なのにメールも電話もまったくこないなあと思ったら
通信障害が発生していたのか。道理で。
May the source be with you... always.
Re: (スコア:0)
よく見るんだ。君の携帯はdocomoだ。auじゃない。
Re: (スコア:0)
ってことはdocomoも障害発生か。トラブルってのは続くもんだね。
Re: (スコア:0)
よく見るんだ。障害が起きたのはspモードメールで、君が使っているgmailじゃない。
Re: (スコア:0)
そうか、こっち側は問題ないんだな。
なら相手がauを使ってるってことか、それなら仕方ないか。
しかし復旧が長引いてるみたい。いまだに連絡こないよ。
Re: (スコア:0)
もっとよく見るんだ。君の相手はauじゃないawだ。
Re: (スコア:0)
人間関係の通信障害は早期に復旧しておいた方がいいぞ。
いろんな意味で。
Re: (スコア:0)
初期不良なんだから、さっさと新品に交換したほうが・・・
非常用電源設備はないのか? (スコア:2)
記事から受ける印象は、電力会社から受電した後の2系統の電源が落ちた、と解釈できる。
ディーゼル発電機等を使用した非常用電源設備があるはずだが、起動しなかったのか?
設備の基本仕様には、冗長構成の項目はあるが、冗長運転の仕様はなかったんだろうな。
Re: (スコア:0)
給電系と装置を繋いでるUPSが死んだんだから、給電元がディーゼルだろうがなんだろうが無意味。
UPSが故障って (スコア:1)
UPS通さずに直結してとりあえず復旧するのは、施設内の機器配置的に無理だったのかな?
Re:UPSが故障って (スコア:1)
あまり故障しないというか、故障していても気付かないこともある。
停電時になって初めて故障していることに気付くとか。
あと、故障ではないものの、一度停電した時にUPSが供給し、
復電したときにUPSが充電モードに移行、その時にすぐ停電すると
UPSは電力を供給しないという欠陥があるUPSとかあった。
あれは大騒ぎになったなあ。
ま、普通は2系統の電源(発電所・変電所)をひき、
2系統のUPSやCVCFを用意し、サーバも2電源ユニット以上で
それぞれ分けておくというのが冗長構成の理想像かもしれない。
今回は数百万人に影響するポイントのサーバなのに、
そういう電源冗長化はしていなかったということだね。
Re: (スコア:0)
まあ数百万人に影響すると言ってもプレスリリース出して謝罪すれば済む程度の話しだし。
首都圏の電車なんて毎朝のようにどっか止まってるよ。人死にも出るし
Re:UPSが故障って (スコア:1)
この手の大規模な所だと一般的なUPS(サーバの近くにおいてあってそこから電源を取る)ではなく
UPS室があってそこからサーバルームの電源の配線をしているんじゃないかなぁと思います。
なので、UPS室からの回線が2系統あって1系統落としてメンテ中にもう1系統の方が壊れたということでは?
そうしておかないとサーバだけUPSで動作を続けてもその他の機器が落ちたら意味がない。
サービスが停止しないようにこの手のところはUPSを設置する物なので停電時に安全にシャットダウンできればいいとは目的が異なっているんですよ。
Re: (スコア:0)
管理わるいと、メンテナンスの時期(バッテリー交換とかね)をわすれたりする。
そのぐらい管理がわるかったと思えば納得。
Re:UPSが故障って (スコア:1)
Re: (スコア:0)
> 管理わるいと、メンテナンスの時期(バッテリー交換とかね)をわすれたりする。
テプラ一枚で済むんですがねぇ
格好を気にしないならマジックペンで直書きでも済むし
#実際、車のバッテリは交換した日をマジックで書いているヨ
Re:UPSが故障って (スコア:1)
交換時期にならなくても へたってしまうバッテリーが偶にあるから困るんですよ。
複数ある内の一台が逝っちまっただけで全体の給電がダメになりますからね。
で、ウチの職場では「全部のバッテリーの内部抵抗をこまめに測ること」という通達が出てしまいました。
やってられるか、っつの。
# 面と向かって言えないのでACで。
Re: (スコア:0)
UPSには使用開始日の欄が何世代分もあって、そこに書き込めばいいし、それでいいのだが。
それを定期的に見に行かないというのが「管理不行き届き」なのですよ。
# 毎月見に行ってたらそれはそれで、なにさぼってるんだって言われるのがオチ
Re: (スコア:0)
バッテリーの寿命が来ると、「ビービービービービー」って
警告音が鳴るんだけど、ひたすら鳴ってるのでラックの利用者に
連絡したが、交換どころか見にも来ない。
電源がブチって切れるまで問題ないと思っているらしい。
そのまま三年が過ぎてもビービーなってる。
放置して障害になるのは知ったこっちゃないが、このビービー
耳障りな警告音を聴きながらずっと作業しているこっちの身に
なってくれよって。
Re:UPSが故障って (スコア:2)
本当にバッテリーのせいでピーピーいってます?
元の電源が不安定だとピーピーなりやすいですよ。
その場合、コンセントから直接電源とるのと、電力会社にチェックしてもらう。
それでもだめなら、設定で感度下げればおとなしくなります。
Re:UPSが故障って (スコア:1)
鳴り始めてから三年も経ってれば、まぁ間違いなく交換時期過ぎてるけどね。
Re: (スコア:0)
いいかげんバッテリが膨らんでないか?
Re: (スコア:0)
ほかの利用者の迷惑(異音が判らなくなるetc..)だから修理しろとはいえないの?
カッコンカッコン言ってるドライブの発見が遅れたらタダじゃ済まないと思うんだけど。
Re: (スコア:0)
(UPSの故障点が増えるだけ)
通常は電源ユニットを二重化してあってCVCFで供給のはず。
データセンターとかじゃなかったのかな?
障害あるある (スコア:0)
年に数回のメンテナンスで非冗長な時に限って障害が発生する
試験時は問題なかったのに、カットオーバー直後にランダム発生のバグに当たる
綿密に準備してから作業を計画すると、当日の朝に障害が発生してスケジュールが流れる
Re:障害あるある (スコア:2)
プリンタは納品直前に壊れる
Re: (スコア:0)
それは本当に壊れているとは限らないのでは。
Re: (スコア:0)
大量に印刷したい日に限ってインクが無くなる。
# 白黒印刷したいのに赤が無いって止めるプリンタどうにかならないか。いくらインクで儲けているとは言え。
Re:障害あるある (スコア:1)
年に数回のメンテナンスで非冗長な時に限って掃除のおばちゃんが仕事を開始する
試験時は問題なかったのに、カットオーバー直後にランダム発生の掃除のおばちゃんが仕事をする
綿密に準備してから作業を計画すると、当日の朝に掃除のおばちゃんが仕事を始めてスケジュールが流れる
Re:障害あるある (スコア:1)
これが結構ありそうなのがこわい。
こないだ掃除のおばちゃんの影響でけが人が出たし。
Re:障害あるある (スコア:1)
Re: (スコア:0)
掃除のおばちゃんになりすませばデータセンターにでも侵入できるというのはまじめに脆弱性では。
ゴルゴも何回か使ってる手口だよな(おばちゃんじゃないけど)。
Re:障害あるある (スコア:1)
http://srad.jp/comments.pl?sid=217522&cid=638829 [srad.jp] でも貼っとけばいいのか?
1を聞いて0を知れ!
Re: (スコア:0)
何が起こったのか本気で気になるので詳しく
ラーマ人の思考 (スコア:1)
メンテナンスで1系統を止めることが最初から分かっているのなら, 普通は3重以上にするのが冗長化ってもんですよね.
# けど電源系を3重以上にする構成って, 現物は見たことが無い
Re: (スコア:0)
医療系は正,副,予備の3系統が基本では?
Re: (スコア:0)
斜め上を目指して5台の電源による多数決を!
Re:ラーマ人の思考 (スコア:1)
多数決する必要があるのか。
Re:ラーマ人の思考 (スコア:2)
1:プラス100V
2:マイナス100V
3:マイナス100V
4:プラス100V
5:プラス100V
多数決で+100V供給 という電源
Re:ラーマ人の思考 (スコア:1)
1:0V
2:0V
3:0V
4:プラス100V
5:プラス100V
多数決で0V供給 という電源になってしまうけど?
Re: (スコア:0)
ん?正しいでしょ?
そんなときは「おそらく電源を落とそうとしている」のだから。
Re:ラーマ人の思考 (スコア:1)
オフは全部遮断した時にオフにすれば良いと思いますが…まあ、これは設計思想の範囲だからいいとして。
5台中3台が故障したら、電源の供給が無くなってしまうのは、問題があると思うよ。
Re: (スコア:0)
>問題があると思うよ。
だから「斜め上」なんでしょうよ。
某信託銀行の場合 (スコア:0)
MVSが動いているという話だったんですが、全国三箇所に分散設置してあって
また、一つのシステムに、十基の電源ユニットが接続されていて
その一つが壊れても…
取替えというトラブル要因になる作業を行わず
停止できる日まで、稼動し続け、二つ目が壊れてもまだ大丈夫。
みたいな冗長性が与えられていると聞きました。
当然、実物は見られませんでした。
もしかしたら、銀行系という、年に一度は停止できる日があるシステムだから
そこを落とし所として運用管理する設計だったのかもしれません。
そもそも (スコア:0)
UPS(現実にはCVCF?)の定期メンテナンスはしていたのだろうか?
Re: (スコア:0)
動作中ブザーはちゃんと鳴ってました。
小山って (スコア:0)
規模の割には人数少ないし
社員でも事前申請しておかないとなかなか入れないし
こういう時って対策が打ちにくいね
まぁ、テロとか恐れているんだろうけど
Re: (スコア:0)
♪小山幽(U)電池(PS)~
悪魔の日 (スコア:0)
やっぱり、「11日」は何かやばいことが起こる日の定番になりつつあるね