Re: FJJニュース サーバー過労でダウン
> > 6月28日
> > 聡無省は、過労診断プログラムを提供するサーバーの過労診断サーバーの過労
> > を…
>
> 6月30日
> 各省庁のサーバ管理を請け負っているシステムエンジニアが過労で倒れました。
そしてそれらのサーバ群は、「過労サーバ」と呼ばれるに
至ったそうです。
......
ところで、サーバ管理者が多そうな fjj の皆様に質問です。
負荷分散をしているにもかかわらず、強力機能が実装済みの
人間過労サーバのジョブを処理しきれず扱いに困ってます。
観測結果によると、受け側で大量の資源を消費するプロセス
生成を行っているようで、受け側では他のサービス悪影響が
でています。
しかし、問題の過労サービスのみの停止はできないようです。
まあ、最悪 workd セッションを受けない設定にするとか、
それなりのコストを払い、片っ端から kill -KILL といった
方法もなくはないのですが、
・ workd を止めると今度は資源管理の moneyd に悪影響が
出る
・今でもいっぱいいっぱいなので、負荷分散しているサーバ
群が落ち、あちこちに悪影響が
・納得行かないにせよ、実際問題として外との通信のゲート
ウェイなので、そう簡単に停止しづらい
・ kill -KILL はへたに使うと公安 (むしろ警察) にマーク
され、素人にはおすすめできない (?)
#最後のはよくわかりませんでした。
などの情報があり、副作用が大きいようです。
#といっても今の、受け側の資源を使いつぶしてる時点で、
#システム要件を満たしてないような気がしますが。
#本質的にはリプレースできると最高なんですが、残念な
#ことにそうは行きません。
さてここで質問なんですが、 fjj な方々はどうやって過労
サーバとの通信を行っているんでしょうか。また、うまい
設定や対策などは何かあるのでしょうか。
お知恵を貸して下さい。
ほくなん
Fnews-brouse 1.9(20180406) -- by Mizuno, MWE <mwe@ccsf.jp>
GnuPG Key ID = ECC8A735
GnuPG Key fingerprint = 9BE6 B9E9 55A5 A499 CD51 946E 9BDC 7870 ECC8 A735