(5/7)
5. 初期不良の要因
SCore III構築時に生じた初期不良と、その対処について述べる。
- 現場で追加したメモリカードやMyrinet NICの装着不良
工場出荷前にエージングを行っている製品でも、現場でメモリカードやMyrinet NICなどのハードウェアを追加すると、装着不良による問題が発生する。初期不良を減らすためには、カスタマイズされた状態で工場でエージングが行われる必要がある。
- ケーブル装着不良
今回使用したMyrinetはSerial Cableである。Serial Cableの方がFibre Cableよりも理論的エラーの発生率が低いと言われたが、コネクタ部分の装着不良によるエラーが多発した。Myricom社は、現在、Fibre Cable を推奨している。
- ハードウェアの初期不良
エージングしていても512台になると何台かは故障して動かない場合がある。現調時、予備パーツとして数台用意しておくと、システムの調整がスムーズにいくだろう。
- Myrinetスイッチ
Myrinetスイッチは、Lineカード、Spineカードという2種類のカードを組み合わせて、バックプレーンがついたEnclosure に装着する。この装着不良による故障も生じた。なお、Myrinetスイッチには、SNMPプロトコルおよびHTTP プロトコルでスイッチの状態を監視できる。