本当は怖いHPC

HPC屋の趣味&実益ブログ

ChainerMN

ChainerMNをMPIで実行中に、例外でプロセスが死んでも実行が止まらない問題

通常、MPIプログラムは、実行中のどれかのrankがエラー等で以上終了した場合(あるいはMPI_Finalizeを呼び出さずに終了した場合)は全プロセスが強制終了されることが期待されます。 が、ChainerMNを含む mpi4py を用いたプログラムを実行している場合、Pyth…

【広告】