> нода целиком?Это очень просто. Например, сгорел контроллер или baseboard. Я даже больше скажу, ноды могут сразу целыми стойками из строя выходить даже при резервировании питания по независимым линиям: например, на одно из линий падает напряжение (трансформатор на подстанции взял и накрылся) во время пиковой нагрузки, и через второй PDU на другой линии в стойке ток поднялся выше расчетного значения, в итоге, второй PDU в стойке тоже отключился. И привет, стойка обесточена.
Подобных сценариев можно массу на ходу придумать. Именно поэтому равноправные узлы кластера в некоторых местах принято разносить по разным стойкам. Или, например, использовать несколько датацентров, строя архитектуру таким образом, чтобы выход из строя одного датацентра не прервал работу сервиса.
А ты: "диски, диски..."
> это как? разу все диски рейд возьмут и умрут?
Например, произошел сбой драйвера контроллера или сам контроллер сдох.