Está claro que é impossível impedir totalmente as avarias, assim uma solução consiste em instalar mecanismos de redundância, duplicando os recursos críticos.
A capacidade de um sistema para funcionar apesar de uma insuficiência de um dos seus componente chama-se tolerância às avarias (ou tolerância aos erros", em inglês fault tolerance).
Quando um dos recursos não funciona mais, os outros recursos asseguram a retransmissão a fim de dar tempo aos administradores do sistema para remediar a avaria. Em inglês, o termo de "Fail-Over Service " ( FOS) é assim utilizado.
Idealmente, no caso de uma avaria material, os elementos materiais defeituosos deverão ser "retirados imediatamente" (em inglês "hot swappable"), ou seja, poder ser extraídos e logo em seguida substituídos, sem interrupção do serviço.