Elevada disponibilidade

Dezembro 2016

Introdução à segurança de funcionamento

Qualquer que seja o serviço fornecido por um sistema informático, é essencial que os utilizadores tenham confiança no seu funcionamento para poder utilizá-lo em boas condições. O termo “segurança de funcionamento” caracteriza o nível de confiança de um sistema informático.

Uma insuficiência corresponde a um disfuncionamento do serviço, ou seja, um estado de funcionamento anormal ou mais exactamente não conforme às especificações. Do ponto de vista do utilizador, um serviço possui dois estados:

  • serviço adequado, ou seja, conforme às expectativas;
  • serviço impróprio, ou seja, não conforma às expectativas.



Uma insuficiência é imputável a um erro, ou seja, um disfuncionamento local. Os erros não conduzem necessariamente todos a uma insuficiência do serviço.

Existem vários meios para limitar as insuficiências de um serviço:

  • a prevenção dos erros que consiste em evitar os erros antecipando.
  • a tolerância aos erros cujo objectivo é fornecer um serviço conforme às especificações apesar dos erros, introduzindo uma redundância.
  • a eliminação dos erros destinada a reduzir o número de erros graças a açcões correctivas.
  • a previsão dos erros antecipando os erros e o seu impacto no serviço.

Introdução à elevada disponibilidade

Chama-se “elevada disponibilidade” (em inglês “high availability”) a todas as disposições destinadas a garantir a disponibilidade de um serviço, ou seja assegurar, o bom funcionamento de um serviço 24/24.

O termo “disponibilidade” designa a probabilidade de um serviço estar em bom estado de funcionamento a um momento dado.


O termo “fiabilidade”, às vezes igualmente utilizado, designa a probabilidade de que um sistema esteja em funcionamento normal num período dado. Fala-se assim “de continuidade de serviço”.


A disponibilidade exprime-se na maior parte do tempo sob a forma de taxa de disponibilidade, expressa em percentagem, mostrando o tempo de disponibilidade sobre o tempo total. O quadro seguinte apresenta o tempo de indisponibilidade (em inglês downtime) na base de um ano (365 dias) em função da taxa de disponibilidade:


Taxa de disponibilidadeDuração de indisponibilidade
97%11 dias
98%7 dias
99%3 dias et 15 horas
99,9%8 horas et 48 minutos
99,99%53 minutos
99,999%5 minutos
99,9999%32 segundos

Avaliação dos riscos

Com efeito, a avaria de um sistema informático pode causar uma perda de produtividade e de dinheiro, ou mesmo perdas materiais ou humanas, em certos casos críticos. É assim essencial avaliar os riscos ligados a um disfuncionamento (erro) de um dos componente do sistema de informação e prever meios e medidas que permitem evitar ou restabelecer em tempos aceitáveis qualquer incidente.

Como se sabe, os riscos de avarias de um sistema informático em rede são numerosos. A origem dos erros pode ser esquematizada da seguinte maneira :

  • Origens físicas: podem ser de origem natural ou criminosa:
    • Desastre natural (inundação, sismo, incêndio)
    • Ambiente (intempéries, taxas de humidade do ar, temperatura);
    • Avaria material;
    • Avaria da rede;
    • Corte eléctrico.
  • Origens humanas: podem ser intencionais ou fortuitas :
    • Erro de concepção (parasita "software", mau dimensionamento da rede);
  • Origens operacionais: ligadas a um estado do sistema num momento dado:
    • Parasita "software";
    • Disfuncionamento "software";



O conjunto destes riscos pode ter diferentes causas como as seguintes:

  • Maldade intencional

Tolerância às avarias


Dado que é impossível impedir totalmente as avarias, uma solução consiste em instalar mecanismos de redundância, duplicando os recursos críticos.

A capacidade de um sistema para funcionar apesar de uma insuficiência de um dos seus componente chama-se tolerância às avarias (às vezes, tolerância aos erros em inglês fault tolerance).

Quando um dos recursos avaria, os outros recursos tomam a retransmissão a fim de dar o tempo aos administradores do sistema para remediar avaria. Em inglês, o termo de “Fail-Over Service” (notado FOS) é assim utilizado.

Idealmente, no caso de uma avaria material, os elementos materiais defeituosos deverão poder ser “retirados a quente” (em inglês “hot swappable”), ou seja, poder ser retirados e seguidamente substituídos, sem interrupção de serviço.

A salvaguarda


No entanto, a instalação de uma arquitectura redundante permite apenas garantir a disponibilidade dos dados de um sistema, mas não permite proteger os dados contra os erros de manipulação dos utilizadores ou contra catástrofes naturais como um incêndio, uma inundação ou ainda um tremor de terra.

É por conseguinte necessário prever mecanismos de salvaguarda, de preferência em sites distantes, a fim de garantir a perenidade dos dados.

.

Veja também


High-Availability
High-Availability
Alta disponibilidad
Alta disponibilidad
Haute disponibilité
Haute disponibilité
Alta disponibilità
Alta disponibilità
Última modificação: 28 de setembro de 2009 às 10:08 por owliance.pt_004.
Este documento, intitulado 'Elevada disponibilidade', está disponível sob a licença Creative Commons. Você pode copiar e/ou modificar o conteúdo desta página com base nas condições estipuladas pela licença. Não se esqueça de creditar o CCM (br.ccm.net) ao utilizar este artigo.