Um arquivo é uma sequência de informações binárias, ou seja, uma sequência de 0 e 1. Este arquivo pode ser armazenado para guardar um vestígio destas informações. Um arquivo de texto é um arquivo composto de caracteres armazenados sob a forma de bytes.
O arquivo é registrado no disco rígido sob a forma nome_do_arquivo.ext. O EXT representa a extensão e é um meio para reconhecer o tipo de programa com o qual este arquivo pode ser aberto. Por outro lado, a extensão não determina o tipo de arquivo, já que se ela for alterada, o tipo de arquivo não muda.
O comprimento do nome e da extensão podem variar de acordo com o sistema operacional: oito caracteres para o nome e três para a extensão nos sistemas DOS e no Windows 3.1, 256 caracteres para o nome e a extensão no Windows 95,98 e NT e nos sistemas Unix.
Assim, no DOS ou no Windows 3.1, um arquivo proveniente do Windows 9x terá um nome truncado, já que que ele comporta os seis primeiros caracteres do nome seguido de ~x onde o x representa um número que é incrementado toda vez que um arquivo tem o mesmo nome. Em outras palavras, se um arquivo denominado arquivo~1 já existir, o seguinte vai se chamar arquivo~2. Além disso, um arquivo contém um cabeçalho que permite armazenar informações suplementares, como o tipo de arquivo e, sobretudo, a sua dimensão. Ele também contém um caractere de fim de arquivo que assinala que as informações situadas fora dele já não fazem parte do mesmo arquivo. Veja dois exemplos que ilustrarão a sua utilidade.
É muito comum baixar um arquivo na Internet e o navegador bloqueá-lo ou o servidor que aloja este arquivo cortar a comunicação. Se este arquivo for um arquivo de texto, só faltará o fim do texto. Por outro lado, se for um arquivo binário (um programa executável, por exemplo), a sua execução poderia ser perigosa porque faltam informações. O sistema operacional compara o seu tamanho real com o indicado no cabeçalho para verificar a validade do arquivo. Isso se chama Integridade. Na verdade, este controle é realizado com a ajuda de um algoritmo muito eficiente chamado CRC (controle de redundância cíclico).
Quando um arquivo é infectado por vírus, ele acrescenta linhas de código ao arquivo. Assim, a informação relativa ao tamanho do arquivo, situada no cabeçalho, não terá mais correspondência com o tamanho real do arquivo a menos que o vírus seja programado para alterar o cabeçalho.