Bom dia,
Tivemos um problema de roteamento devido a um
bug software que tocou 2 routeurs principais de
Roubaix. Estes Cisco ASR 9010 efectuam a coleta
da largura de banda dos datacenters em Roubaix (RBX1
RBX2 RBX3 RBX4 RBX5) e a ligação para Paris,
Bruxelas, Amesterdão, Londres e Frankfurt. Resumindo,
o coração do roteamento em Roubaix.
Este bug é conhecido e está ligado as novas placas que
pusemos em produção no final de Janeiro (24x10G por
slot). Por uma razão random a placa põe se a detectar
erros RAM ECC e deixa de rotear os pacotes. Mas apesar
disso, a placa não declara "avaria" e fica no routeur como
se estivesse boa. Os outros routeurs continuam a enviar
os pacotes mas em frente não há ninguém. Cai tudo
num buraco negro e a rede já não funciona correctamente.
O pior dos casos : uma avaria não clara.
Esta noite, 3 placas 24x10G sobre 2 routeurs ASR 9010
tiveram este bug quase ao mesmo tempo. Isto partiu a
rede em 3 pedaços : USA/Londres/Amesterdão/Varsóvia,
Roubaix e Paris, Frankfurt, Madrid, Milão, aspirando os
pacotes em Roubaix. Habitualmente, o tráfego teria
sido rotado mas aqui foi aspirado e bloqueado em Roubaix.
Por isso, não podemos explorar a rede para administrar
esta rede e recuperar logs de todos os routeurs afim
de saber a origem do problema. Navegamos a moda
antiga, com as ligações de socorro/exterior para
nos ligarmos a cada routeur de backbone para
verificar se o routeur estava na origem do problema.
Este operação demorou bastante tempo, porque além
disso, dois routeurs avariaram e demoramos a perceber
que não vinha apenas de um routeur rbx-g2-a9 mas
também de rbx-g1-a9. Uma vez que voltamos a iniciar
as 3 placas voltou tudo em 5 minutos.
Há cerca de 3 semanas, já tínhamos aberto um ticket
junto da Cisco relativamente a este problema de RAM
ECC. A Cisco trabalhou neste problema e pode fornecer-nos
esta manha o patch software à aplicar nestes routeurs afim
de resolver este problema. Vamos realizar esta operação
esta noite. Não prevemos avaria.
Estamos também a ver como melhorar a gestão dos nossos
routeurs no caso em que toda a backbone esteja down
por razões que nunca acontecem. Sabemos gerir estes
tipos de caso mas é lento. Muito lento.
Em todos os caso, a avaria demorou mais do que 99.9%
a saber 1h22 quando temos "direito" a 43min por mês de
downtime. Há então penalidade a conta do facto que
ultrapassamos o tempo autorizado. Exemplo: nos SD OVH
é 5% por hora de indisponibilidade. Vamos criar um URL para
que possa iniciar o SLA e enviar-nos os documentos para
creditar os 5% do tempo no seu serviço. Este estará
disponível no task
http://travaux.ovh.com/?do=details&id=6533
Nunca é agradável escrever este tipo de email mas
quando falhamos, pronto, temos de assumir e pedir
desculpas.
Mais uma vez desculpa.
Amigavelmente,
Octave