OVH Community, your new community space.

problema de roteamento esta noite


ricardo.durao
13-04-12, 18:01
Boa tarde,

Aqui está o URL sobre a compensação:

https://www.ovh.pt/managerv3/sla-list.pl

Se o servidor estiver coberto pelo SLA, gama OVH.PT, poderão obter aqui a vossa compensação.

Com os nossos melhores cumprimentos
Ricardo
Equipa OVH

oles@ovh.net
28-03-12, 17:50
Bom dia,

Tivemos um problema de roteamento devido a um
bug software que tocou 2 routeurs principais de
Roubaix. Estes Cisco ASR 9010 efectuam a coleta
da largura de banda dos datacenters em Roubaix (RBX1
RBX2 RBX3 RBX4 RBX5) e a ligação para Paris,
Bruxelas, Amesterdão, Londres e Frankfurt. Resumindo,
o coração do roteamento em Roubaix.

Este bug é conhecido e está ligado as novas placas que
pusemos em produção no final de Janeiro (24x10G por
slot). Por uma razão random a placa põe se a detectar
erros RAM ECC e deixa de rotear os pacotes. Mas apesar
disso, a placa não declara "avaria" e fica no routeur como
se estivesse boa. Os outros routeurs continuam a enviar
os pacotes mas em frente não há ninguém. Cai tudo
num buraco negro e a rede já não funciona correctamente.
O pior dos casos : uma avaria não clara.

Esta noite, 3 placas 24x10G sobre 2 routeurs ASR 9010
tiveram este bug quase ao mesmo tempo. Isto partiu a
rede em 3 pedaços : USA/Londres/Amesterdão/Varsóvia,
Roubaix e Paris, Frankfurt, Madrid, Milão, aspirando os
pacotes em Roubaix. Habitualmente, o tráfego teria
sido rotado mas aqui foi aspirado e bloqueado em Roubaix.

Por isso, não podemos explorar a rede para administrar
esta rede e recuperar logs de todos os routeurs afim
de saber a origem do problema. Navegamos a moda
antiga, com as ligações de socorro/exterior para
nos ligarmos a cada routeur de backbone para
verificar se o routeur estava na origem do problema.
Este operação demorou bastante tempo, porque além
disso, dois routeurs avariaram e demoramos a perceber
que não vinha apenas de um routeur rbx-g2-a9 mas
também de rbx-g1-a9. Uma vez que voltamos a iniciar
as 3 placas voltou tudo em 5 minutos.

Há cerca de 3 semanas, já tínhamos aberto um ticket
junto da Cisco relativamente a este problema de RAM
ECC. A Cisco trabalhou neste problema e pode fornecer-nos
esta manha o patch software à aplicar nestes routeurs afim
de resolver este problema. Vamos realizar esta operação
esta noite. Não prevemos avaria.

Estamos também a ver como melhorar a gestão dos nossos
routeurs no caso em que toda a backbone esteja down
por razões que nunca acontecem. Sabemos gerir estes
tipos de caso mas é lento. Muito lento.

Em todos os caso, a avaria demorou mais do que 99.9%
a saber 1h22 quando temos "direito" a 43min por mês de
downtime. Há então penalidade a conta do facto que
ultrapassamos o tempo autorizado. Exemplo: nos SD OVH
é 5% por hora de indisponibilidade. Vamos criar um URL para
que possa iniciar o SLA e enviar-nos os documentos para
creditar os 5% do tempo no seu serviço. Este estará
disponível no task http://travaux.ovh.com/?do=details&id=6533

Nunca é agradável escrever este tipo de email mas
quando falhamos, pronto, temos de assumir e pedir
desculpas.

Mais uma vez desculpa.

Amigavelmente,
Octave