Marcus Vinícius Saraiva
setembro 04, 2024 Sem categoria 0 Comment


Lições do Incidente CrowdStrike e a Importância da Recuperação de Desastres em um Apagão Cibernético

Por: Gustavo Castelo Branco Crisostomo Ramos

Em nosso mundo altamente conectado, até mesmo os grandes players da segurança cibernética, como Microsoft e CrowdStrike, podem enfrentar obstáculos inesperados no caminho.

Quando isso acontece, percebemos que mesmo os sistemas de primeira linha têm seus pontos fracos e que estamos intrinsecamente unidos numa dependência tecnológica que também deve ser encarada como um risco operacional.

No dia 19/07, que já está sendo considerado o dia do maior incidente de interrupção de TI da história, uma atualização defeituosa de um aplicativo da CrowdStrike [1] [2] [3] causou uma grande interrupção de TI, travando milhões de sistemas Windows – que passaram a exibir a infame tela azul da morte (BSOD) – e causando interrupções em serviços críticos e operações comerciais no mundo todo.

O impacto real do apagão em empresas e serviços essenciais

A Microsoft estimou que o incidente afetou 8,5 milhões de dispositivos Windows em todo o mundo, ou menos de 1% de todas as máquinas Windows.

Embora a percentagem tenha sido pequena, os amplos impactos econômicos e sociais refletem a utilização do CrowdStrike por empresas que gerem muitos serviços críticos. Empresas governamentais, bancos públicos e privados, hospitais e companhias aéreas estiveram entre os mais atingidos.

Apesar da seriedade do problema, a solução para reabilitar os desktops Windows afetados era tão simples – pelo menos para as máquinas sem o bitlocker ativado – quanto trabalhosa, pois implicava em fazer um procedimento que só poderia ser executado manualmente e in loco – imagine por exemplo uma companhia aérea que tem postos de atendimento em aeroportos espalhados por um país do tamanho dos EUA e você terá noção da trabalheira.

Já para o ambiente de produção, a interrupção abrupta causada pelo crash do SO pode ter causado problemas subjacentes em servidores com, por exemplo, SGBDs instalados.

Os provedores de cloud também foram abalados na medida em que seus clientes foram afetados. Resolver problemas em ambientes de nuvem como AWS, Azure e GCP envolveu desafios únicos em comparação com sistemas locais tradicionais.

As plataformas em nuvem não oferecem suporte a métodos de recuperação convencionais, como o “modo de segurança”, exigindo que os administradores usem procedimentos mais complexos para resolver problemas.

Felizmente – e isso foi um ponto notável e positivo no meio de todo o drama – todas se apressaram em apresentar uma lista dos sistemas afetados em suas respectivas plataformas, bem como em produzir e publicar material técnico explicando como recuperar os sistemas afetados.

Como o FitBank se previne de Apagões Cibernéticos

Mas e agora, que conhecemos as causas raiz do apagão, quais as lições aprendidas? Certamente todos os gestores de TI que não foram afetados pelo incidente se perguntaram: “e se fosse comigo?”.

Sem dúvida nenhuma, a lição mais importante para todas as organizações é: a necessidade de uma estratégia sólida de recuperação de desastres (DR). Este incidente lembrou-nos que, no mundo digital de hoje, nenhum sistema está imune a interrupções.

Seja devido a ataques cibernéticos, problemas técnicos ou desastres naturais como os que ocorreram no Rio Grande do Sul, ter um plano de DR eficaz, abrangente e atualizado é crucial para manter a continuidade dos negócios e minimizar o tempo de parada.

Nesse aspecto, citando nossa própria experiência no FitBank, podemos dizer que:

  • A execução de exercícios regulares de DR e simulações de possíveis cenários de interrupção para testar nossas estratégias de resposta, treinar os profissionais, encontrar pontos fracos nos planos e nas equipes e para cronometrar os tempos de recuperação;
  • A revisão regular de nossos planos de DR para se ajustar a novas ameaças – nesse aspecto a imaginação, e não apenas o técnico e o protocolar, deve ser considerada;
  • O investimento em tecnologias que incrementam a observabilidade – tanto de desempenho quanto de disponibilidade – de nossas operações, sistemas e infraestrutura;
  • O esforço em documentar e disseminar o conhecimento entre as equipes técnicas e operacionais;
  • A cultura de “achar a causa raiz” dos problemas e implementar soluções corretivas definitivas;
  • O investimento em aprendizado e uso de tecnologias de Infra-as-Code (IaC) em detrimento de processos manuais ou ferramentas de configuração interativas;
  • O reconhecimento de que soluções alternativas manuais garantem que processos críticos de negócios possam continuar mesmo quando a tecnologia falhar.

São fatores e atitudes que nos deixam confiantes na resiliência de nossa infraestrutura face ao grande desafio de obter o máximo de disponibilidade operacional.


Referências Bibliográficas

[1] Zach Vorhies / Google Whistleblower no X: “Crowdstrike Analysis: It was a NULL pointer from the memory unsafe C++ language. Since I am a professional C++ programmer, let me decode this stack trace dump for you. https://t.co/uUkXB2A8rm” / X

[2] www.crowdstrike.com/blog/falcon-update-for-windows-hosts-technical-details/

[3] www.crowdstrike.com/falcon-content-update-remediation-and-guidance-hub/