Gestão de problemas de TI: entenda o que é e como gerenciar

O desempenho da TI é hoje um fator crucial para o sucesso de qualquer negócio. Com a transformação digital, questões como cibersegurança e performance do setor passaram a gerar impactos na empresa como um todo — e não só no service desk. Consequentemente, a gestão de problemas se torna um eixo fundamental para a otimização dos seus processos.

No entanto, é natural ter algumas dúvidas ao executá-la. Afinal, quais são as diferenças entre problema, incidente e erro conhecido? O que é uma solução de contorno? O que a ITIL tem a dizer sobre esse processo?

Neste post, destacaremos tudo o que você precisa saber sobre o assunto. Confira!

Gestão de problemas de TI

Uma operação eficiente é aquela que trabalha com o mínimo possível de paradas. Em TI, isso significa agir em duas frentes. Em primeiro lugar, na resolução rápida e eficaz de incidentes, para que os processos voltem a funcionar o mais rápido possível — e este é o objetivo de uma gestão de incidentes.

Para complementar, é fundamental trabalhar com uma gestão de problemas. Seu objetivo é encontrar a(s) causa(s) desses incidentes e tratá-la(s) para que as falhas não voltem a ocorrer. Em outras palavras, trata-se de uma prática essencial para a melhoria contínua do serviço oferecido.

O objetivo em comum é manter o ambiente controlado e disponível de acordo com a expectativa do negócio. Para isso, é importante conhecer e gerenciar os conceitos de incidente, problema, evento, solução de contorno e erro conhecido.

A seguir, abordaremos cada um deles, explicando suas diferenças e mostrando como eles devem ser geridos.

Evento, incidente e problema

Evento é a simples mudança de estado de um item controlado e pode ser identificado por meio de alertas e notificações. Já um incidente é um evento inesperado que cause ou possa causar uma interrupção de um serviço ou a redução de sua qualidade. Problema, por sua vez, é a causa desconhecida de um incidente.

Consequentemente, há uma relação importante entre a gestão de cada um dos conceitos. A identificação de um incidente deve disparar um processo de investigação do problema, ou seja, da sua causa raiz. Enquanto o primeiro é finalizado quando o serviço é restabelecido, a análise do segundo pode continuar, a fim de evitar a reincidência.

A detecção de um problema pode ser feita de acordo com as indicações da ITIL. A título de exemplo, podemos mencionar os seguintes procedimentos:

  • análise cronológica;
  • análise de "dor";
  • análises de Kepner e Tregoe;
  • realização de brainstorm;
  • mapeamento por afinidade;
  • análise dos 5 porquês;
  • isolamento da falha;
  • teste por hipótese;
  • diagrama de Ikishawa (espinha de peixe); e
  • diagrama de Pareto.

São técnicas que podem facilitar a investigação e fornecer evidências mais precisas para cada situação. No entanto, vale destacar a importância de manter equipes separadas para a gestão de cada processo (incidentes e problemas).

Enquanto uma delas está focada na resolução rápida e eficaz de um incidente, a outra trabalha com análises mais complexas que buscam a compreensão de um panorama mais amplo. Nele, a equipe enxerga não só o incidente, mas sua causa e os impactos, trabalhando em um processo de mitigação dos problemas e melhoria contínua da operação.

Esse trabalho, por sua vez, envolve outros dois conceitos essenciais para a gestão de TI.

Erro conhecido e solução de contorno

Quando um incidente é identificado, deve ser elaborada uma solução de contorno (workaround). Trata-se de uma ação aplicada visando o restabelecimento rápido daquele processo, ainda que nem sempre elimine o risco de reincidência. Nesse sentido, surge a importância da gestão de problemas.

A investigação disparada pelo incidente deve levantar o erro conhecido, que nada mais é do que o fator que causou a falha. Com isso, passa a ser possível elaborar uma solução definitiva para aquele problema, eliminando ou ao menos reduzindo drasticamente as chances de reincidência.

Evento, incidente, problema, erro conhecido e solução de contorno são conceitos que devem ser utilizados sempre com o objetivo de manter o ambiente controlado. Para tanto, é importante definir uma sequência de atividades que deve ser seguida e controlada pelos gestores de projetos.

A criação de uma Base de Dados de Erros Conhecidos (da sigla em inglês, KEDB) é um bom exemplo disso. Nela, são registrados todos os eventos, incidentes e problemas, assim como as soluções de contorno e definitivas de cada um.

O objetivo é otimizar o processo de investigação e eliminação de falhas que coloquem em risco sua operação e a segurança dos seus dados.

A atuação da TI

É preciso agir de forma proativa para evitar que incidentes se tornem repetitivos. Por isso, a TI deve adotar critérios para os diferentes processos de gestão. Para começar, é importante diferenciar os problemas de acordo com o tipo de incidência.

Um problema reativo é aquele originado por um incidente grave ou uma reincidência de falhas. Já o proativo é causado por eventos que ainda não geraram indisponibilidade, mas que podem chegar a tal resultado caso não sejam tratados rapidamente. Partindo desse ponto, é importante adotar critérios para identificar cada caso e planejar as ações de resposta.

Análises de informações dos incidentes são práticas eficientes e muito indicadas. Elas permitem identificar, por exemplo, se o problema envolve a reincidência de uma mesma falha ou se a solução de contorno não está alcançando os resultados esperados.

Outro critério importante é a avaliação da gravidade dos incidentes. Se um é tão grave que a organização não pode de forma alguma correr o risco de uma reincidência, a investigação deve ser imediata e aprofundada. Para isso, a documentação das soluções aplicadas — o KEDB — é fundamental.

Vale destacar ainda a relevância de se trabalhar com análises de tendência. Trata-se do sentido dominante indicado por uma análise, considerando um determinado período da informação. Na prática, é uma ferramenta valiosa para avaliar a probabilidade de recorrências.

Como você pôde ver, são práticas que podem mudar profundamente a forma de lidar com situações inesperadas, evitando que elas se tornem grandes dores de cabeça para toda a organização. Faça da gestão de problemas uma aliada e eleve o grau de disponibilidade e confiabilidade da sua operação!

Se quer aplicar essa ideia no contexto específico da sua equipe de TI, entre em contato com a Kalendae e conte com o suporte de quem mais entende do assunto!

No Comments Yet.

Leave a comment