No mercado atual, dois dos grandes objetivos dos gestores de Infraestrutura de TI é aumentar o tempo médio entre as ocorrências de falhas (MTTF) e diminuir o tempo médio da resolução de falhas (MTTR). Estes indicadores demonstram o impacto das falhas dos equipamentos do parque tecnológico no negócio, posto que, vários serviços, processos e atividades do empreendimento dependem do ambiente de TI.
No universo da Gestão, uma situação, projeto ou problema são bem atendidos quando o resultado atende aos “três Es” da administração, ou seja, ele é eficaz, pois foi atendido de maneira ágil, ele é eficiente, pois foi assertivo no problema e efetivo, pois trouxe um impacto positivo para o negócio. Estes três conceitos também devem ser considerados para as demandas atendidas pela equipe de TI, uma falha que demora ser tratada, pode desencadear diversos tipos de problemas, um problema resolvido de forma paliativa, com certeza, vai continuar retornando e prejudicando à operação da equipe técnica. Entretanto, apesar de muitos profissionais terem ciência desse cenário ideal, muitos o tratam como utópico e fora da realidade do dia a dia, esse pensamento pode partir não somente de gestores, mas também de colaboradores que fazem parte da operação.
Outro ponto relevante é que por muitas vezes, quando um problema na rede acontece, a equipe errada é notificada, muitas vezes por não saberem ao certo a causa da falha em questão. Nesse sentido, burocratiza-se o incidente e o mesmo, gradualmente, apresenta um tempo maior de resolução.
A grande questão é, como ser eficiente, eficaz e efetivo na gerência da equipe e do ambiente de TI?
Neste artigo, iremos realizar uma abordagem de um estudo de caso de um cliente que utiliza as soluções de monitoramento da Telcomanager e como ele solucionou uma falha periódica em sua rede de dados.
Estudo de caso: Monitoramento de servidores
Para uma boa gestão da rede, ter visibilidade da mesma é essencial. A infraestrutura de equipamentos de TI deve ser monitorada em detalhes, com métricas de desempenho, gráficos, relatórios, alarmes e afins.
Certa vez um cliente da Telcomanager, alegou que um serviço crucial para o faturamento da empresa ficava indisponível em determinado horário do dia, que era considerado horário de pico, ou seja, um horário de alta demanda por esse serviço. Todos dias, nesse horário, o serviço apresentava indisponibilidade.
Esse serviço era disponibilizado através de um servidor local. Diante deste cenário, a equipe de suporte direcionava o incidente para o grupo que desenvolveu a aplicação, que era hospedada no servidor, e os colaboradores do desenvolvimento redirecionavam a falha para a equipe de suporte que era responsável pela infraestrutura de rede.
Nesta situação, quem irá resolver o problema?
Foi então que entrou em cena o SLAview. O consultor técnico da Telcomanager, notou que o tráfego diminuía antes do serviço ficar indisponível, o que era anormal, pois a suspeita inicial era de que o servidor não estava suportando a alta demanda dos usuários. Todavia, enquanto o tráfego reduzia, o consumo da CPU aumentava.
Portanto, chegamos a conclusão que o problema não estava na infraestrutura, e sim em um processo que estava consumindo muito recurso de processamento do servidor. A partir dos gráficos do SLAview, foi identificado o momento preciso em que o consumo da CPU aumentava e, com isso, foi descoberto que um procedimento específico no banco de dados estava sobrecarregando a máquina.
No fim das contas, a responsabilidade de tratativas do incidente era da equipe de banco de dados, que percebeu uma query no SQL que estava com um tempo muito longo, e isso sobrecarregou a CPU do servidor.
Esse cenário demonstra a importância de correlacionar as métricas em relação ao mesmo objeto, com o SLAview o gestor conseguirá entender o comportamento de cada objeto e agilizar o processo de resolução de problemas com assertividade. Depois disso, o problema não voltou mais a se repetir.
O SLAview
O SLAview é um sistema robusto da Telcomanager embarcado em um appliance de fabricação própria e dimensionado de acordo com qualquer demanda. Ele é um sistema versátil, permitindo diversos tipos de coletas, como consultas SNMP, ICMP e até mesmo coletas baseadas em scripts que podem ser utilizadas para fazer integração com APIs. Além disso, possui diversos tipos de saídas de dados personalizáveis, como relatórios, dashboards, mapas de topologias, gráficos, alarmes e muito mais.
Considerações finais
Portando, é indispensável ter visibilidade da rede para que a gestão de TI seja eficaz, efetiva e eficiente na solução de incidentes e falhas. E além disso, ter uma visibilidade de qualificada, com um sistema robusto e flexível como o SLAview, é essencial. Além deste fato, vimos também a importância da boa gestão de direcionamento de incidentes, os processos precisam estar bem definidos na equipe técnica, isso desencadeará maior assertividade na resolução de falhas.
Pensando nisso, a Telcomanager, líder da América Latina no setor de software para gerência de redes, desde 2002 no mercado com uma metodologia única e inovadora, disponibiliza soluções inteligentes para o monitoramento de dados de modo a prover visibilidade completa à infraestrutura do cliente, permitindo que sua empresa acompanhe os principais aspectos de sua rede.
Publicado em 16/09/2022