Detecção e classificação de defeitos em pás eólicas com aprendizado de máquina

Projeto de Formatura da Escola Politécnica da USP (Grupo C29)

Introdução

À medida que um número crescente de países busca migrar suas matrizes energéticas para fontes mais limpas, cresce também a relevância da manutenção e durabilidade das infraestruturas associadas à geração de energias renováveis. Entre elas, a energia eólica destaca-se como uma das alternativas mais promissoras para essa transição, impulsionada pela expansão contínua da capacidade instalada em países como Alemanha, Dinamarca e Espanha.

No entanto, há uma ineficiência danosa e custosa no processo de monitoramento e inspeção de pás eólicas, além dos problemas causados pelos defeitos nas pás, principalmente o defeito de erosão.

Objetivos

Nesse contexto, o objetivo do trabalho é utilizar e comparar modelos de inteligência artificial para melhorar a tarefa de detecção e classificação de defeitos em pás eólicas, com foco nos defeitos de erosão.

Para comparar o desempenho de diferentes modelos e hiperparâmetros, foram utilizadas as principais métricas de desempenho de classificação e detecção, como precisão e revocação do modelo.

Desenvolvimento

O sistema final consiste de dois estágios: primeiro, uma foto de pá eólica é processada de forma a separar o fundo e o objeto de interesse. Depois, é feita uma análise da imagem resultante que localiza e classifica o tipo de defeito - se algum foi detectado. A visualização final pode ser feita com a exibição da imagem com um retângulo representando a localização inferida pelo sistema.

Exemplo do pipeline

Na arquitetura final, um componente executa cada estágio. O primeiro componente classifica cada pixel da imagem como sendo parte do objeto de interesse ou o fundo, e foi implementado utilizou-se a arquitetura U-net. Para o backbone, definiu-se duas opções: a EfficientNet-B3 e a ResNet34. Foram feitos testes para definir qual usar.

Já o segundo componente tem duas saídas: dada a imagem da pá segmentada, são produzidas as coordenadas da localização do defeito e os scores de classificação. Para tal, foi usada a arquitetura Faster-RCNN, e foram contempladas e testadas três opções de backbone: Resnet50, Mobilenet, e Resnet50v2. mbos os componentes são baseados principalmente em aprendizagem profunda e foram treinados pelo grupo a partir de modelos já pré-treinados obtidos da biblioteca de visão computacional do Pytorch. Para o treinamento e avaliação do modelo, utilizou-se um total de 5113 imagens públicas de pás de turbinas eólicas.

Para a utilização dos modelos desenvolvidos, criou-se um pipeline, o qual é possível inserir uma imagem e personalizar qual modelo utilizar:

Se o usuário deseja utilizar o modelo segmentador ou não
Para o modelo classificador, qual backbone o utilizar

O fluxo do pipeline pode ser visto na imagem a seguir:

Pipeline

Resultados

O modelo segmentador com EfficientNet-B3 apresentou resultados satisfatórios, sendo capaz de isolar a pá eólica em uma imagem de maneira automática e consistente, reduzindo o tempo de processamento e fornecendo uma imagem com menos ruído para o modelo classificador.

Em relação ao modelo classificador, foi possível notar um bom desempenho na tarefa de classificação do tipo de defeito, sobretudo os casos de erosão. Já em relação à localização do defeito, observou-se resultados satisfatórios para critérios mais básicos de avaliação (AP@0,5), porém um desempenho mais limitado em testes que exigem precisão extrema na localização (AP@0,5:0,95), como mostrado na tabela a seguir:

Tabela AP

Comparação entre os modelos

Em relação à classificação de uma imagem como sendo uma pá com erosão ou não, notou-se que os modelos atingiram um resultado satisfatório, com valores de AUC acima de 0,9, como mostra o gráfico a seguir:

Curvas ROC para a tarefa de classificação de casos de erosão

Já a tabela a seguir mostra em detalhes os valores de acurácia, precisão, revocação e f1-score:

Tabela classificação

Em ambos os resultados, nota-se que o modelo utilizando a resnet50 como backbone e treinado utilizando imagens segmentadas costuma obter os melhores desempenhos, à exceção da métrica de precisão, na qual a versão utilizando resnet50-v2 com imagens segmentadas apresentou valores maiores.

Links relacionados

Autores

Professor orientador

Professor Doutor Edson Satoshi Gomi - Departamento de Engenharia de Computação e Sistemas Digitais, Escola Politécnica