As principais ferramentas de visão computacional para sistemas embarcados

19 juin 2024 Roberto Magalhães

A visão computacional está atingindo novos níveis, muito além do processamento básico de imagens. Isto graças à integração da inteligência artificial. A IA permite agora que computadores e sistemas obtenham informações significativas a partir de imagens digitais que podem ser utilizadas em indústrias avançadas. Atualmente, uma das aplicações mais comuns é em segurança e vigilância.

Um aplicativo de visão computacional é normalmente dividido em pequenas tarefas como classificação de imagens, detecção de objetos, extração de recursos, correspondência de recursos, segmentação de imagens, detecção de bordas, estimativa de pose e outras. Um desses aplicativos pode ser responsável por diversas tarefas de processamento de imagens em sequência para recuperar o máximo significado de uma imagem ou segmento de vídeo específico. Você pode aprender mais sobre como os aplicativos de visão computacional funcionam em Este artigo.

Os aplicativos de visão computacional podem ser programados em diversas linguagens de alto nível. Por exemplo, C++ e Python são os mais populares. Embora os aplicativos C++ sejam os de execução mais rápida, o Python é mais fácil de usar devido ao seu vasto repositório de bibliotecas e módulos.

Geralmente, as aplicações de visão de IA usam Redes Neurais Convolucionais (CNN), onde cada camada da CNN executa uma ou mais tarefas de processamento de imagem. Quanto maior a complexidade da aplicação, mais camadas são adicionadas à CNN.

Diversas ferramentas estão disponíveis para aplicações de visão computacional que:

Fornece um ambiente integrado para programar a aplicação
Permitir a implementação de algoritmos para visão computacional
Permita que o aplicativo se conecte a outros componentes de software, incluindo serviços de nuvem como Microsoft Azure, Amazon Rekognition ou Google Cloud Vision API.

As ferramentas populares de visão computacional incluem:

1. OpenCV
2. MATLAB
3. CV Simples
4. TensorFlow
5. CUDA
6. Imagem GPU

OpenCV – Como o próprio nome sugere, a biblioteca Open-Source Computer Vision (OpenCV) é uma biblioteca de código aberto de visão computacional e aprendizado de máquina (ML), lançada inicialmente pela Intel em 2000. A versão mais recente é OpenCV 4.7.0, lançada sob um Apache 2. licença e gratuito para uso comercial.

Esta ferramenta é escrita em C++, com novos algoritmos e bibliotecas na interface C++. Interfaces para Python, Java, MATLAB e JavaScript também estão disponíveis. As interfaces C++, Python e Java suportam Linux, Windows, MacOS, Android e iOS. OpenCV oferece funções de programação para visão computacional em tempo real. Os algoritmos de ML suportados incluem K-Nearest Neighbor, Random Forest, Decision Tree, Naive Bayes, Support Vector Machine, redes neurais artificiais e redes neurais profundas.

MATLAB – uma plataforma de programação e computação numérica para engenheiros e cientistas. MATLAB consiste em uma caixa de ferramentas de visão computacional com muitas funções de programação, algoritmos e aplicativos para visão computacional, visão 3D e processamento de vídeo. Por exemplo, funções e algoritmos estão disponíveis para rastreamento de objetos, estimativa de movimento, detecção de recursos, extração, correspondência, calibração de câmera, segmentação semântica, classificação de cena, segmentação de instância, processamento LiDAR e nuvem de pontos 3D, aprendizado profundo e aprendizado de máquina.

Esta plataforma permite a geração e treinamento de detectores de objetos usando algoritmos como YOLO, ACF e SSD. Os algoritmos de aprendizagem profunda incluem U-Net e Mask R-CNN. A caixa de ferramentas oferece suporte à geração de código em C++ para integração em código existente, implantação de sistema de visão incorporado ou prototipagem de desktop.

CV Simples – é uma plataforma de código aberto e uma interface simplificada para OpenCV. Ele permite o acesso a diversas bibliotecas de visão computacional sem a necessidade de conceitos como espaços de cores, profundidade de bits, formatos de arquivo, autovalores, armazenamento de bitmap, gerenciamento de buffer, etc.

Lançado sob a licença BSD, o framework SimpleCV é escrito em Python. Ele pode funcionar com imagens e fluxos de vídeo de webcams, câmeras IP, telefones celulares, Kinects e FireWire. Seus aplicativos de visão computacional podem ser executados em Ubuntu Linux, Windows e MacOS. SimpleCV também é adequado para a prototipagem rápida de um aplicativo de visão computacional.

TensorFlow – é uma estrutura de aprendizado de máquina de código aberto com várias ferramentas, bibliotecas e aplicativos para ML e IA, incluindo visão computacional. A estrutura pode treinar um modelo de ML ou uma rede neural para detecção de objetos, classificação de objetos, reconhecimento facial, reconhecimento de gestos, estimativa de pose, reconhecimento óptico de caracteres e muito mais. O framework possui interfaces de programação para C, C++, Python, Java, JavaScript, Go, Swift e diversas outras linguagens. Muitas linguagens de programação como MATLAB, Scala, Rust, R e C# são suportadas pelo TensorFlow por meio de APIs de terceiros.

CUDA – significa Compute Unified Device Architecture, uma plataforma de computação paralela desenvolvida pela NVIDIA para usar unidades de processamento gráfico (GPU) em computação de uso geral. Esta plataforma possui muitas bibliotecas que suportam processamento de imagens, sinais analógicos e fluxos de vídeo. As interfaces de programação estão disponíveis para C, C++, Python, MATLAB e outros. Bibliotecas CUDA populares para visão computacional incluem MinGPU, OpenVIDIA e GPU4Vision. CUDA também pode ser usado para detecção de objetos, classificação de imagens, segmentação e campos de radiação neural (NeRF).

Imagem GPU – é uma biblioteca iOS para processamento de imagem e vídeo acelerado por GPU construída em OpenGL ES 2.0. A biblioteca licenciada por BSD é útil para aplicar efeitos e filtros acelerados por GPU a imagens, vídeos e transmissões ao vivo. GPUImage aplica filtros usando chamadas de função simples em vez de exigir a programação de arquivadores personalizados do zero.