Tecnologia

Tecnologia de imagem composta

Por

11 de Dezembro, 2020

A mais recente tecnologia de pesquisa de imagens já está acessível para a navegação reversa de fotos digitais. A partir de uma imagem de amostra, pode-se obter centenas de imagens compatíveis para tarefas de composição. A compatibilidade dos objetos em primeiro plano e cenas de fundo depende de vários aspetos.

Semântica, áreas circundantes, contexto, geometria, estilo e cor são verificados. No entanto, as técnicas de busca de fotos existentes medem semelhanças apenas em algumas partes. as fotos podem ser pesquisadas por motores de busca reversa de imagens. Através de uma ferramenta de pesquisa por imagem, como a da Reverseimagesearch.com, é possível encontrar fotos duplicadas e semelhantes, de forma fiável e precisa.

Imagem composta a partir de múltiplas imagens (Foto de Martin St-Amant / Wikipedia / CC-BY-SA-3.0)

Compatibilidade de imagens compostas

Com esta tecnologia, o objeto de primeiro plano e o fundo de várias fontes são misturados para produzir uma nova composição. Enquanto a anterior considera o problema da renderização composta realista ao primeiro plano. Assim, a compatibilidade com o primeiro plano e os planos de fundo pode ser determinada por vários aspetos importantes que podem variar entre as várias categorias do objeto e da cena de plano de fundo.

Por exemplo, o ponto de vista em perspetiva é mais crítico com um carro na estrada, já a consistência semântica pode ser mais crítica ao organizar esquiadores com montanhas nevadas. As técnicas de pesquisa de imagem existentes, geralmente concentram-se apenas no aspeto particular, ou exigem recursos para manualmente corrigir e definir os critérios que não conseguem adaptar-se às várias categorias de objetos e fundo.

Em vez de projetar critérios de correspondência, ou características técnicas manuais, a pesquisa reversa analisa a representação de recursos para os objetos de primeiro plano e de fundo em cada uma das fotos de um grande número de dados, o que estimula a compatibilidade entre diferentes objetos de primeiro plano e uma cena de fundo.

Assim, o objeto de primeiro plano, onde as informações da categoria foram codificadas pela pesquisa de imagens, é analisado por meio do Multimodal Compact Bilinear Pooling, um conjunto de dados existentes cuja explicação da máscara de segmentação foi construída para ser estudada no espaço de incorporação geral.

Desta forma, a compatibilidade do primeiro e do segundo plano pode ser facilmente medida usando semelhanças entre eles, usando um vetor adequado. Algoritmos de processamento de imagem digital são utilizados na diferenciação entre objetos de primeiro e segundo plano.

Pesquisa de imagens

O paradigma tradicional de pesquisa baseada em texto mede a relevância semântica entre as consultas baseadas em texto e fotos. Sem considerar os outros fatores necessários para fotos compostas, muitas vezes retorna resultados irrelevantes.

A pesquisa de imagens costuma ser uma solução alternativa quando os critérios de pesquisa são difíceis de explicar com texto. Recursos específicos descrevem várias características, como semântica e aparência, ou estilo e layout espacial para atender a várias tarefas. No entanto, sem uma foto de primeiro plano adequada disponível, muitas vezes o resultado é ineficaz se apenas usar uma foto de fundo como consulta. A perceção da lacuna entre o primeiro e o segundo plano é significativa para os humanos, portanto, as máquinas também podem ser desenvolvidas para identificar essas diferenças.

Imagem de PublicDomainPictures por Pixabay

Abordagem proposta para o Photo Search

Como explicámos na introdução, não é fácil desenvolver critérios de correspondência de design, porque muitas pessoas podem decidir sobre os fatores de compatibilidade. Ele pode variar em diferentes cenas de fundo e com várias categorias de objetos. A solução passa por procurar uma resposta genérica que trate todas as amostras com precisão.

Portanto, será necessário estudar a colocação dos recursos entre as cenas de fundo e os ativos em primeiro plano, a partir de um grande número de dados de treino. A representação dos recursos estudados pode codificar informações valiosas, especificamente para imagens compostas, e adaptar-se a diferentes conteúdos de imagem.

Os algoritmos de pesquisa de imagens devem também ter a capacidade de lidar com a categoria de fundo duplo numa estrutura. Desta forma, os repositórios de dados online são estruturados cuidadosamente para categorizar essas informações. Assim, as pesquisas encontram facilidade em localizar pares de valores-chave e, por fim, procurar os resultados correspondentes.