Vector DB

Saiba mais sobre o conector Vector DB e como utilizá-lo na Digibee Integration Platform.

Visão geral

O conector Vector DB desempenha um papel central em seu pipeline ao executar o processo de ingestão de dados. Ele converte informações em uma representação vetorial que pode ser utilizada posteriormente para busca e recuperação semântica. Quando um prompt é recebido, cálculos de similaridade identificam os vetores mais relevantes, e seus textos correspondentes são recuperados para enriquecer o contexto fornecido ao modelo de linguagem (LLM).

Diferente dos bancos de dados tradicionais, que armazenam texto ou dados estruturados, um banco de dados vetorial armazena embeddings, que são representações numéricas que capturam o significado do conteúdo. Esses embeddings permitem que modelos de IA encontrem informações relacionadas com base em similaridade, em vez de correspondência exata de palavras-chave.

Como funciona

O funcionamento do conector envolve um processo sequencial com três etapas principais:

1

Ingestão de dados

O conector recebe dados de uma etapa anterior do pipeline. Esses dados podem vir de várias fontes, como o trigger ou outro conector da plataforma.

Você pode definir o tipo de origem por meio do parâmetro Source Type:

  • Text: Para processar conteúdo de texto bruto.

  • File: Para processar um documento armazenado.

2

Geração de embedding

O conteúdo recebido é processado usando o Embedding Model configurado, que converte os dados em um vetor (uma lista de números que representa seu significado semântico). Esses vetores não são legíveis por humanos, mas são essenciais para buscas e recuperação baseadas em IA nas etapas seguintes.

Fornecedores de modelos de embedding suportados incluem:

  • Local (default): Um modelo de embedding local leve (all-MiniLM-L6-v2) útil para casos de uso básicos ou testes.

  • Fornecedores externos: Você pode selecionar opções mais avançadas, como:

    • Hugging Face: Oferece uma variedade de modelos de texto e multimodais.

    • OpenAI: Suporta modelos como text-embedding-3-small e text-embedding-3-large.

    • Google Vertex AI: Permite geração de embeddings em nível empresarial.

3

Armazenamento de vetores

Após a geração dos embeddings, eles são armazenados no Vector Store configurado. Atualmente, o conector suporta:

  • Neo4j (banco de dados baseado em grafos).

  • Bancos de dados compatíveis com Postgres.

Dimensões de vetores

Cada modelo de embedding produz vetores com uma dimensão específica (por exemplo, 3072 valores). A dimensão usada no modelo deve corresponder exatamente à dimensão definida na tabela do vector store de destino. Caso contrário, o processo de ingestão falhará.

Quando a opção Auto-Create está ativada, o conector cria automaticamente uma nova tabela com a dimensão correta de acordo com o modelo de embedding selecionado.

Operações suportadas

No estágio atual, o conector suporta apenas operações de ingestão:

  • Insert: Armazena os embeddings gerados no vector store.

  • Metadata: É possível incluir metadados (pares chave–valor adicionais) ao armazenar embeddings, mas filtros baseados em metadata ainda não estão disponíveis.

Output

O conector retorna uma mensagem de confirmação indicando o resultado do processo de ingestão.

Se suportado pelo modelo de embedding, a resposta também pode incluir informações adicionais, como o número de tokens processados durante a geração dos embeddings.

Configuração de parâmetros

Configure o conector usando os parâmetros abaixo. Campos que suportam expressões Double Braces estão marcados na coluna Suporta DB.

Parâmetro
Descrição
Tipo
Suporta DB
Padrão

Alias

Nome (alias) para a saída deste conector, permitindo que você o referencie posteriormente no fluxo usando Double Braces expressions.

String

vector-db-1

Source Type

Define o tipo de dado que o conector irá processar. Tipos suportados: Text e File.

String

N/A

Metadata

Armazena informações extras para identificar os vetores.

Key-value pairs

Atualizado

Isto foi útil?