Stream Parquet File Reader

Saiba mais sobre o conector Stream Parquet File Reader e como usá-lo na Digibee Integration Platform.

O conector Stream Parquet File Reader permite que você leia arquivos Parquet, acionando subpipelines para processar cada mensagem individualmente. Este conector deve ser usado para arquivos grandes.

Parquet é um formato de arquivo colunar projetado para armazenamento e recuperação eficiente de dados. Para maiores informações, veja o site oficialarrow-up-right.

Parâmetros

Configure o conector usando os parâmetros abaixo. Campos que suportam expressões Double Braces estão marcados na coluna Suporta DB.

Parâmetro
Descrição
Tipo
Suporta DB
Padrão

Alias

Nome (alias) para a saída deste conector, permitindo que você o referencie posteriormente no fluxo usando Double Braces expressions.

String

stream-parquet-reader-1

File Name

O nome do arquivo Parquet a ser lido.

String

{{ message.fileName }}

Parallel Execution

Ocorre em paralelo com a execução do loop.

Booleano

False

Convert Date Fields

Se habilitado, campos DATE/TIMESTAMP do arquivo são convertidos para o formato de texto (ex: yyyy-MM-dd para DATE, ISO-8601 para TIMESTAMP). No modo padrão, as datas permanecem como valores numéricos (dias/milissegundos desde o epoch).

Booleano

False

Date Field Paths (opcional)

Indica manualmente quais são os campos de data quando o esquema não declara explicitamente um tipo lógico DATE.

String

N/A

Decode Base64 Fields

Se habilitado, o conector varre recursivamente os nós do JSON de saída. Qualquer string identificada como uma sequência Base64 válida é automaticamente decodificada para UTF-8 e substituída no local.

Booleano

False

Fail On Error

Se a opção estiver ativa, a execução do pipeline com erro será interrompida. Caso contrário, a execução do pipeline continuará, mas o resultado mostrará um valor falso para a propriedade “success”.

Booleano

False

circle-info

Um arquivo Parquet compactado gera conteúdo JSON maior que o próprio arquivo quando é lido. É importante que você verifique se o pipeline possui memória suficiente para tratar os dados, pois eles ficarão armazenados na memória do pipeline.

Exemplo de uso

Lendo arquivo Parquet

  • File Name: file.parquet

  • Parallel: desativado

Saída:

Se as linhas foram processadas corretamente, seus respectivos subpipelines retornam { "success": true } para cada linha individual.

Atualizado

Isto foi útil?