TECH.IO ENGINEERING
Data_Infrastructure

CURADORIA DE
DATASETS

Garbage In, Garbage Out. A qualidade do seu modelo é limitada pela qualidade dos seus dados. Construímos pipelines de ETL proprietários para limpeza, desambiguação e enriquecimento semântico.

Ingestão (Raw)

Coleta multi-modal (PDFs, Logs, Áudio, SQL) sem estruturação.

Sanitização

Remoção de PII, correção de encoding UTF-8, filtragem regex.

Deduplicação

MinHash LSH para identificar duplicatas semânticas próximas.

SFT Ready

Formatação JSONL/Parquet pronta para treinamento (ChatML).

Técnicas Avançadas

Synthetic Data Generation

Quando os dados reais são escassos, utilizamos Teacher Models (ex: GPT-4) para gerar instâncias sintéticas de alta qualidade, seguidas de filtragem rigorosa para garantir a consistência factual.

from sdg import evol_instruct

PII Redaction (Presidio)

Detectores de Entidade Nomeada (NER) customizados para identificar e ofuscar CPF, CNPJ, endereços e nomes próprios, garantindo conformidade com LGPD antes de qualquer byte ser processado.

analyzer.analyze(text, entities=["CPF"])