CURADORIA DE
DATASETS
Garbage In, Garbage Out. A qualidade do seu modelo é limitada pela qualidade dos seus dados. Construímos pipelines de ETL proprietários para limpeza, desambiguação e enriquecimento semântico.
Ingestão (Raw)
Coleta multi-modal (PDFs, Logs, Áudio, SQL) sem estruturação.
Sanitização
Remoção de PII, correção de encoding UTF-8, filtragem regex.
Deduplicação
MinHash LSH para identificar duplicatas semânticas próximas.
SFT Ready
Formatação JSONL/Parquet pronta para treinamento (ChatML).
Técnicas Avançadas
Synthetic Data Generation
Quando os dados reais são escassos, utilizamos Teacher Models (ex: GPT-4) para gerar instâncias sintéticas de alta qualidade, seguidas de filtragem rigorosa para garantir a consistência factual.
from sdg import evol_instruct
PII Redaction (Presidio)
Detectores de Entidade Nomeada (NER) customizados para identificar e ofuscar CPF, CNPJ, endereços e nomes próprios, garantindo conformidade com LGPD antes de qualquer byte ser processado.
analyzer.analyze(text, entities=["CPF"])