
🚨 Code Against Fraud
Pipeline de detecção de fraudes aplicado a dados financeiros.
🔗 Sobre o Projeto
O Code Against Fraud é um projeto aplicado de Ciência de Dados, desenvolvido como parte do Small Data Lab. Ele simula o ciclo completo de construção de uma solução antifraude — da análise exploratória inicial ao deploy de modelos preditivos.
O projeto abrange engenharia de dados, machine learning supervisionado e boas práticas de MLOps, com foco em modularidade, reprodutibilidade e clareza técnica.
Foi idealizado para:
Demonstrar competências analíticas, técnicas e operacionais
Simular desafios reais como dados desbalanceados, engenharia de atributos, e avaliação com métricas de negócio
Servir como base para evolução futura com automações, APIs e monitoramento de modelos
🎯 Objetivo Geral
Construir um pipeline funcional de detecção de fraudes em dados financeiros, cobrindo:
→ Engenharia de dados
→ Modelagem supervisionada
→ Validação com métricas técnicas e de negócio
→ Deploy modular e escalável via API
🏗️ Estrutura Técnica do Projeto
A estrutura está organizada em cinco etapas principais:
Exploração Inicial do Dataset
Análise preliminar do contexto, variáveis e distribuição de classes.Análise Exploratória (EDA)
Investigação visual e estatística das variáveis e seus impactos no comportamento fraudulento.Engenharia de Atributos e Pré-processamento
Criação de novas variáveis, tratamento de outliers, balanceamento e encoding.Modelagem Supervisionada
Implementação e avaliação de modelos como Árvores de Decisão, Random Forest e Regressão Logística.Validação e Deploy
Escolha do modelo com melhor desempenho e preparação do pipeline para disponibilização via API.
📍 Status Atual e Próximos Passos
O projeto está atualmente na etapa de Engenharia de Atributos e Pré-processamento.
🧩 Os próximos passos incluem:
→ Avaliação comparativa dos modelos implementados
→ Escolha do modelo ideal com base em métricas técnicas e de negócio
→ Deploy do pipeline como API funcional
Este bloco será atualizado conforme a evolução do projeto.
🛠️ Tecnologias e Ferramentas
Machine Learning: scikit-learn, imbalanced-learn
Manipulação e Análise: Pandas, NumPy
Visualização: Matplotlib, Seaborn
Deploy e Gestão: FastAPI (previsto), Git, GitHub, controle de versão e logs
🔍 Dataset
→ Fonte: Kaggle — Credit Card Fraud Detection
→ Descrição: Dataset com transações financeiras realizadas com cartões de crédito na Europa, rotuladas como legítimas ou fraudulentas.
Nota: Conjunto altamente desbalanceado e com variáveis anonimizadas via PCA.
🛑 Disclaimer
Este projeto é uma demonstração técnica, sem qualquer vínculo com instituições financeiras, empresas ou uso comercial.
Todos os dados utilizados são públicos, anonimizados e têm como finalidade o desenvolvimento de competências, aprendizado e demonstração de soluções aplicadas à detecção de fraudes.
🔗 Acesso ao Código no GitHub
Todo o pipeline, os scripts, os notebooks, os datasets tratados e a documentação técnica deste projeto estão disponíveis publicamente no GitHub.
Small Data Lab
Ciência de Dados em Movimento
© 2025 Small Data Lab - Todos os direitos reservados
Contato: contato@smalldatalab.com.br