
Semana 02 - Dados ganham forma, e o SDL começa a tomar corpo
Scripts validados, dataset estruturado, site em construção e início da organização dos dados para gerar o primeiro relatório do Small Data Lab.
A segunda semana, de 09 a 13 de junho, marcou uma virada importante.
As ideias começaram, definitivamente, a sair do papel e ganhar forma — tanto na parte técnica quanto na consolidação do Small Data Lab como projeto.
O foco central foi o desenvolvimento e a validação dos scripts do projeto Job Data Insight.
Depois de testar o pipeline individual na primeira semana, avancei para o processamento em lote.
A estrutura funciona da seguinte forma:
→ A partir de uma coleta manual dos links das vagas no LinkedIn,
→ O script acessa cada página, captura o HTML,
→ Filtra as informações
→ E entrega os dados em um formato limpo e estruturado.
Foi a partir dessa base que o agente de NLP — desenvolvido na primeira semana e operando via API de modelo de linguagem (GPT) — entrou em ação, transformando as descrições textuais das vagas em dados organizados.
→ Esse agente, já validado e ajustado, é capaz de extrair:
Hard skills
Soft skills
Idiomas
Requisitos
E sinais de senioridade
→ Com isso, o que antes era um texto livre, cheio de ruído, se transforma em uma base estruturada, organizada e pronta para análise.
Ao longo do processo, surgiram desafios importantes, como a detecção de vagas duplicadas ou versões diferentes da mesma vaga.
Isso exigiu uma curadoria criteriosa, priorizando sempre a vaga com maior riqueza de informações.
Essa etapa refinou o dataset para 75 vagas únicas, garantindo uma base robusta, consistente e coerente para a análise.
Ao final da coleta, organizei o CSV inicial, que serviria como base provisória para os próximos passos da curadoria, análise e tratamento dos dados.
Paralelamente, iniciei os testes práticos para construção do site, utilizando inicialmente o Jekyll.
A proposta fazia sentido do ponto de vista técnico:
→ Uma solução estática, leve e altamente customizável.
No entanto, conforme avançava na configuração dos templates e na adaptação visual, ficou claro que essa abordagem, embora elegante, teria uma curva de desenvolvimento mais longa do que eu estava disposto a aceitar neste momento da transição.
→ Esse incômodo acendeu um alerta:
Era preciso buscar uma alternativa mais rápida, eficiente e que entregasse o equilíbrio ideal entre estética e funcionalidade.
Ao final da semana, com os dados organizados e o primeiro dataset pronto, defini as prioridades para a terceira semana:
→ Buscar uma solução mais refinada para o site.
→ E iniciar, de fato, a análise dos dados que darão origem ao primeiro relatório oficial do SDL — o Data Job Signals.
Small Data Lab
Ciência de Dados em Movimento
© 2025 Small Data Lab - Todos os direitos reservados
Contato: contato@smalldatalab.com.br