Semana 02 - Dados ganham forma, e o SDL começa a tomar corpo

Scripts validados, dataset estruturado, site em construção e início da organização dos dados para gerar o primeiro relatório do Small Data Lab.

A segunda semana, de 09 a 13 de junho, marcou uma virada importante.

As ideias começaram, definitivamente, a sair do papel e ganhar forma — tanto na parte técnica quanto na consolidação do Small Data Lab como projeto.

O foco central foi o desenvolvimento e a validação dos scripts do projeto Job Data Insight.

Depois de testar o pipeline individual na primeira semana, avancei para o processamento em lote.

A estrutura funciona da seguinte forma:
A partir de uma coleta manual dos links das vagas no LinkedIn,
O script acessa cada página, captura o HTML,
Filtra as informações
E entrega os dados em um formato limpo e estruturado.

Foi a partir dessa base que o agente de NLP — desenvolvido na primeira semana e operando via API de modelo de linguagem (GPT) — entrou em ação, transformando as descrições textuais das vagas em dados organizados.

→ Esse agente, já validado e ajustado, é capaz de extrair:

  • Hard skills

  • Soft skills

  • Idiomas

  • Requisitos

  • E sinais de senioridade

Com isso, o que antes era um texto livre, cheio de ruído, se transforma em uma base estruturada, organizada e pronta para análise.

Ao longo do processo, surgiram desafios importantes, como a detecção de vagas duplicadas ou versões diferentes da mesma vaga.

Isso exigiu uma curadoria criteriosa, priorizando sempre a vaga com maior riqueza de informações.

Essa etapa refinou o dataset para 75 vagas únicas, garantindo uma base robusta, consistente e coerente para a análise.

Ao final da coleta, organizei o CSV inicial, que serviria como base provisória para os próximos passos da curadoria, análise e tratamento dos dados.

Paralelamente, iniciei os testes práticos para construção do site, utilizando inicialmente o Jekyll.

A proposta fazia sentido do ponto de vista técnico:
Uma solução estática, leve e altamente customizável.

No entanto, conforme avançava na configuração dos templates e na adaptação visual, ficou claro que essa abordagem, embora elegante, teria uma curva de desenvolvimento mais longa do que eu estava disposto a aceitar neste momento da transição.

Esse incômodo acendeu um alerta:
Era preciso buscar uma alternativa mais rápida, eficiente e que entregasse o equilíbrio ideal entre estética e funcionalidade.

Ao final da semana, com os dados organizados e o primeiro dataset pronto, defini as prioridades para a terceira semana:
Buscar uma solução mais refinada para o site.
E iniciar, de fato, a análise dos dados que darão origem ao primeiro relatório oficial do SDL — o Data Job Signals.

⬅️ Semana 01 | Semana 02 (você está aqui) | Semana 03 ➡️