
📊 Data Job Signals #01
Relatório de Vagas em Ciência de Dados no Brasil — Junho de 2025 Produto do projeto Job Data Insight | SDL
Jhonathan Domingues
🔗 Sobre este relatório
O Data Job Signals é um produto do projeto Job Data Insight, integrante do ecossistema do Small Data Lab.
Este relatório apresenta uma análise investigativa sobre o panorama das vagas para Cientista de Dados no Brasil, a partir de uma amostra de 75 vagas publicadas no LinkedIn, entre os dias 01 e 14 de junho de 2025.
O objetivo central é analisar padrões, tendências e possíveis distorções nas exigências técnicas, comportamentais e na comunicação dos níveis de senioridade nas descrições dessas vagas.
→ Este relatório não tem caráter definitivo.
→ O foco está na geração de reflexões, questionamentos e pistas sobre o funcionamento atual do mercado de dados no Brasil.
🧠 Metodologia e Regras Éticas
Amostra:
→ 75 vagas públicas para Cientista de Dados, publicadas no LinkedIn Brasil no período analisado.
Processamento dos dados:
→ Coleta manual dos links.
→ Captura dos HTMLs das descrições.
→ Processamento via agente GPT, responsável por transformar texto livre em dados estruturados:
Hard skills
Soft skills
Idiomas
Benefícios
Sinais de senioridade
Dados estruturados com:
→ Nível de experiência declarado
→ Nível estimado (calculado com base nas exigências técnicas e comportamentais)
→ Setor de atuação (normalizado manualmente)
→ Hard skills, soft skills, idiomas e benefícios
Avaliação de coerência:
→ Cada vaga foi classificada conforme a relação entre o nível declarado e o nível estimado:
✔️ Coerente: Nível declarado condizente com as exigências.
⚠️ Subdeclaração: A vaga exige mais do que comunica no nível declarado.
❗ Sobradeclaração: A vaga exige menos do que comunica no nível declarado.
❔ Não informado: A vaga não traz menção explícita ao nível.
Regra de anonimato:
→ As empresas foram anonimizadas com codinomes no formato {Subsetor}{UF}{Número}.
→ Exemplo: Fintech_SP_01, Startup_RJ_02, BancoDigital_MG_03.
✔️ Este procedimento garante uma análise ética, transparente e aberta, sem expor a identidade de nenhuma organização.
🏗️ Organização dos Dados
Durante o tratamento, foi aplicada uma padronização manual nas categorias de setor e subsetor, originalmente pouco estruturadas na fonte.
→ A categorização considera a natureza das atividades de cada empresa, resultando nos seguintes setores macro:
Tecnologia
Financeiro
Indústria
Educação
Saúde
Varejo
Serviços
📊 Análises e Resultados


Distribuição das Vagas por Setor Macro
A segmentação revela uma concentração expressiva de vagas nos setores de Tecnologia, Financeiro e Serviços.
→ Esse padrão reflete a dinâmica atual do mercado de dados no Brasil, onde esses segmentos mantêm a maior demanda por profissionais da área.


Distribuição dos Níveis — Declarado x Estimado
A análise comparativa entre os níveis declarados e os estimados com base nas exigências técnicas revela um descompasso claro.
→ A maior parte das vagas está rotulada como Pleno ou Sênior — tanto na declaração quanto na prática — embora muitas tragam requisitos alinhados claramente ao perfil Sênior (ou até superior).
→ Perfis Júnior ou Assistente são praticamente inexistentes, tanto na comunicação quanto nas exigências observadas.
👉 Este desalinhamento se consolida como um dos pilares centrais desta análise — um indicativo de que o mercado vem ajustando, silenciosamente, suas próprias definições de senioridade.


Avaliação de Coerência nas Vagas
O gráfico revela:
61% das vagas estão em ⚠️ subdeclaração — quando o nível declarado é inferior às exigências.
11% são ✔️ coerentes, com alinhamento entre o nível comunicado e o nível estimado.
11% apresentam ❗ sobradeclaração — sinalizando uma comunicação que indica um nível superior às exigências.
17% não informam explicitamente o nível de senioridade.
Este padrão — mesmo em uma amostra pontual — aparece com frequência suficiente para levantar questionamentos relevantes sobre como o mercado define e comunica senioridade.


Incoerências por Setor
→ Presente em todos os setores, mas se destaca com mais intensidade em Tecnologia e Financeiro.
→ Setores que mais oferecem vagas são também os que mais apresentam desalinhamento entre o nível declarado e as exigências.


Incoerências por Nível Declarado
→ Vagas rotuladas como Pleno/Sênior concentram o maior volume de subdeclarações.
→ O rótulo Pleno parece estar sendo usado como uma classificação genérica, escondendo demandas que, na prática, se aproximam mais de Sênior.
→ Perfis Júnior e Assistente são praticamente inexistentes, levantando dúvidas sobre as reais oportunidades para quem está no início da carreira.
🚩 Padrões Emergentes e Incoerências Recorrentes


Incoerências por Nível Estimado
→ O nível Sênior carrega, de fato, as maiores exigências técnicas — seja declarado formalmente ou não.
→ O mercado eleva a régua técnica, muitas vezes sem explicitar isso no título ou no anúncio.
🔥O Que Revela Esta Análises
→ O fenômeno da subdeclaração não é isolado.
→ É recorrente, robusto e estrutural.
O desalinhamento entre o que se comunica e o que se exige tecnicamente é um desafio real na comunicação das vagas e na definição dos critérios de senioridade no mercado de dados no Brasil.
→ Embora a análise trabalhe com uma amostra limitada, a consistência dos padrões observados sugere a necessidade de reflexões mais amplas — tanto por parte dos profissionais quanto das empresas que operam nesse mercado.


Frequência Geral das Hard Skills
→ O gráfico mostra uma base técnica robusta e consistente, liderada por Python, SQL, Machine Learning, Estatística e Pandas.
O que chama atenção:
→ A presença constante de tecnologias como Spark, Databricks, Azure e práticas de MLOps.
→ Stacks robustas, antes restritas a perfis de engenharia, agora aparecem frequentemente — inclusive em vagas que, em teoria, deveriam contemplar perfis de entrada.
🏗️ Análise de Empilhamento Técnico (Hard Skills)


Heatmap - Hard Skills vs Nível Declarado
→ Nas vagas Pleno/Sênior, a exigência técnica é coerente com perfis avançados.
→ No nível Júnior, Python, SQL, Machine Learning e R aparecem com força, mas dentro de um patamar aceitável.
→ No nível Assistente, há um ponto crítico:
Tecnologias como Spark, Azure, Databricks, além de Machine Learning e Estatística, aparecem com frequência — indicando que essas vagas estão, na prática, muito mais alinhadas a perfis de Pleno do que de entrada.
👉 Este cenário sugere que o nível Assistente vem sendo utilizado de forma equivocada no mercado de dados.
🧭 Discussões e Reflexões Críticas
→ Os padrões observados — subdeclaração dos níveis e empilhamento técnico — aparecem de forma consistente e recorrente.
→ Sim, é uma amostra limitada e um recorte pontual.
→ Ainda assim, a robustez dos padrões levanta questionamentos legítimos sobre como o mercado comunica senioridade e define critérios técnicos.
Hipóteses levantadas:
Pressão seletiva, frente à alta competitividade, onde empresas filtram profissionais mais experientes.
Processos de recrutamento pouco estruturados, com descrições desalinhadas da realidade prática.
Uma possível redefinição silenciosa dos próprios conceitos de senioridade no mercado.
Descompasso interno entre áreas técnicas e recrutamento.
Falhas humanas no preenchimento das descrições.
O caso das vagas Assistente é particularmente emblemático:
→ Essas vagas frequentemente apresentam exigências desproporcionais, reforçando a hipótese de uso equivocado do rótulo ou de uma mudança silenciosa nos critérios de senioridade.
📜 Conclusão Final
→ Este relatório não busca respostas definitivas.
→ O objetivo é fomentar uma reflexão crítica e madura sobre os critérios e padrões que norteiam as contratações na área de dados no Brasil.
Fica claro:
→ Existe uma pressão técnica crescente.
→ Existe desalinhamento na comunicação dos níveis hierárquicos.
→ Mas permanece a pergunta:
“Esses padrões refletem uma tendência estrutural do mercado ou são um recorte específico deste período e desta amostra?”
👉 As próximas edições do Data Job Signals buscarão responder essa pergunta — com amostras maiores, cruzamento de múltiplos cargos e análises temporais.
🔗 Notebook e Dados no GitHub
→ Acesse o notebook completo com os dados, scripts de análise e geração dos gráficos diretamente no GitHub:
→ 🔗 Acessar notebook no GitHub
🛑 Disclaimer
→ Este relatório é uma análise investigativa, independente e sem qualquer vínculo institucional.
→ Baseado em dados públicos, anonimizados e tratados de forma ética.
→ Seu objetivo é gerar inteligência de mercado sobre o setor de dados no Brasil, apoiar a tomada de decisão estratégica e demonstrar soluções técnicas aplicadas à Ciência de Dados.
🔥 Observação Final
O Data Job Signals — Edição 01 é o primeiro passo de uma investigação contínua sobre o mercado de dados no Brasil.
→ Não é um relatório definitivo.
→ Não representa a totalidade do mercado.
→ Mas oferece um recorte que, apesar de limitado, já revela padrões relevantes — que merecem atenção, acompanhamento e discussões abertas dentro da comunidade de dados.
Small Data Lab
Ciência de Dados em Movimento
© 2025 Small Data Lab - Todos os direitos reservados
Contato: contato@smalldatalab.com.br