Sobre o dstgroup
O dstgroup é uma das maiores empresas de construção em Portugal, operando na interseção entre construção, engenharia e transformação digital. Com uma equipa de mais de 3.000 trabalhadores a gerar diariamente grandes volumes de dados, a nossa missão é construir bases de dados sólidas que permitam às equipas de IA e NLP trabalhar de forma avançada.
Estamos à procura de um(a) Engenheiro(a) de Dados para conceber e manter pipelines de dados escaláveis e de elevada qualidade, tornando-os acessíveis, estruturados e prontos para treino e avaliação de modelos. O teu trabalho permitirá que à equipa de IA/NLP o acesso a dados de qualidade que permitam o desenvolvimento de modelos estado da arte.
O que irás fazer
* Conceber, desenvolver e manter pipelines ETL/CRISP-DM para processar diversos fluxos de dados em conjuntos estruturados e fiáveis.
* Construir e otimizar soluções baseadas em SQL, com foco no ecossistema PostgreSQL, incluindo:
o pgvector para armazenamento e recuperação de embeddings,
o PostGIS para análise geoespacial,
o TimescaleDB para dados de séries temporais.
* Implementar e gerir APIs REST para disponibilizar produtos de dados a consumidores downstream.
* Garantir qualidade, governação e reprodutibilidade dos dados, com especial atenção a coleções textuais/NLP.
* Desenvolver e manter soluções conteinerizadas com Docker, assegurando a escalabilidade.
* Utilizar Git e pipelines GitLab CI/CD para automatizar testes, integração e deployment de workflows de dados.
* Colaborar com as equipas de IA/NLP para compreender os requisitos de dados e fornecer conjuntos otimizados para treino, avaliação e deployment de modelos.
* Integrar ferramentas open-source com serviços cloud da Azure para armazenamento, orquestração e monitorização.
O que procuramos
* Mais de 2 anos de experiência profissional como Engenheiro(a) de Dados ou função semelhante.
* Forte proficiência em SQL e bases de dados relacionais (particularmente PostgreSQL).
* Experiência prática com pgvector, PostGIS ou TimescaleDB.
* Experiência no design de APIs REST.
* Excelentes competências de programação em Python, idealmente com PySpark.
* Domínio de Docker em ambientes de desenvolvimento e produção.
* Experiência com Git e GitLab CI/CD.
* Familiaridade com Airflow e serviços cloud Azure.
* Experiência anterior em colaboração com equipas de IA/ML, especialmente na preparação de datasets NLP.
* Boa capacidade de comunicação em inglês e facilidade em trabalhar em equipas multidisciplinares.
Valorizamos (não obrigatório):
* Doutoramento em Ciência de Computadores, Inteligência Artificial ou área relacionada.
* Experiência tanto na academia como na indústria.
* Histórico sólido de investigação científica e trabalhos em recuperação de informação, representação e raciocínio de conhecimento, extração de conhecimento estruturado ou análise de dados em larga escala.
* Disponibilidade para orientar elementos mais novos e coorientar teses de Mestrado em colaboração com a Universidade do Minho e/ou a Universidade do Porto.
O que oferecemos
* A oportunidade de construir as políticas de dados de uma das maiores empresas de construção em Portugal.
* Trabalho direto na interseção entre engenharia de dados, IA e NLP, com impacto imediato no negócio.
* Modelo de trabalho híbrido e flexível.
* Salário competitivo e pacote de benefícios.
* Um ambiente colaborativo e inovador, orientado para a tomada de decisão baseada em dados.