.Sobre o dstgroup O dstgroup é uma das maiores empresas de construção em Portugal, operando na interseção entre construção, engenharia e transformação digital.
Com uma equipa de mais de ***** trabalhadores a gerar diariamente grandes volumes de dados, a nossa missão é construir bases de dados sólidas que permitam às equipas de IA e NLP trabalhar de forma avançada.
Estamos à procura de um(a) Engenheiro(a) de Dados para conceber e manter pipelines de dados escaláveis e de elevada qualidade, tornando-os acessíveis, estruturados e prontos para treino e avaliação de modelos.
O teu trabalho permitirá que à equipa de IA/NLP o acesso a dados de qualidade que permitam o desenvolvimento de modelos estado da arte.
O que irás fazer Conceber, desenvolver e manter pipelines ETL/CRISP-DM para processar diversos fluxos de dados em conjuntos estruturados e fiáveis.
Construir e otimizar soluções baseadas em SQL, com foco no ecossistema PostgreSQL, incluindo: o pgvector para armazenamento e recuperação de embeddings, o PostGIS para análise geoespacial, o TimescaleDB para dados de séries temporais.
Implementar e gerir APIs REST para disponibilizar produtos de dados a consumidores downstream.
Garantir qualidade, governação e reprodutibilidade dos dados, com especial atenção a coleções textuais/NLP.
Desenvolver e manter soluções conteinerizadas com Docker, assegurando a escalabilidade.
Utilizar Git e pipelines GitLab CI/CD para automatizar testes, integração e deployment de workflows de dados.
Colaborar com as equipas de IA/NLP para compreender os requisitos de dados e fornecer conjuntos otimizados para treino, avaliação e deployment de modelos.
Integrar ferramentas open-source com serviços cloud da Azure para armazenamento, orquestração e monitorização.
O que procuramos Mais de 2 anos de experiência profissional como Engenheiro(a) de Dados ou função semelhante.
Forte proficiência em SQL e bases de dados relacionais (particularmente PostgreSQL).
Experiência prática com pgvector, PostGIS ou TimescaleDB.
Experiência no design de APIs REST.
Excelentes competências de programação em Python, idealmente com PySpark.
Domínio de Docker em ambientes de desenvolvimento e produção.
Experiência com Git e GitLab CI/CD.
Familiaridade com Airflow e serviços cloud Azure.
Experiência anterior em colaboração com equipas de IA/ML, especialmente na preparação de datasets NLP.
Boa capacidade de comunicação em inglês e facilidade em trabalhar em equipas multidisciplinares.
Valorizamos (não obrigatório): Doutoramento em Ciência de Computadores, Inteligência Artificial ou área relacionada.
Experiência tanto na academia como na indústria.
Histórico sólido de investigação científica e trabalhos em recuperação de informação, representação e raciocínio de conhecimento, extração de conhecimento estruturado ou análise de dados em larga escala