La Prestation s?effectuera au sein de l?équipe « IS Data Factory » d?une vingtaine de personnes composée de :
Data Engineer, travaillant majoritaire à l?alimentation du Datawarehouse d?entreprise
Data Architect travaillant sur les évolutions de la gestion des données au sein de l?entreprise.
Les données sont principalement gérées au sein
- D?un datawarehouse d?entreprise organisé autour de plusieurs instances de base de données ORACLE
- D?un Datalake s?appuyant sur l?offre cloudera on premise
L?équipe est en charge des évolutions, du support et de la maintenance du datawarehouse.
Dans ce contexte, la prestation consiste à intervenir sur le POC (Proof of concept) en étroite collaboration avec l?administrateur du Data Lakehouse et à mettre en ?uvre et valider l?infrastructure de plateforme de données.
Dans ce cadre, le Prestataire contribuera et aura la responsabilité de :
? POC Developpement :
o Conception et développement du POC pour notre Data Lakehouse ouvert en utilisant les dernières technologies (Cloudera, NoSQL, NiFi, Apache Iceberg, DBT, Superset, etc.) pour répondre aux exigences de l?entreprise,
? L?intégration des données :
o Mise en ?uvre des pipelines d?ingestion et d?intégration de données à partir de diverses sources tout en s?assurant la qualité et la cohérence des données.
? Du processus ETL/ELT:
o Développement et optimisation des processus ETL/ELT pour soutenir les besoins de data warehousing et d?analyse.
? L?optimisation de la performance:
o Analyse et optimisation de la performance des flux de données et des requêtes.
? La collaboration :
o Travail en étroite collaboration avec l?administrateur du Data Lakehouse pour assurer l?intégration et la fonctionnalité de l?infrastructure du Data Lakehouse.
? La documentation :
o Création et maintenance de documents techniques sur les pipelines de données,
o l?architecture
o les flux de travail.
? L?innovation:
o Rester à jour avec les technologies émergentes et les meilleures pratiques pour améliorer continuellement la plateforme de données.
Profil candidat:
1.1. Compétences requises
? Environnement anglophone qui nécessite la maitrise de l?anglais à l?oral et à l?écrit
? Expérience prouvée en ingénierie des données, avec un focus sur la conception et la construction de pipelines de données,
? Expertise solide avec les outils et processus ETL/ELT,
? Maîtrise des technologies big data telles que Hadoop, Spark et Hive,
? Compréhension des architectures Data Lakehouse ouvertes, spécifiquement Apache Iceberg ou Delta Lake.
? Compétences de programmation avec la maîtrise des langages de programmation tels que Python, SQL et Java/Scala.
? Outils d?intégration de données avec expérience des outils d?intégration de données comme Apache NiFi, ou Kafka
? Modélisation des données avec une compréhension solide des modélisations et de l?entreposage des données.
? Optimisation de la performance avec l?expérience en optimisation et en amélioration de la performance des pipelines de données et des requêtes.
? Excellentes compétences de collaboration pour travailler efficacement avec des équipes croisées, y compris des ingénieurs de données, des scientifiques des données et des administrateurs système.
Go to job list