-
Développer divers composants en Python pour notre infrastructure de pipeline de données unifiée.
-
Contribuer à l'établissement de bonnes pratiques pour une utilisation optimale et efficace d'Airflow, DBT et Snowflake.
-
Participer aux tests et au déploiement de notre infrastructure de pipeline de données à l'aide de frameworks de test standard et d'outils CI/CD.
-
Surveiller les performances des requêtes et des chargements de données et effectuer les ajustements nécessaires.
-
Fournir une assistance et des conseils pendant les phases d'assurance qualité et d'acceptation des utilisateurs afin de confirmer rapidement la validité des problèmes potentiels et d'en déterminer la cause profonde et la meilleure solution pour les problèmes vérifiés.
-
Licence en informatique, génie logiciel, technologies de l'information ou domaine connexe requise.
-
Au moins 7 ans d'expérience en développement de données et en solutions dans des environnements de données très complexes avec d'importants volumes de données.
-
Au moins 7 ans d'expérience en SQL/PLSQL avec la capacité à écrire des requêtes ad hoc et complexes pour l'analyse de données.
-
Au moins 5 ans d'expérience en développement de pipelines de données et de solutions d'entreposage de données avec Python et des bibliothèques telles que Pandas, NumPy, PySpark, etc.
-
Au moins 3 ans d'expérience en développement de solutions dans un environnement de données hybride (sur site et dans le cloud).
-
Au moins 3 ans d'expérience en développement de DAG Airflow pour orchestrer des pipelines de données utilisant la ramification, la génération dynamique de DAG/tâches et la gestion des erreurs. Expérience pratique du développement de pipelines de données pour les données structurées, semi-structurées et non structurées et expérience de l'intégration avec leurs magasins de support (par exemple, SGBDR, bases de données NoSQL, bases de données de documents, fichiers journaux, etc.)
-
Une expérience pratique avec Snowflake est indispensable.
-
Une expérience pratique avec Apache Spark est indispensable.
-
Une expérience pratique avec DBT est un atout.
-
Une expérience avec les requêtes SQL d'optimisation des performances, les tâches Spark et les procédures stockées est un atout.
-
Une compréhension des modèles de données E-R (conceptuels, logiques et physiques) est un atout.
-
Une compréhension des concepts avancés d'entrepôt de données (tables de faits sans faits, modèles temporels et bitemporels, etc.) est un atout.
-
De solides compétences analytiques, notamment une compréhension approfondie de l'interprétation des exigences métier des clients et de leur traduction en conceptions et solutions techniques.
-
De solides compétences en communication, tant à l'oral qu'à l'écrit. Capacité à collaborer efficacement avec divers groupes informatiques et métiers, dans différentes régions et différents rôles, et à interagir efficacement avec tous les niveaux.
-
Autonome. Capacité avérée à gérer plusieurs projets simultanés avec un minimum de supervision. Capacité à gérer une liste de priorités complexe en constante évolution et à résoudre les conflits entre priorités concurrentes.
-
Solides compétences en résolution de problèmes. Capacité à identifier les points à cibler et à clarifier les objectifs, les exigences et les priorités de l'entreprise.