Hichem CHEBIHI
Expertise
* *** *’expérience en Big Data
Databricks et Azure
* *** *’expérience en développement
et transfert de connaissances
Majeure Ingestion/ETL/Orchestration
(Databricks, NiFi, Kafka/RabbitMQ,
Spark, Airflow, SSIS, Talend)
Mineure Visualization/Data Science
(Grafana, Superset, Kibana, Spark-ML)
Langages : Java/Scala/Python
Test : Junit/scalatest,
mockito,cucumber
DevOps : Docker, kubernetes,
Openshift
Cloud Microsoft Azure : AD,
BlobStorage, SQLServer, hdinsight,
DataFactory, DataLake
Cloud AWS : EC2, s3, redshift
Architecture : MVC, SOA, microservices
Méthodologies : SCRUM, KANBAN,
BDD, TDD, DevOps
Formation
Maîtrise en Génie Informatique,
spécialisation Big Data (France, 2018)
Maîtrise en Génie Logiciel (Algérie,
2013)
Baccalauréat en Informatique (Algérie,
2011)
Perfectionnement
Databricks – ADB Core Technical
Training
Linux Academy – DP 100 – Azure AI
Solution Requirements, Components
& Services
Résumé de carrière
Hichem débute sa carrière en 2013 en tant que Développeur Web/BI chez ARPEC, l’autorité algérienne qui régule les opérateurs de télécommunication. Il conçoit et développe une application web pour recueillir les données métiers des opérateurs. Il conçoit et développe un Système Décisionnel en utilisant la stack Microsoft BI (SSIS, SSAS et SSRS) pour croiser les informations déclarées avec les données calculées par l’autorité.
Il rejoint ensuite Universal Transit, une société algérienne de services douaniers et logistiques, en tant que développeur web Systèmes d’Informations. Il conçoit et développe les différentes briques métiers : shipping, gestion des dépenses et de la trésorerie, logistique et transport. Il intègre les solutions propriétaires ERP RH, Comptabilité, Recouvrement, SIG et Gestion de la flotte. En 2015, il rejoint SONELGAZ, un groupe d’énergie algérien, en tant que Développeur Java/BI. Il intègre ainsi une équipe d’une quinzaine de développeurs pour refondre l’ERP et répondre aux besoins logiciels des différentes filiales du groupe. Il développe un Tableau de Bord propriétaire et automatise son alimentation en données avec des ETL Talend. En s’appuyant sur son expertise Java, il conçoit et développe les processus métiers modélisés à l’aide de la norme BPMN. En 2017, il décide de s’orienter plus spécifiquement dans la gestion de données, le Big Data, l’IOT et le Machine Learning. Il reprend donc ses études et fait une Maîtrise en Big Data à l’Université de Grenoble, en France. Dans ce cadre, il effectue un mandat chez Orange, un grand groupe de télécommunication français, en tant que développeur microservices Java, pour concevoir et développer un outil IoT sur Openshift PaaS.
Une fois diplômé de sa Maîtrise en Big Data, il rejoint EXTIA, une société française de Services Numériques, en tant que Consultant Big Data. Il effectue un premier mandat au sein du groupe audiovisuel M6 où il intègre une équipe agile. Il collecte les événements d’utilisation de la plateforme Replay depuis AWS Kinesis. Il nettoie, prépare, et transfert les données vers le datalake Cloudera pour développer le moteur de recommandations en utilisant Airflow, Spark, et Hive, et supervise avec Superset et Grafana.
Lors de son deuxième mandat, chez EDF, un grand groupe d’énergie français, il développe l’application de Data Viz des incidents sur les centrales nucléaires, en utilisant HBase, ElasticSearch, Spring Boot, Spring Data et Angular. Il participe à la maintenance applicative et à l’évolution d’une plateforme de collecte de logs en utilisant Jenkins, Ansible, Vault, ElasticSearch, Logstash, Java, Filebeat, Kafka et Grafana. Il collabore avec les Data Scientists pour industrialiser un modèle de détection d’anomalies et de prédiction des crises en temps réel. Il conçoit et développe l’ensemble des éléments de la solution : de l’ingestion (Kafka et NiFi) à la visualisation, avec Grafana, en passant par les traitements (Spark Streaming) et l’entraînement des modèles ML (Spark-ML).
Conseiller Senior Big Data
2
Linux Academy – DP 200 et 201 –
Azure Designing and implementing an
Azure Data Solution
IBM – Certifications Big Data
Foundations et Hadoop Foundations
En 2019, il rejoint Eastern Canada Consulting en tant que Consultant Senior Big Data. Il travaille chez Energir (ex-Gaz Metro) à Montréal. Il ingère des données variées (csv, json, zip, etc.) de l’entreprise (SAP, Salesforce, météo, marché financiers) en utilisant Apache NiFi et RabbitMQ, dans un datalake Microsoft Blob Storage. Il transforme et nettoie ces données sur trois niveaux de données (modèle DeltaLake) en utilisant les pipelines Spark Databricks en scala. Il met en place des stratégies devops pour la gestion de répos git (gitflow) des tests unitaires (TDD), de déploiement continu (jenkins) et de monitoring de la production. Il cherche :
Un mandat Big Data dans lequel il pourra supporter des équipes dans leur apprentissage, spécialement sur la stack Azure Data Engineering : Databricks, Azure Factory, Spark, ETL, orchestration, stockage.
Un rôle dans lequel il pourra continuer à analyser et valoriser les données avec des outils technologiques innovants, et continuer à développer ses compétences non techniques.
Un nouveau défi professionnel : un projet au cours duquel il pourra aider le client à relever des défis majeurs, en l’aidant à mieux comprendre ses données pour le pilotage de ses activités, mais aussi pour la prise de décision. En rapport avec un mandat de Consultant Big Data :
Il a une formation complète Databricks: ETL, Unified Data Analytics, ETL, Delta Lake, Spark SQL, Streaming, MLFlow.
Il a une formation Azure Data Engineering.
Il a un BAC et deux Maîtrises en Informatique avec une spécialisation en Génie Logiciel et une spécialisation en Big Data, et environ 7 ans d’expérience en tant que développeur dont une partie en tant que Data Engineer.
Il a une passion pour la Data, le Cloud et l’IOT. Il connaît les principaux outils du Big Data : entre autres Kafka, NiFi, Spark, Hive, HBase, Kibana, ElasticSearch, MongoDB, Scala et Python.
Il est à l’aise en gestion Agile Scrum ou Kanban. Son évaluation :
Ses patrons diraient de lui qu’il est autonome, travailleur et rigoureux. Il est très bon techniquement et sa curiosité le pousse à sortir de sa zone de confort. Il va toujours chercher les meilleures pratiques en matière de développement.
Ses collaborateurs diraient de lui qu’il est discret, à l’écoute et toujours disponible pour donner un coup de main. On entend : « C’est un gars passionné, enthousiaste et un bon joueur d’équipe. » Conseiller Senior Big Data
3
Quelques réalisations de carrière
ENERGIR, MONTRÉAL, ÉQUIPE BI
Novembre 2019 –
avril 2020
Consultant Big Data (Data Engineer)
Mettre en place des flows d'ingestion NiFi de données entreprises SAP, Salesforce, Météo, marché financier, bus RabbitMQ... sur Azure blob storage
Développer les pipelines de transformation Scala et Spark sur Azure Databricks
Préparer des données pour l’équipe PowerBI sur Azure SQLServer
Écrire des scripts d’automatisation (gestion des jobs Databricks : définitions, cédule, etc.)
Promouvoir et mettre en place les bonnes pratiques de tests, monitoring, CI/CD en mettant en place des stratégies de test avec l’aide d’un QA
Environnement technologique : Apache NiFi, RabbitMQ, Azure (AD, Databricks, Airflow, SQLServer, PowerBI), scripts Python, Scala, Spark, Scalatest
EDF, GROUPE D’ÉNERGIE (FRANCE), DÉPARTEMENT DATA
Avril 2019 –
octobre 2019
Consultant Big Data (Data Engineer)
Refondre l’outil de Data Viz
Maintenir la plateforme de centralisation de logs et metrics
Définir l’architecture d’ingestion et de traitement des données en temps réel : Kafka, NiFi, Spark Streaming, Impala, Kudu, HBase
Environnement technologique : Spring, Hbase, HDFS, kerberos, ElasticSearch, Logstash, filebeat, Kafka, NiFi, Spark-Streaming, Spark-ML, Scala, Java, Grafana, bitbucket (gitflow), Jenkins, Ansible, Vault, docker, docker-compose
M6, GROUPE AUDIOVISUEL (FRANCE), DÉPARTEMENT BIG DATA Octobre 2018 –
mars 2019
Consultant Big Data (Data Engineer)
Collecter les données événementielles d’utilisation de la plateforme Replay (depuis AWS Kinesis) vers le datalake Cloudera
Manipuler et analyser un grand volume de données avec Spark/Airflow/Hive on Hue
Migrer les anciens jobs Spark depuis Java vers Scala
Superviser le traitement effectué sur le datalake avec des KPIs sur Grafana et Superset.
Contribuer aux discussions sur les sujets techniques et assurer la veille technologique du pôle d’expertise Big Data
Environnement technologique : Hive, Cloudera HDFS, Airflow, AWS kinesis, Spark, Scala, Java, Python, Grafana, Superset, Github entreprise, Jenkins, Ansible, docker, docker-compose ORANGE, GROUPE TÉLÉCOMMUNICATION (FRANCE), DÉPARTEMENT IOT SMART HOME DEVICE MANAGEMENT Avril 2018 –
septembre 2018
Développeur Java/Microservices (IOT)
Refondre l’architecture en microservices pour les enjeux du cloud
Développer et déployer sur PaaS Openshift en continu (CI/CD)
Environnement technologique : Java, Spring, CWMP, maven, gitlab, docker, kuberenetes, Jenkins, openshift PaaS, angular, TDD/BDD, DDD, clean architecture, clean code, SOLID, Design Patterns Conseiller Senior Big Data
4
SONELGAZ, GROUPE D’ÉNERGIE (ALGÉRIE), DIRECTION DES PROGICIELS DE GESTION INTÉGRÉE Mai 2015 –
août 2017
Développeur Java/BI
Développer le Tableau de Bord opérationnel interne à la filiale TI
Automatiser l’alimentation des KPIs du tableau de bord depuis les différents composants métiers de l’ERP avec des ETL Talend
Développer le Workflow des demandes administratives avec BPMN Camunda Environnement technologique : ETL Talend, Java, JavaEE, PostgreSQL, Camunda UNIVERSAL TRANSIT, IMPORT/EXPORT DE MARCHANDISES (ALGÉRIE), DÉPARTEMENT SI Mars 2015 –
septembre 2013
Développeur Web / SAGE
Concevoir et développer les différentes briques du Système d’Information
Intégrer les progiciels propriétaires : SAGE RH, Comptabilité et Recouvrement, SIG gestion flotte
Environnement technologique : PHP, JavaScript, SQLServer ARPEC, AUTORITÉ DE RÉGULATION DES OPÉRATEURS DE TÉLÉCOMMUNICATION (ALGÉRIE), DÉPARTEMENT SI Janvier 2013 –
juillet 2013
Développeur Web / Microsoft BI
Concevoir et développer une application web pour les opérateurs mobiles
Mettre en place un ETL pour les différentes sources de données (SQLServer, csv, fichiers plats)
Mettre en place un data warehouse et les différents data mart métiers
Mettre en place un système de reporting
Environnement technologique : C#, ASP.NET, SQLServer, MS BI: SSIS, SSAS, SSRS