Data Engineer

Location:

Plano, TX, 75026

Posted:

July 16, 2025

Contact this candidate

Resume:

Alex Chilaka

St. Louis, MO

+1-314-***-**** # ***************@*****.*** ï LinkedIn § Portfolio

Summary

Data Engineer with 2+ years of experience designing and implementing scalable ETL pipelines for clinical and genomic data processing. Proven expertise in natural language processing (NLP) for clinical text analysis, OMOP Common Data Model implementation, and AI/ML development for healthcare applications. Strong background in cloud platforms (Azure, AWS, GCP) with extensive experience in Python, SQL, R, and distributed computing using PySpark and Databricks. Skilled in processing large-scale clinical datasets, ensuring HIPAA compliance, and delivering precision medicine solutions that improve patient outcomes in transplant and healthcare domains. Technical Skills

Programming & Query Languages: Python (2+ years), SQL (2+ years), R (2+ years), Bash, Git, JavaScript, Scala, Java Cloud Platforms & Distributed Computing: Azure, AWS, GCP, Databricks (1+ years), PySpark, Apache Spark, EMR, EC2, S3

AI/ML & NLP Frameworks: PyTorch, TensorFlow, Scikit-learn, Natural Language Processing, Clinical NLP, Text Mining Clinical Data Standards: OMOP Common Data Model, Clinical Data Standardization, Real World Evidence, EMR Data Processing

Database Management: PostgreSQL, MySQL, MongoDB, DynamoDB, SQL Server, Oracle, Clinical Databases Data Engineering & ETL Tools: ETL/ELT Pipelines, Airflow, Data Modeling, Stream Processing, Data Quality Management

Healthcare & Genomics: Clinical Data Processing, Genomic Data Analysis, Molecular Datasets, Precision Medicine Data Architecture: Data Lakehouse, Delta Lake, Metadata Management, Data Normalization, Data Integration Compliance & Security: HIPAA Compliance, Healthcare Data Security, Data Governance, Quality Assurance Analytics & Visualization: Tableau, Power BI, Matplotlib, Statistical Analysis, Clinical Analytics, Bioinformatics Professional Experience

Clinical Data Engineer Aug 2022 – Jul 2023

Randstad Enterprise Remote, India

• Designed and implemented scalable ETL pipelines to process, normalize, and integrate structured and unstructured clinical data from diverse healthcare sources including EMR systems, lab reports, and physician notes

• Developed natural language processing (NLP) pipelines to extract and standardize clinical features from unstructured text using OMOP Common Data Model standards, improving data quality and clinical insights

• Built AI/ML models using PyTorch and Scikit-learn for clinical and genomic data analysis, supporting precision medicine initiatives and real-world evidence studies

• Utilized cloud platforms (AWS, Azure) and distributed computing tools including PySpark and Databricks to deploy scalable data solutions for large-scale clinical datasets

• Maintained data integrity, security, and HIPAA compliance while processing sensitive healthcare data, implementing comprehensive quality assurance workflows

• Collaborated with cross-functional teams including clinical researchers, data scientists, and product teams to deliver data-driven solutions that improve patient outcomes

• Automated clinical data processing workflows using Python, SQL, and Bash scripts, reducing manual processing time by 35% and improving data accessibility

Healthcare Data Analyst Dec 2023 – Jan 2024

Excelerate Remote, USA

• Developed comprehensive clinical data models using Databricks and Azure cloud platforms for scalable processing of genomic and molecular datasets

• Built analytical tools and algorithms for data mining and processing unstructured clinical datasets, implementing OMOP CDM standards for data standardization

• Conducted extensive data profiling and quality assurance workflows to ensure optimal clinical data delivery architecture and regulatory compliance

• Implemented machine learning pipelines for clinical text analysis and feature extraction from physician notes and lab reports using advanced NLP techniques

• Designed automated ETL processes for real-world evidence studies, supporting clinical research and precision medicine applications

• Enhanced system performance through systematic testing and validation processes, ensuring data reliability for clinical decision-making

Data Engineering Specialist Feb 2024 – Apr 2024

Botanical Heights Neighborhood Association Remote, USA

• Developed data-driven applications with focus on clinical data pipeline optimization and healthcare database architecture design using cloud services (AWS, Azure, GCP)

• Implemented advanced data transformation and integration solutions for clinical datasets using Python, R, and SQL to support precision medicine workflows

• Engineered scalable solutions using distributed computing frameworks including PySpark and Databricks following modern development workflows and best practices

• Enhanced system reliability through comprehensive testing, performance monitoring, and quality assurance procedures for both batch and real-time clinical data processing

• Collaborated with healthcare stakeholders to understand clinical requirements and translate them into technical solutions supporting patient care improvements

Key Projects

Clinical NLP Pipeline for EMR Data Processing Python, PyTorch, OMOP CDM, Azure, Databricks 2024

• Developed comprehensive NLP pipeline to extract and standardize clinical features from unstructured physician notes and lab reports using OMOP Common Data Model standards

• Implemented machine learning models using PyTorch and TensorFlow for clinical text analysis, achieving 85% accuracy in clinical entity recognition

• Built scalable ETL processes using Azure and Databricks to process large-scale clinical datasets while maintaining HIPAA compliance

• Created automated data quality validation frameworks for clinical data standardization and real-world evidence studies Genomic Data Analysis Platform PySpark, AWS, Scikit-learn, Clinical Databases 2024

• Designed and built scalable data pipelines for processing genomic and molecular datasets using PySpark and AWS cloud services

• Implemented AI/ML models for clinical and genomic data analysis supporting precision medicine initiatives and transplant patient outcomes

• Developed distributed computing solutions using Apache Spark and Databricks for large-scale clinical data processing and analysis

• Built comprehensive data integration workflows connecting diverse clinical data sources including EMR systems, lab databases, and genomic repositories

Real-World Evidence Analytics System R, SQL, Clinical Data Mining, Healthcare Analytics 2024

• Built end-to-end analytics platform for real-world evidence studies using clinical data from multiple healthcare sources

• Implemented advanced statistical analysis and data mining techniques using R and SQL for clinical outcomes research

• Developed automated reporting systems for clinical research teams, improving data accessibility and research efficiency

• Created data visualization dashboards using clinical analytics tools to support evidence-based decision making in healthcare

Education

Saint Louis University St. Louis, MO

Master of Science in Computer Science Aug 2023 – May 2025

• GPA: 3.8/4.0

• Relevant Coursework: Bioinformatics, Clinical Data Mining, Machine Learning, Healthcare Analytics, NLP for Clinical Text

Vasireddy Venkatadri Institute of Technology Andhra Pradesh, India Bachelor of Technology in Computer Science 2018 – 2022

• GPA: 7.75/10.0 (First Class with Distinction)

• Relevant Coursework: Data Structures, Database Systems, AI/ML, Biomedical Informatics, Statistical Analysis Certifications

Oracle AI Vector Search Certified Professional – May 2025 Salesforce Certified Agentforce Specialist – Apr 2025 Databricks - Data Engineering for Healthcare – Feb 2025 AWS Academy Graduate - Cloud Foundations – Oct 2021 HackerRank - Python & Machine Learning Certificates – Jun 2020

Contact this candidate