Data Scientist Analysis

Location:

Posted:

December 05, 2024

Resume:

VIJAYALAKSHMI RAMESH

+1-312-***-**** ****.******@*****.*** https://www.linkedin.com/in/vijayalakshmi-ramesh/ https://github.com/Vijayalakshmi30 https://depaul.digication.com/vijayalakshmi-ramesh/home Python R Java SQL Tableau AWS

PROFESSIONAL EXPERIENCE

Data Scientist Intern, OpenBrand, CA, USA AWS QuickSight, AWS S3, AWS Athena, Tableau Sept 2023 – June 2024

• Achieved data-driven decision-making by developing multi-gigabyte databases and over 20 dashboards with AWS QuickSight, supporting key business insights.

• Enhanced data quality and business insights by detecting and addressing 30% more data anomalies through e-commerce data analysis using AWS S3 and Athena.

• Improved team capabilities by training 10+ data analysts and conducting over 15 demonstration sessions with AWS QuickSight, adapting to specific client needs.

• Facilitated a 50% faster platform transition by customizing dashboards and migrating data visualization from QlikView using AWS QuickSight. Data Science Consultant, Royal Engineers (Construction Company), Tamil Nadu, India Excel, Regression, Decision Tree June 2019 - Aug 2022

• Designed predictive models using linear regression, accurately estimating material requirements for projects, reducing resource wastage by 15%, and enhancing project planning efficiency.

• Built a time series forecasting model to predict cost fluctuations in materials and labor, enabling proactive budget planning that increased profit margins by 10% and improved client trust.

• Optimized project schedules with decision tree algorithms, reducing project completion times by 20%, which helped the company meet deadlines and secure additional contracts.

• Analyzed supplier quotations using Excel, lowering procurement costs by 12% (approximately 10,00,000 INR annually) and contributing to competitive pricing that helped close multiple client deals.

RESEARCH EXPERIENCE

Comparing Domestic Violence cases before and during Covid-19 Python, NLP, Clustering Feb 2023 – Sept 2023

• Improved the MTBI dataset quality by 25% through NLP techniques, including stop word removal and lemmatization, resulting in a cleaner and more structured dataset.

• Analyzed over 685 patient records using TF-IDF during exploratory data analysis (EDA), converting text into vectors to gain quantitative insights.

• Enhanced understanding of medical conditions by applying K-Means clustering to group 685 patients based on similarity, identifying distinct patterns in traumatic brain injury cases.

• Collaborated with a neuroscience team, leveraging text preprocessing to inform decisions on traumatic brain injury severity. PROJECTS

Big Data Processing with Hadoop and SQL Python, SQL, Hadoop, Amazon EC2, PuTTY Mar 2024

• Implemented a big data processing system using Hadoop on Amazon EC2, executing SQL-like operations for large-scale data analysis and transforming complex datasets at scale.

• Developed Python scripts to emulate SQL queries, including JOIN operations, using the MapReduce paradigm, enhancing data processing efficiency

• Utilized vi editor in a Linux environment to create and modify mapper and reducer scripts, and executed Hadoop Streaming jobs for effective data handling

• Managed remote EC2 instances using PuTTY, optimizing the performance and accessibility of big data processing tasks.

• Successfully performed complex data transformations and analyses typically done with SQL, but at scale using Hadoop Activity Detection Model Python, Machine Learning June 2023

• Developed an AI/ML model integrating IMU and GPS data to detect 12 gait activities across various contexts, aiming to improve the contextualization of gait monitoring for health assessment.

• Utilized multiple classifiers—Decision Tree, Random Forest, SVM, KNN, Gradient Boosting, and Multilayer Perceptron—to conduct multiclass classification for 10 subjects.

• Achieved a significant outcome with an accuracy of 91% using the Random Forest model and 96% using the Multilayer Perceptron, demonstrating the feasibility of using ML methods for accurate Gait Activity Detection. Movie Recommendation System Python, Machine Learning, Pandas, Numpy, SciPy, Scikit-learn June 2023

• Developed a movie recommendation system using collaborative filtering on the MovieLens dataset, processing over 100,000 ratings for 9,700+ movies.

• Implemented both user-based and item-based collaborative filtering algorithms, leveraging Pearson correlation and cosine similarity for accurate similarity calculations.

• Applied Singular Value Decomposition (SVD) for dimensionality reduction, reducing computational time by approximately 40% while maintaining over 95% recommendation accuracy.

• Designed and implemented 8 different recommendation approaches, combining various similarity metrics and estimation methods.

• Optimized the system to handle large-scale data, reducing processing time for 138 movies and 610 users from hours to minutes and evaluated performance using Mean Absolute Error (MAE), demonstrating the effectiveness of different recommendation strategies. TECHNICAL SKILLS

Certifications: SAS - Base Certified Specialist [SAS_certification_link] Programming & Databases: Python, R, SAS, MySQL, Hadoop Streaming (MapReduce, Hive, Pig) Algorithms & ML Techniques: Regression (Linear, Logistic), Classification (SVM, Random Forests, Naïve Bayes, KNN, Decision Trees), Clustering

(K-Means), CNN, NLP, Data Analysis (Pandas, Numpy, Scikit-Learn), Deep Learning (Tensorflow-Keras) Tools: Tableau, AWS QuickSight, Matlab, JIRA, SAP Datasphere, SAP Analytics Cloud, Alteryx, ArcGIS EDUCATION

DePaul University, Chicago, IL June 2024

Master of Science in Data Science

Relevant Courses: Deep Learning & Neural Networks, Advanced Machine Learning, Advanced Data Analysis, Python Programming, Data Analysis & Regression, Mining Big Data, Time Series Analysis & Forecasting, DataWarehousing, Database Processing

Contact this candidate