Nguyễn Đắc An
097******* *********@*****.*** Nam QUẬN HÀ ĐÔNG, THÀNH PHỐ HÀ NỘI
MỤC TIÊU NGHỀ NGHIỆP
Mong muốn phát triển tại vị trí Data Engineer. Có cơ hội phát triển kỹ năng xây dựng nền tảng và phân tích dữ liệu, hoàn thiện tư duy dữ liệu và được học hỏi trong môi trường làm việc hiệu quả, chuyên nghiệp. KỸ NĂNG
• Ngôn ngữ lập trình: Python, SQL, Java
• Công cụ và công nghệ: Hadoop, Spark, Kafka, Airflow, Superset
• Cơ sở dữ liệu: MySQL, MongoDB, Postgresql
• Hệ điều hành: Linux, Windows
• Kỹ năng mềm: Làm việc nhóm, giải quyết vấn đề, quản lý thời gian, thuyết trình HỌC VẤN
Học viện Công nghệ Bưu chính Viễn thông 2020 - 2025( Dự kiến) Chuyên ngành: Hệ thống Internet of Thing
Được đào tạo các môn như hệ điều hành, cơ sở dữ liệu, cấu trúc dữ liệu giải thuật, lưu trữ và phân tích dữ liệu… KINH NGHIỆM LÀM VIỆC
Công ty Cổ phần Chứng khoán MB (MBS) 7/2024 - 3/2025 Thực tập sinh Data Engineer
Nghiên cứu triển khai hệ thống Data Lake trên môi trường UAT:
- Cài đặt, sử dụng cụm Hadoop-hdfs để lưu trữ dữ liệu dưới định dạng của Iceberg.
- Sử dụng Spark(kết hợp Jupyter) và cụm Trino để xử lý dữ liệu cũng như đẩy dữ liệu vào Iceberg.
- Cài đặt, sử dụng Hive-metastore( lưu trữ trên Postgres) để quản lý metadata cho Iceberg.
- Cài đặt, sử dụng Ranger để quản lý bảo mật các phân vùng có thể truy cập, sử dụng Ambari để quản lý.
- Cài đặt, sử dụng Superset cho việc truy vấn, tạo các báo cáo. Công ty Kinh doanh Thương mại Lục Thủy 04/2025 - 05/2025 Tập sự Data Engineer
Xây dựng Pipeline nhằm phân tích nhu cầu khách hàng vật liệu xây dựng:
- Sử dụng Apache Spark để xây dựng ETL Pipeline. Đọc dữ liệu từ các file csv chứa thông tin đơn hàng và khách hàng sau đó chuẩn hóa dữ liệu theo các cột thay đổi kiểu dữ liệu phù hợp và nạp dữ liệu Postgresql.
- Tổng hợp dữ liệu lại theo từng khách hàng và từng tháng sau đó phân vùng lại các bảng mới theo khách hàng và khu vực. DỰ ÁN CÁ NHÂN
• Dự Án: Mô phỏng hệ thống
truyền dữ liệu trực tuyến
Nhận dữ liệu từ một API bên ngoài, dữ liệu này có chứa các thông tin từ cảm biến, dữ liệu thời tiết. Dữ liệu sau khi được nhận sẽ được xử lý bằng các tập lệnh đã được lên lịch trước đó bằng cách sử dụng Apache Airflow. Khi dữ liệu đã được xử lý, nó sẽ được gửi tới Apache Kafka. Dữ liệu từ Kafka sau đó sẽ được sử dụng và xử lý bằng Apache Spark. Sau khi dữ liệu đã được xử lý và phân tích bằng Spark, kết quả có thể được ghi vào Apache Cassandra hoạc một hệ thống quản lý cơ sở dữ liệu phân tán bất kỳ.
• Dự Án: Phân tích, dự báo chất
lượng không khí ở các thành
phố Hà Nội, Hồ Chí Minh, Đà
Nẵng từ năm 2014 - 4/2024
Dữ liệu được lấy trong kho dữ liệu công khai của Kaggle. Sau khi lấy dữ liệu về, dữ liệu được tiền xử lý( thay thế null, chuyển đổi kiểu dữ liệu của dữ liệu raw,..) và trược quan hóa, đánh nhãn sau đó được đưa vào các model học máy như Random Forest, Support Vector Machine (SVM). Dự án sử dụng các thư viện như Pandas,NumPy, Seaborn, Matplotlib, Scikit-learn
© topcv.vn