Khóa học “Introduction to data analysis with R”

Phân tích dữ liệu đang trở thành yêu cầu cấp thiết của tất cả bộ phận tại các doanh nghiệp trong vòng vài năm trở lại đây nhằm gia tăng lợi thế cạnh tranh trên thị trường và hỗ trợ đưa ra quyết định kinh doanh một cách kịp thời, chính xác. Với hàng triệu người sử dụng mỗi ngày, phần mềm R đang là một trong những công cụ phổ biến nhất được sử dụng để phân tích dữ iệu.

Khóa học này sẽ giúp học viên tìm hiểu cách thực hiện phân tích dữ liệu bằng các công cụ trong phần mềm R. Học viên sẽ nắm bắt được nguyên lý cũng như khả năng tổng hợp dữ liệu một cách linh hoạt, qua đó có thể khám phá dữ liệu và tạo ra những kết luận có giá trị từ dữ liệu thông qua phân tích.

Phần đầu của khóa học học viên sẽ được giới thiệu về các chức năng cơ bản của phần mềm R, học cách tự viết các chương trình để giải quyết các vấn đề cụ thể. Sau đó, học viên sẽ được tiếp cận với các công cụ được sử dụng để trực quan hóa, mô hình hóa, tổng quan hóa dữ liệu nhằm phục vụ cho mục đích lập báo cáo, phân tích hay dự báo.

Để tham gia khóa học này, học viên nên có hiểu biết cơ bản về lập trình. Học viên cần cài đặt phần mềm R version 3.6.0 trở lên. Học viên có thể sử dụng phần mềm R trên hệ điều hành Window hoặc Mac. Khóa học cơ bản này là nền tảng để học viên tham gia các khóa học “Financial modeling with R” hoặc “Statistical learning with R”

Sau khóa học này học viên sẽ có khả năng

  • Tự viết các thuật toán đơn giản trong R.
  • Hiểu cách sử dụng R như một công cụ phân tích và trực quan hóa dữ liệu.
  • Mô hình hóa dữ liệu bằng các công cụ có sẵn trên R.

Nội dung khóa học

 

Thời gian Nội dung Thời lượng
Buổi 1 Giới thiệu về R, điểm mạnh và điểm yếu của R.

Cách cài đặt và chạy các ứng dụng đơn giản trong R.

Tự viết các tính toán đơn giản trong R.

3,5 giờ
Buổi 2 Giói thiệu về các kiểu biến (variables) trong R.

Các hàm số cơ bản khi xử lý các biến trong R

Biến kiểu vector và xử lý vector

3,5 giờ
Buổi 3 Giới thiệu về các câu lệnh điêu kiện

Giới thiệu về các kiểu vòng lặp

Cách viết hàm số (function) trong R

3,5 giờ
Buổi 4 Giới thiệu về mô phỏng ngẫu nhiên trong R

Mô phỏng các bài toán thực tế

Giải một số ví dụ đơn giản bằng mô phỏng

3,5 giờ
 

Buổi 5

Giới thiệu về data frame trong R

Load dữ liệu từ các nguồn khác nhau vào R

Xử lý dữ liệu căn bản trong R bằng package “dplyr”

3,5 giờ
Buổi 6 Lọcc và sắp xếp dữ liệu trong R

Trực quan hóa dữ liệu (histogram, cdf, boxplot…)

Trực quan hóa dữ liệu trong R bằng package “ggplot2”

3,5 giờ
Buổi 7 Một số khái niệm cơ bản trong phân tích (mô hình hóa) dữ liệu

Mô hình hóa dữ liệu bằng hồi quy tuyến tính

Mô hình hóa dữ liệu bằng hồi quy logistic

3,5 giờ
Buổi 8 Mô hình hóa dữ liệu bằng mô hình dạng cây đơn

Mở rộng mô hình dạng cây để tăng hiệu quả mô hình

Một số phương pháp phi tham số

3,5 giờ

Link đăng ký khóa học Khoa học dữ liệu