Đây là dữ liệu mẫu cần được xử lý Data.csv
Trước khi xử lý dữ liệu ta cần phải
sơ chế
nó trước.Xử lý phần dữ liệu bị thiếu
Ở đây, trong dữ liệu mẫu ô
B8
và C6
bị thiếu giá trị, trong quá trình sơ chế ta có thể loại bỏ 2 hàng này đi, nhưng như vậy có thể nguy hiểm vì nó có thể chứa các giá trị quan trọng. Có một cách khác là ta sẽ lấy giá trị trung bình trong cột để áp dụng vào các ô bị thiếu.
Code python
sử dụng thư viện pandas
:
|
|
Ở dòng 8, ta lấy
X
là mảng giá trị của tất cả các hàng và tất cả các cột trừ cột cuối (-1
). Ta có giá trị X
như sau:
|
|
Ở dòng 12, ta xác định các giá trị bị thiếu bằng
missing_values='NaN'
, và thay thế chúng bằng giá trị trung bình strategy='mean'
của cột axis=0
.
Ta sẽ áp dụng nó cho hai cột 1 và 2 của X (cột đầu tiên là 0):
X[:, 1:3]
(vì giá trị cột được xác định trong khoảng nên ta phải dùng 1:3
chứ không phải 1:2
)
Cuối cùng ta có
X
:
|
|
Các giá trị
nan
đã được thay thế bằng giá trị trung bình.