Artificial Intelligence For Learning The Basics
Dalam Machine Learning, ada model yang bisa membantu kita menemukan korelasi antara variabel independen dengan variabel dependennya. Model ini juga membantu anda memprediksi variabel dependen (prediksi/respon) dengan menggunakan data baru dari variabel independen (prediktor).
Model ini adalah model Multiple Linear Regression, Multiple Linear Regression adalah model dalam Machine Learning yang hampir sama dengan Simple Linear Regression, tetapi model ini memiliki variabel independen lebih dari satu.
Karena Multiple Linear Regression memiliki banyak variabel independen, menandakan bahwa model ini memiliki dimensi yang lebih tinggi dari Simple Linear Regression sehingga model ini tidak bisa digambarkan seperti plot yang dibuat untuk mencari garis optimal seperti model Simple Linear Regression.
Rumus Persamaan Multiple Linear Regression
Berikut ini adalah rumus untuk memprediksi data baru atau variabel dependen dari Multiple Linear Regression :
Y = b0 + b1X1 + b2X2 + b3X3 + ….. + bnXn
Keterangan :
Y : variabel dependen (respon/prediksi)
b0 : konstanta (titik awal)
b1 : koefisien 1 (kemiringan garis prediksi)
b2 : koefisien 2 (kemiringan garis prediksi)
b3 : koefisien 3 (kemiringan garis prediksi)
bn : koefisien ke n (kemiringan garis prediksi)
X1 : variabel independen 1 (prediktor)
X2 : variabel independen 2 (prediktor)
X3 : variabel independen 3 (prediktor)
Xn : variabel independen ke n (prediktor)
Berikut ini adalah rumus untuk memprediksi data baru atau variabel dependen dari Multiple Linear Regression ketika kita memiliki data kategorikal pada variabel independen :
Y = b0 + b1X1 + b2X2 + b3X3 + b4D1 + ….. + bnXn + bnDn
Penjelasan :
Ketika kita menemukan data kategorikal, kita harus merubah data kategorikal itu ke dalam data numerik dengan cara mengubahnya menjadi 1 0 1 0. Data baru tersebut disebut dengan variabel dummy, ini harus dilakukan karena untuk melatih model Machine Learning, Anda harus menggunakan data numerik.
Apabila tidak menggunakan data numerik, maka training dari model Machine Learning akan error. Pada rumus diatas, data kategorikal ditandai dengan bnDn, yang dimana b adalah koefisiennya dan D adalah variabel dummy dari data kategorikal yang telah diubah.
Setiap Anda mendapatkan variabel dummy seperti ini, Anda harus menghilangkan salah satu variabel dummynya, ini harus dilakukan karena variabel dummy tersebut menjadi data yang duplikat dengan variabel dummy lainya.
Apabila kita memasukkan semua variabel dummynya, maka model dari Multiple Linear Regression tidak bisa membedakan efek atau korelasi yang terjadi antara sesama variable independen dan juga dengan variabel dependennya, ini akan berpengaruh terhadap multicollinearity (variabel independen dan variabel dependen yang memiliki korelasi satu sama lain).
Kode Python Untuk Membuat Model Multiple Linear Regression
- Impor library yang dibutuhkan
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
- Impor dataset
dataset = pd.read_csv(’50_Startups.csv’)
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, -1].values
- Ubah kategorikal data
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
ct = ColumnTransformer(transformers = [(‘encoder’, OneHotEncoder(), [3])], remainder = ‘passthrough’)
- Memisahkan data antara training set dan test set
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)
- Melatih training set ke dalam model Multiple Linear Regression
from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(X_train, y_train)
- Memprediksi test set
y_pred = regressor.predict(X_test)
np.set_printoptions(precision = 2)
print(np.concatenate((y_pred.reshape(len(y_pred),1), y_test.reshape(len(y_test),1)),1))
Setelah Anda mengetahui rumus, metode, dan kode yang digunakan untuk membangun model Multiple Linear Regression, Anda bisa dengan mudah memahami apa maksud dan tujuan dari model Machine Learning ini.
Tujuannya yaitu memprediksi data variabel dependen berdasarkan variabel independen yang berjumlah lebih dari satu. Seperti contoh model yang kita buat diatas, yaitu untuk memprediksi profit (variabel dependen) dari suatu startup berdasarkan R&D spend, Administration, Marketing spend dan state (variable independen).
Kita sudah membahas metode yang digunakan untuk membuat suatu model Regression, tetapi kalau Anda lihat, metode itu tidak diimplementasikan di dalam kodingan diatas.
Dengan adanya fungsi train_test_split dalam modul model_selection, fungsi ini secara otomatis memilih metode yang cocok dan membantu Anda mendapatkan variabel independen (prediktor) yang sangat berkorelasi dengan variabel dependennya maupun dengan sesama variabel independennya.
Bagi anda yang ingin memberikan komentar pada website ini, silahkan tulis komentar anda dengan mengisi nama dan alamat email anda. Anda dapat membaca blog kami sebelumnya mengenai riset makroekonomi dan blog kami selanjutnya mengenai 6 hal yang harus Anda ketahui dalam analisa fundamental.
[…] Bagi anda yang ingin memberikan komentar pada website ini, silahkan tulis komentar anda dengan mengisi nama dan alamat email anda. Anda dapat membaca blog kami sebelumnya mengenai model Machine Learning yang digunakan untuk memprediksi gaji suatu karyawan dan blog kami selanjutnya mengenai model Machine Learning yang membantu Anda memilih startup yang menguntungkan. […]
[…] Multiple Linear Regression […]