Matematika adalah fondasi utama dalam data science. Tanpa pemahaman matematika yang kuat, sulit bagi seorang data scientist untuk memahami dan mengembangkan model yang efisien. Berikut ini adalah 25 definisi matematika paling penting dalam data science yang wajib diketahui.
1) Gradient Descent
Gradient Descent adalah algoritma optimasi yang digunakan untuk meminimalkan fungsi biaya dalam machine learning:
\theta_{j+1} = \theta_j - \alpha \nabla J(\theta_j)
2) Normal Distribution
Distribusi normal adalah distribusi probabilitas yang banyak digunakan dalam statistik dan machine learning:
f(x | \mu, \sigma^2) = \frac{1}{\sigma \sqrt{2\pi}} \exp \left( -\frac{(x - \mu)^2}{2\sigma^2} \right)
3) Z-score
Digunakan untuk mengukur seberapa jauh suatu nilai dari rata-rata dalam unit standar deviasi:
z = \frac{x - \mu}{\sigma}
4) Sigmoid Function
Fungsi aktivasi yang sering digunakan dalam logistic regression dan deep learning:
\sigma(x) = \frac{1}{1 + e^{-x}}
5) Correlation
Mengukur hubungan antara dua variabel:
\text{Correlation} = \frac{\text{Cov}(X, Y)}{\text{Std}(X) \cdot \text{Std}(Y)}
6) Cosine Similarity
Mengukur kesamaan antara dua vektor:
\text{similarity} = \frac{A \cdot B}{||A|| ||B||}
7) Naïve Bayes
Probabilitas bersyarat dalam model klasifikasi Naïve Bayes:
P(y|x_1, x_2, ..., x_n) = \frac{P(y) \prod_{i} P(x_i | y)}{P(x_1, x_2, ..., x_n)}
8) Maximum Likelihood Estimation (MLE)
Menentukan parameter terbaik untuk suatu distribusi probabilitas:
\arg\max_{\theta} \prod_{i} P(x_i | \theta)
9) Ordinary Least Squares (OLS)
Digunakan dalam regresi linear untuk estimasi parameter:
\beta = (X^T X)^{-1} X^T y
10) F1 Score
Metrik evaluasi model klasifikasi yang menggabungkan precision dan recall:
F1 = \frac{2 \cdot P \cdot R}{P + R}
11) ReLU (Rectified Linear Unit)
Fungsi aktivasi dalam deep learning:
\max(0, x)
12) Softmax Function
Fungsi aktivasi untuk klasifikasi multi-kelas:
\sigma(x)_j = \frac{e^{x_j}}{\sum_{k} e^{x_k}}
13) R2 Score (Coefficient of Determination)
Menilai seberapa baik model regresi menjelaskan variasi dalam data:
R^2 = 1 - \frac{\sum (y_i - \hat{y}_i)^2}{\sum (y_i - \bar{y})^2}
14) Mean Squared Error (MSE)
Mengukur kesalahan model prediksi:
MSE = \frac{1}{n} \sum_{i} (y_i - \hat{y}_i)^2
15) MSE + L2 Regularization
Digunakan dalam regresi ridge untuk mengurangi overfitting:
MSE_{\text{Regularized}} = \frac{1}{n} \sum_{i} (y_i - \hat{y}_i)^2 + \lambda \sum_{j} \theta_j^2
16) Eigenvectors and Eigenvalues
Dalam analisis PCA (Principal Component Analysis):
Av = \lambda v
17) Entropy
Digunakan dalam teori informasi dan decision trees:
\text{Entropy} = - \sum p_i \log_2(p_i)
18) K-Means Clustering
Menentukan pusat klaster dalam K-Means:
\arg\min_{c} \sum_{i} ||x_i - c||^2
19) Kullback-Leibler (KL) Divergence
Mengukur perbedaan antara dua distribusi probabilitas:
D_{KL}(P||Q) = \sum P(x) \log \frac{P(x)}{Q(x)}
20) Log Loss
Digunakan dalam klasifikasi biner untuk mengukur kesalahan:
- \frac{1}{N} \sum_{i} \left[ y_i \log (\hat{y}_i) + (1 - y_i) \log (1 - \hat{y}_i) \right]
21) Support Vector Machine (SVM)
Mencari hyperplane terbaik untuk pemisahan kelas:
\min_{w, b} \frac{1}{2} ||w||^2 + C \sum \max(0, 1 - y_i (w^T x_i + b))
22) Linear Regression
Persamaan model regresi linear:
y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \beta_n x_n
23) Singular Value Decomposition (SVD)
Menguraikan matriks menjadi tiga komponen:
A = U \Sigma V^T
24) Lagrange Multiplier
Digunakan untuk optimasi dengan constraint:
\mathcal{L} (x, \lambda) = f(x) - \lambda g(x)
25) Apa yang Anda Tambahkan?
Daftar ini sudah mencakup konsep-konsep matematika penting dalam data science, tetapi masih ada banyak lainnya seperti Fourier Transform, PCA, atau Hinge Loss yang juga relevan.
Kesimpulan
Matematika adalah kunci untuk memahami algoritma dalam data science. Memahami 25 konsep di atas akan membantu Anda dalam membangun model yang lebih akurat dan efisien.
Apakah Anda memiliki konsep lain yang ingin ditambahkan ke dalam daftar ini? Bagikan pendapat Anda di komentar!