25 Definisi Matematika Paling Penting dalam Data Science


Matematika adalah fondasi utama dalam data science. Tanpa pemahaman matematika yang kuat, sulit bagi seorang data scientist untuk memahami dan mengembangkan model yang efisien. Berikut ini adalah 25 definisi matematika paling penting dalam data science yang wajib diketahui.

1) Gradient Descent

Gradient Descent adalah algoritma optimasi yang digunakan untuk meminimalkan fungsi biaya dalam machine learning:

\theta_{j+1} = \theta_j - \alpha \nabla J(\theta_j)

2) Normal Distribution

Distribusi normal adalah distribusi probabilitas yang banyak digunakan dalam statistik dan machine learning:

f(x | \mu, \sigma^2) = \frac{1}{\sigma \sqrt{2\pi}} \exp \left( -\frac{(x - \mu)^2}{2\sigma^2} \right)

3) Z-score

Digunakan untuk mengukur seberapa jauh suatu nilai dari rata-rata dalam unit standar deviasi:

z = \frac{x - \mu}{\sigma}

4) Sigmoid Function

Fungsi aktivasi yang sering digunakan dalam logistic regression dan deep learning:

\sigma(x) = \frac{1}{1 + e^{-x}}

5) Correlation

Mengukur hubungan antara dua variabel:

\text{Correlation} = \frac{\text{Cov}(X, Y)}{\text{Std}(X) \cdot \text{Std}(Y)}

6) Cosine Similarity

Mengukur kesamaan antara dua vektor:

\text{similarity} = \frac{A \cdot B}{||A|| ||B||}

7) Naïve Bayes

Probabilitas bersyarat dalam model klasifikasi Naïve Bayes:

P(y|x_1, x_2, ..., x_n) = \frac{P(y) \prod_{i} P(x_i | y)}{P(x_1, x_2, ..., x_n)}

8) Maximum Likelihood Estimation (MLE)

Menentukan parameter terbaik untuk suatu distribusi probabilitas:

\arg\max_{\theta} \prod_{i} P(x_i | \theta)

9) Ordinary Least Squares (OLS)

Digunakan dalam regresi linear untuk estimasi parameter:

\beta = (X^T X)^{-1} X^T y

10) F1 Score

Metrik evaluasi model klasifikasi yang menggabungkan precision dan recall:

F1 = \frac{2 \cdot P \cdot R}{P + R}

11) ReLU (Rectified Linear Unit)

Fungsi aktivasi dalam deep learning:

\max(0, x)

12) Softmax Function

Fungsi aktivasi untuk klasifikasi multi-kelas:

\sigma(x)_j = \frac{e^{x_j}}{\sum_{k} e^{x_k}}

13) R2 Score (Coefficient of Determination)

Menilai seberapa baik model regresi menjelaskan variasi dalam data:

R^2 = 1 - \frac{\sum (y_i - \hat{y}_i)^2}{\sum (y_i - \bar{y})^2}

14) Mean Squared Error (MSE)

Mengukur kesalahan model prediksi:

MSE = \frac{1}{n} \sum_{i} (y_i - \hat{y}_i)^2

15) MSE + L2 Regularization

Digunakan dalam regresi ridge untuk mengurangi overfitting:

MSE_{\text{Regularized}} = \frac{1}{n} \sum_{i} (y_i - \hat{y}_i)^2 + \lambda \sum_{j} \theta_j^2

16) Eigenvectors and Eigenvalues

Dalam analisis PCA (Principal Component Analysis):

Av = \lambda v

17) Entropy

Digunakan dalam teori informasi dan decision trees:

\text{Entropy} = - \sum p_i \log_2(p_i)

18) K-Means Clustering

Menentukan pusat klaster dalam K-Means:

\arg\min_{c} \sum_{i} ||x_i - c||^2

19) Kullback-Leibler (KL) Divergence

Mengukur perbedaan antara dua distribusi probabilitas:

D_{KL}(P||Q) = \sum P(x) \log \frac{P(x)}{Q(x)}

20) Log Loss

Digunakan dalam klasifikasi biner untuk mengukur kesalahan:

- \frac{1}{N} \sum_{i} \left[ y_i \log (\hat{y}_i) + (1 - y_i) \log (1 - \hat{y}_i) \right]

21) Support Vector Machine (SVM)

Mencari hyperplane terbaik untuk pemisahan kelas:

\min_{w, b} \frac{1}{2} ||w||^2 + C \sum \max(0, 1 - y_i (w^T x_i + b))

22) Linear Regression

Persamaan model regresi linear:

y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \beta_n x_n

23) Singular Value Decomposition (SVD)

Menguraikan matriks menjadi tiga komponen:

A = U \Sigma V^T

24) Lagrange Multiplier

Digunakan untuk optimasi dengan constraint:

\mathcal{L} (x, \lambda) = f(x) - \lambda g(x)

25) Apa yang Anda Tambahkan?

Daftar ini sudah mencakup konsep-konsep matematika penting dalam data science, tetapi masih ada banyak lainnya seperti Fourier Transform, PCA, atau Hinge Loss yang juga relevan.

Kesimpulan

Matematika adalah kunci untuk memahami algoritma dalam data science. Memahami 25 konsep di atas akan membantu Anda dalam membangun model yang lebih akurat dan efisien.

Apakah Anda memiliki konsep lain yang ingin ditambahkan ke dalam daftar ini? Bagikan pendapat Anda di komentar!