Xác suất cơ bản

Lý thuyết xác suất là công cụ cơ bản và là tiền đề cho học máy. Việc nắm vững lý thuyết xác suất rất quan trọng. Trong phần này, tôi sẽ tóm lược lại một số lý thuyết cơ bản.

1.Xác suất có điều kiện

Với hai biến cố $A$, $B$. Xác suất có điều kiện là xác suất của biến cố $A$ với điều kiện biến cố $B$ đã xảy ra.

Công thức:

\[\begin{equation} P(A \mid B)=\frac{P(A, B)}{P(B)} \end{equation}\]

Suy ra: \(\begin{equation} P(A, B)=P(A) P(B \mid A)=P(B) P(A \mid B) \end{equation}\)

Trong đó: $P(A,B)$ hay $P(AB)$ là xác suất của $A$ và $B$, xảy ra khi cả hai biến cố $A$, $B$ xảy ra.

\[\begin{equation} P(A,B) = P(A)P(B) \end{equation}\] \[\begin{equation} P(A_1 A_2 A_3 \ldots A_n) = P(A_1).P(A_2 \mid A_1).P(A_3 \mid A_2 A_1) \ldots P(A_n \mid A_1 A_2 \ldots A_(n-1)) \end{equation}\] \[\begin{equation} P(A_1,A_2, \ldots ,A_n) = P(A_1)P(A_2) \cdots P(A_n) \end{equation}\]

2.Công thức Xác suất toàn phần và Bayes

2.1 Công thức Xác suất toàn phần

Cho $A_1, A_2, A_3, \ldots ,A_n$ là nhóm biến cố đầy đủ (là nhóm biến cố xung khắc, tổng của chúng bao phủ hết không gian mẫu)

Nhóm biến cố xung khắc có nghĩa các biến cố trong nhóm đôi một xung khắc với nhau. 2 biến cố xung khắc là hai biến cố không cùng xảy ra trong cùng một phép thử.

\[\begin{equation} P(B) = P(B \mid A_1)P(A_1) + P(B \mid A_2)P(A_2) + \cdots + P(B \mid A_n)P(A_n) \end{equation}\]

Công thức rút gọn:

\[\begin{equation} P(B) = \sum_{i=1}^{N} P(B)P(B \mid A_i) \end{equation}\]

2.2 Công thức Bayes

\[\begin{equation} P(A \mid B) = P(B \mid A)P(A)P(B) \end{equation}\]

3. Đại lượng ngẫu nhiên (ĐLNN)

3.1 Đại lượng ngẫu nhiên rời rạc

3.2 Đại lượng ngẫu nhiên liên tục

Là đại lượng ngẫu nhiên có tập giá trị trong $(a,b)$ hoặc $[a,b]$

\[\begin{equation} P(a \leq X \leq b) = \int_{a}^{b} f(x) \,dx \end{equation}\]

4. Kỳ vọng, phương sai, độ lệch chuẩn

4.1 Kỳ vọng

\(\begin{equation} E(X) = \sum_{i=1}^n x_i p_i \end{equation}\) nếu $X$ là ĐLNN rời rạc

\(\begin{equation} \int_{- \infty}^{+ \infty} x f(x) \,dx \end{equation}\) nếu $X$ là ĐLNN liên tục

4.2 Phương sai

\[\begin{equation} D(X) = E(X - E(X))^2 hay D(X) = E((X - \mu)^2) với \mu = E(X) \end{equation}\]

Biểu thức tương đương: $ D(X) = E(X^2) -(E(X))^2 $

Trong đó:

4.3 Độ lệch chuẩn

\[\begin{equation} \sigma = sqrt{D(X)} \end{equation}\]

Vì phương sai là bình phương giá trị trung bình của các khoảng cách từ các giá trị của $X$ tới giá trị trung bình của nó.

Nên dễ dẫn tới các giá trị sai. Vì vậy chúng ta đưa nó về giá trị gốc bằng cách căn, giá trị này được gọi là độ lệch chuẩn.

5. Phân phối xác suất

5.1. Đối với đại lượng ngẫu nhiên rời rạc

5.1.1 Phân phối nhị thức

\[\begin{equation} P(A) = p, p \in R, 0 \leq p_1 \leq 1 \end{equation}\]

Phép thử Bernoulli:

\[\begin{equation} P_n (m, p) = \left( \begin{array}{c} m \\ n \end{array} \right) = p^m (1 - p)^{n-m} \end{equation}\]

Ví dụ phép thử Bernoulli: Xác suất trúng đích của một xạ thủ là 0,7. Tìm xác suất để xạ thủ này bắn 5 viên đạn thì 4 viên trúng đích.

Lời giải:

Gọi A là biến cố: “Xạ thủ bắn trúng đích”

Ta có P(A) = 0,7.

Gọi B là biến cố: “Xạ thủ bắn 5 viên trúng đích 4 viên”

Áp dụng công thức với n=5, m=4, p=0,7

Ta có:

\[\begin{equation} P_n (m, p) = \left( \begin{array}{c} m \\ n \end{array} \right) p^m (1 - p)^{n-m} \end{equation}\] \[\begin{equation} = \left( \begin{array}{c} 5 \\ 4 \end{array} \right) 0,74 (1-0,7)^{5-4} = 0,36015 \end{equation}\]

Vậy xác suất để xạ thủ bắn 5 viên có 4 viên trúng đích là 0,36015

Trở lại với phân phối nhị thức:

Công thức:

\(\begin{aligned} P(X=x) = \left( \begin{array}{c} m \\ n \end{array} \right) p^x (1-p)^{n - x} \end{aligned}\) , với $x=0,1,2..n$

Ta nói $X$ tuân theo phân phối nhị thức: $X \sim Bin(n, p)$

Có thể thấy phép thử Bernoulli là trường hợp đặc biệt của phân phối nhị thức với $n = 1, Bin(1,p)$

5.1.2 Phân phối Poisson

\[\begin{aligned} p(x) &=C_{n}^{x} p^{x} (1-p)^{n-x} = \frac{n !}{x !(n-x) !} \left(\frac{\lambda}{n}\right)^{x} \left(1-\frac{\lambda}{n}\right)^{n-x} \\ &=\frac{n !}{n^{x} (n-x) !} \frac{\lambda^{x}}{x !} \left(1-\frac{\lambda}{n}\right)^{n-x} \end{aligned}\]

Vì n rất lớn nên \(\left(1-\frac{\lambda}{n}\right)^{x} \approx 1,\left(1-\frac{\lambda}{n}\right)^{n} \approx e^{-\lambda}\) , với \(\mathrm{e}=\lim _{n \rightarrow \infty}\left(1+\frac{1}{n}\right)^{n}\) và \(\frac{n !}{n^{x} .(n-x) !} \approx 1\)

nên suy ra:

\[\mathrm{p}(\mathrm{x}) \approx \frac{\lambda^{x}}{x !} e^{-\lambda}\]

Tính chất: \(E(X) = D(X) = \lambda\)

Ta nói $X$ tuân theo phân phối Poisson: $X \sim P(\lambda) $

Ví dụ: Một máy dệt có 5000 ống sợi, xác suất trong một phút một ống sợi bị đứt là 0,0002. Tìm xác suất để trong 1 phút không quá 2 ống sợi bị đứt.

Lời giải:

Gọi X là ĐLNN chỉ số ống sợi bị đứt.

Do n lớn, và p nhỏ nên XP() với =np = 5000.0,002 = 1

Xác suất để trong 1 phút có không quá 2 sợi bị đứt là:

$ P(X \leq 2) = P(X=0) + P(X=1) + P(X=2) $

\[=\frac{\lambda^{0}}{0 !} \cdot e^{-1}+\frac{\lambda^{1}}{1 !} \cdot e^{-1}+\frac{\lambda^{2}}{2 !} \cdot e^{-1}=0,9225\]

Vậy xác suất trong 1 phút có không quá 2 sợi bị đứt là 0,9225