Xác suất
Phần này mình ôn lại cách tính xác suất, phương sai và một số phân phối thường gặp.
1. Xác suất
1.1. Biến ngẫu nhiên (random variables)
- Là một đại lượng dùng để đo những đại lượng không xác định.
- Có thể được dùng để ký hiệu kết quả đầu ra của một thí nghiệm.
- Thông tin về các kết quả của thí nghiệm được đo bởi một phân phối xác suất được biểu diễn bằng một hàm .
- Có thể là rời rạc hoặc liên tục.
1.1.1. Biến ngẫu nhiên rời rạc
- Lấy giá trị trong một tập hợp các điểm rời rạc cho trước (tung đồng xu -> sấp và ngửa).
- Có thể có thứ tự (khi tung xúc xắc) hoặc không có thứ tự (giá trị nắng, mưa, bão).
- Mỗi đầu ra có một giá trị xác suất tương ứng, không âm và có tổng bằng 1.
1.1.2. Biến ngẫn nhiên liên tục
- Lấy các giá trị là các số thực, có thể hữu hạn(thời gian làm bài thi) hoặc vô hạn(thời gian chờ khách tiếp theo).
- Theo lý thuyết thì xác suất đầu ra bằng chính xác một giá trị nào đó là bằng 0, nhưng xác suất đầu ra rơi vào 1 khoảng giá trị nào đó là khác 0.
- Được miêu tả bởi hàm mật độ xác suất, luôn dương và tích phân trên toàn miền giá trị bằng 1.
1.2. Xác suất đồng thời
Xác suất đồng thời của và được ký hiệu là là xác suất đồng thời xảy ra và . và có thể cùng rời rạc, liên tục hoặc một 1 rời rạc 1 liên tục.
Một số tính chất:
- Cả và là rời rạc:
- Cả và là liên tục:
- rời rạc, liên tục:
1.3. Xác suất biên
Nếu biết xác suất đồng thời của nhiều biến ngẫu nhiên, ta cũng có thể xác định được phân phối xác suất của từng biến bằng cách lấy tổng với biến ngẫu nhiên rời rạc hoặc tích phân với biến ngẫu nhiên liên tục theo tất cả các biến còn lại:
Nếu rời rạc:
Nếu liên tục:
Với nhiều biến hơn, chẳng hạn bốn biến rời rạc , cách tính được thực hiện tương tự:
Cách xác định xác suất của một biến dựa trên xác suất đồng thời của nó với các biến khác được gọi là marginalization.
1.4. Xác suất có điều kiện
Xác suất để một biến ngẫu nhiên nhận được một giá trị nào đó biết rằng biến ngẫn nhiên có giá trị được gọi là xác suất có điều kiện, được ký hiệu là
Công thức:
Từ đó ta có:
Hay:
Khi có nhiều hơn 2 biến ngẫu nhiên ta có:
1.5. Biến ngẫn nhiên độc lập
Nếu biết giá trị của một biến ngẫn nhiên không mang lại thông tin về việc suy ra giá trị của biến ngẫn nhiên (và ngược lại), thì ta nói rằng hai biến ngẫn nhiên là độc lập.
Tính chất:
Thay vào biểu thức xác suất đồng thời ta có:
1.6. Kỳ vọng
Kỳ vọng của một biến ngẫn nhiên được định nghĩa là:
Nếu là rời rạc
Nếu là liên tục
Có thể hiểu nó là giá trị trung bình mà bạn mong đợi biến ngẫn nhiên đó nhận được nếu thử nghiệm được lặp đi lặp lại nhiều lần. Nó giống như "trọng tâm" của phân phối xác suất. Ví dụ nếu bạn tung một con xúc xắc thì kỳ vọng của nó là . =3.5. Điều này không có nghĩa là bạn sẽ luôn nhận được 3.5, mà là trung bình sau nhiều lần tung sẽ gần với 3.5.
Áp dụng cho hàm số , ta sẽ có:
Với xác suất đồng thời:
1.7. Phương sai và độ lệch chuẩn (với dữ liệu một chiều)
Được định nghĩa là:
Phương sai là trung bình công jcuar bình phương khoảng cách từ mỗi điểm tới kỳ vọng. Phương sai càng nhỏ thì các điểm dữ liệu càng gần với kỳ vọng, tức các điểm dữ liệu càng giống nhau. Phương sai càng lớn thì ta nói dữ liệu càng có tính phân tán.
Căn bậc hai của phương sai, còn được gọi là độ lệch chuẩn (standard deviation) của dữ liệu.
2. Một vài phân phối thường gặp
2.1. Phân phối Bernoulli
Phân phối Bernoulli là một phân phối rời rạc mô tả các biến ngẫu nhiên nhị phân: trường hợp đầu ra chỉ nhận một trong hai giá trị .
Thường được miêu tả bằng một tham số và là xác suất để biến ngẫu nhiên . Xác suất của mỗi đầu ra sẽ là:
Có thể viết gọn lại là:
2.2. Phân phối Categorical
Đây là một phân phối tổng quát của phân phối Bernoulli. Các đầu ra được mô tả bởi một phần tử trong tập hợp .
Thay vì biểu diễn đầu ra là một số k trong tập hợp , ta biểu diễn đầu ra là một vector ở dạng one-hot, tức một vector phần tử với chỉ phần tử thứ bằng một, các phần tử còn lại bằng không. Nói cách khác, tập hợp các đầu ra là tập hợp các vector đơn vị bậc K: với là vector đơn vị thứ . Khi đó ta có:
2.3. Phân phối chuẩn một chiều(Gaussian distribution)
Là một phân phối được sử dụng nhiều nhất với các biến ngẫn nhiên liên tục. Được định nghĩa như sau:
2.4. Phân phối chuẩn nhiều chiều
Là trường hợp tổng quát của phân phối chuẩn khi biến ngẫu nhiên là nhiều chiều.
Giả sử là chiều thì ta có hàm mật độ xác suất dạng:
2.5. Phân phối Beta
Là một phân phối liên tục được định nghĩa trên một biến ngẫu nhiên . Dùng để mô tả tham số cho một phân phối khác. Nó phù hợp với việc mô tả sự biến động của tham số trong phân phối Bernoulli.
Được định nghĩa:
Với là hàm số gamma, được đinh nghĩa là:
2.6. Phân phối Dirichlet
... Đang update