Ôn tập lại một số kiến thức về chuyển vị, nhân ma trận, chuẩn
1. Chuyển vị
Cho A ∈ R m × n \mathbf{A} \in \mathbb{R}^{m \times n} A ∈ R m × n , ta nói B ∈ R n × m \mathbf{B} \in \mathbb{R}^{n \times m} B ∈ R n × m là chuyển vị của A \mathbf{A} A nếu b i j = a j i , ∀ 1 ≤ i ≤ n , 1 ≤ j ≤ m b_{ij} = a_{ji}, \space \forall 1 \leq i \leq n, 1 \leq j \leq m b ij = a ji , ∀1 ≤ i ≤ n , 1 ≤ j ≤ m
x = [ x 1 x 2 ⋮ x m ] ⇒ x T = [ x 1 x 2 … x m ] \mathbf{x} =
\begin{bmatrix}
x_1 \\
x_2 \\
\vdots \\
x_m
\end{bmatrix}
\Rightarrow \mathbf{x}^T =
\begin{bmatrix}
x_1 x_2 \dots & x_m
\end{bmatrix} x = x 1 x 2 ⋮ x m ⇒ x T = [ x 1 x 2 … x m ]
A = [ a 11 a 12 … a 1 n a 21 a 22 … a 2 n ⋮ ⋮ ⋱ ⋮ a m 1 a m 2 … a m n ] ⇒ A T = [ a 11 a 21 … a m 1 a 12 a 22 … a m 2 ⋮ ⋮ ⋱ ⋮ a 1 n a 2 n … a m n ] \mathbf{A} =
\begin{bmatrix}
a_{11} & a_{12} & \dots & a_{1n} \\
a_{21} & a_{22} & \dots & a_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
a_{m1} & a_{m2} & \dots & a_{mn}
\end{bmatrix}
\Rightarrow
\mathbf{A}^T =
\begin{bmatrix}
a_{11} & a_{21} & \dots & a_{m1} \\
a_{12} & a_{22} & \dots & a_{m2} \\
\vdots & \vdots & \ddots & \vdots \\
a_{1n} & a_{2n} & \dots & a_{mn}
\end{bmatrix} A = a 11 a 21 ⋮ a m 1 a 12 a 22 ⋮ a m 2 … … ⋱ … a 1 n a 2 n ⋮ a mn ⇒ A T = a 11 a 12 ⋮ a 1 n a 21 a 22 ⋮ a 2 n … … ⋱ … a m 1 a m 2 ⋮ a mn
Một cách ngắn gọn, chuyển vị của một ma trận là một ma trận nhận được từ ma trận cũ
thông qua phép phản xạ gương qua đường chéo chính của ma trận ban đầu.
2. Phép nhân 2 ma trận
Cho A ∈ R m × n \mathbf{A} \in \mathbb{R}^{m \times n} A ∈ R m × n , B ∈ R n × p \mathbf{B} \in \mathbb{R}^{n \times p} B ∈ R n × p , tích của hai ma trận được ký hiệu là C = A B ∈ R m × p \mathbf{C} = \mathbf{AB} \in \mathbb{R}^{m \times p} C = AB ∈ R m × p
trong đó phần tử ở hàng thứ i \textit{i} i , cột thứ j \textit{j} j của ma trận kết quả được tính bởi.
c i j = ∑ k = 1 n a i k b k j , ∀ 1 ≤ i ≤ m , 1 ≤ j ≤ p c_{ij} = \sum_{k=1}^{n} a_{ik} b_{kj}, \quad \forall \, 1 \leq i \leq m, \, 1 \leq j \leq p c ij = k = 1 ∑ n a ik b kj , ∀ 1 ≤ i ≤ m , 1 ≤ j ≤ p
Một vài tính chất của phép nhân hai ma trận:
Không có tính chất giao hoán: A B ≠ B A \mathbf{AB} \neq \mathbf{BA} AB = BA
Có tính chất kết hợp: A B C = ( A B ) C = A ( B C ) \mathbf{ABC} = \mathbf{(AB)C} = \mathbf{A(BC)} ABC = ( AB ) C = A ( BC )
Có tính chất phân phối với phép cộng: A ( B + C ) = A B + B C \mathbf{A(B+C)} = \mathbf{AB + BC} A ( B + C ) = AB + BC
Chuyển vị một tích bằng tích chuyển vị theo thứ tự ngược lại: ( A B ) T = B T A T \mathbf{(AB)^T = B^TA^T} ( AB ) T = B T A T
Phép nhân của một ma trận A ∈ R m × n \mathbf{A} \in \mathbb{R}^{m \times n} A ∈ R m × n với một vector x ∈ R n \mathbf{x} \in \mathbb{R}^{n} x ∈ R n là một vector b ∈ R m \mathbf{b} \in \mathbb{R}^{m} b ∈ R m :
A x = b v ớ i b i = A : , i x \mathbf{Ax=b} \space với b_{i} = \mathbf{A}_{:,i}\mathbf{x} Ax = b v ớ i b i = A : , i x
với A : , i \mathbf{A}_{:,i} A : , i là vector hàng thứ i i i của A \mathbf{A} A
Phép nhân Hadamand (element-wise) của 2 ma trận cùng kích thước A , B ∈ R m × n \mathbf{A,B} \in \mathbb{R}^{m \times n} A , B ∈ R m × n ký hiệu là C = A ⊙ B ∈ R m × n \mathbf{C = A \odot B} \in \mathbb{R}^{m \times n} C = A ⊙ B ∈ R m × n , trong đó:
c i j = a i j b i j c_{ij} = a_{ij}b_{ij} c ij = a ij b ij
3. Ma trận đơn vị và ma trận nghịch đảo
3.1. Ma trận đơn vị
Ma trận đơn vị(Identity matrix) ký hiệu là I \mathbf{I} I là ma trận đặc biệt có các phần tử trên đường chéo chính là 1 còn lại là 0.
Dưới đây là ma trận đơn vị bậc 3 và bậc 4.
I 3 = [ 1 0 0 0 1 0 0 0 1 ] , I 4 = [ 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 ] \mathbf{I}_{3} =
\begin{bmatrix}
1 & 0 & 0 \\
0 & 1 & 0 \\
0 & 0 & 1
\end{bmatrix}
,\space
\mathbf{I}_{4} =
\begin{bmatrix}
1 & 0 & 0 & 0 \\
0 & 1 & 0 & 0 \\
0 & 0 & 1 & 0 \\
0 & 0 & 0 & 1
\end{bmatrix} I 3 = 1 0 0 0 1 0 0 0 1 , I 4 = 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1
Tính chất:
Nếu A ∈ R m × n \mathbf{A} \in \mathbb{R}^{m \times n} A ∈ R m × n , B ∈ R n × m \mathbf{B} \in \mathbb{R}^{n \times m} B ∈ R n × m và I \mathbf{I} I là một ma trận đơn vị bậc n n n thì ta có A I = A \mathbf{AI=A} AI = A và I B = B \mathbf{IB=B} IB = B
Với mọi vector x ∈ R n \mathbf{x} \in \mathbb{R}^{n} x ∈ R n , ta có I n x = x \mathbf{I}_{n}\mathbf{x}=\mathbf{x} I n x = x
3.2. Ma trận nghịch đảo
Cho ma trận vuông A ∈ R n × n \mathbf{A} \in \mathbb{R}^{n \times n} A ∈ R n × n nếu tồn tại B ∈ R n × n \mathbf{B} \in \mathbb{R}^{n \times n} B ∈ R n × n sao cho A B = I n \mathbf{AB}=\mathbf{I}_{n} AB = I n thì ta gọi A \mathbf{A} A là ma trận khả nghịch và B \mathbf{B} B là ma trận nghich đảo của A \mathbf{A} A .
Nếu A \mathbf{A} A khả nghịch thì ma trận nghịch đảo của A \mathbf{A} A thường được ký hiệu là A − 1 \mathbf{A}^{-1} A − 1
Tính chất:
A − 1 A = A A − 1 = I \mathbf{A^{-1}A=AA^{-1}=I} A − 1 A = A A − 1 = I
Áp dụng giải phương trình tuyến tính:
A x = b \mathbf{Ax=b} Ax = b
có nghiệm duy nhất x = A − 1 b \mathbf{x=A^{-1}b} x = A − 1 b
4. Một vài ma trận đặc biệt khác
4.1. Ma trận đường chéo
Là ma trận chỉ có các phần tử trên đường chéo chính là khác 0.
Ví dụ:
[ 1 ] , [ 2 0 0 0 ] , [ 1 0 0 0 2 0 ] , [ − 1 0 0 2 0 0 ] \begin{bmatrix}
1
\end{bmatrix}
\space,\space
\begin{bmatrix}
2 & 0 \\
0 & 0
\end{bmatrix}
\space,\space
\begin{bmatrix}
1 & 0 & 0 \\
0 & 2 & 0
\end{bmatrix}
\space,\space
\begin{bmatrix}
-1 & 0 \\
0 & 2 \\
0 & 0
\end{bmatrix} [ 1 ] , [ 2 0 0 0 ] , [ 1 0 0 2 0 0 ] , − 1 0 0 0 2 0
Tính chất:
Tích, tổng của hai ma trận đường chéo vuông cùng bậc là một ma trận đường chéo.
Một ma trận đường chéo vuông là khả nghịch nếu và chỉ nếu mọi phần tử trên đường chéo chính
là khác không.
Nghịch đảo của một ma trận đường chéo khả nghịch cũng là một ma trận đường chéo.
4.2. Ma trận tam giác
Một ma trận vuông được gọi là ma trận tam giác trên nếu các phần tử nằm dưới đường chéo chính của nó bằng 0, tưởng tự với ma trận tam giác dưới.
Các hệ phương trình tuyến tính mà ma trận hệ số có dạng tam giác thường được quan tâm
vì chúng có thể được giải với chi phí tính toán thấp.
{ a 11 x 1 + a 12 x 2 + ⋯ + a 1 , n − 1 x n − 1 + a 1 n x n = b 1 a 22 x 2 + ⋯ + a 2 , n − 1 x n − 1 + a 2 n x n = b 2 ⋱ ⋮ ⋮ a n − 1 , n − 1 x n − 1 + a n − 1 , n x n = b n − 1 a n n x n = b n \left\{
\begin{array}{ccccccccc}
a_{11}x_1 & + & a_{12}x_2 & + & \cdots & + & a_{1,n-1}x_{n-1} & + & a_{1n}x_n = b_1 \\
& & a_{22}x_2 & + & \cdots & + & a_{2,n-1}x_{n-1} & + & a_{2n}x_n = b_2 \\
& & & & \ddots & & \vdots & & \vdots \\
& & & & & & a_{n-1,n-1}x_{n-1} & + & a_{n-1,n}x_n = b_{n-1} \\
& & & & & & & & a_{nn}x_n = b_n
\end{array}
\right. ⎩ ⎨ ⎧ a 11 x 1 + a 12 x 2 a 22 x 2 + + ⋯ ⋯ ⋱ + + a 1 , n − 1 x n − 1 a 2 , n − 1 x n − 1 ⋮ a n − 1 , n − 1 x n − 1 + + + a 1 n x n = b 1 a 2 n x n = b 2 ⋮ a n − 1 , n x n = b n − 1 a nn x n = b n
Nhận thấy rằng phương trình này có thể giải mà không cần tính ma trận nghịch đảo A − 1 \mathbf{A^{-1}} A − 1 (quá trình tính ma trận nghịch đảo thường tốn khá nhiều thời gian), thay vào đó, ta có thể giải x n x_{n} x n dựa vào phương trình cuối cùng. Sau khi có x n x_{n} x n , ta có thể thay nó vào phương trình gần cuối để suy ra x n − 1 x_{n-1} x n − 1 . Tiếp tục quá trình này, ta sẽ có nghiệm cuối cùng x \mathbf{x} x . Quá trình này gọi là back substitution . Tương tự đối với ma trận tam giác dưới thì ta gọi là forward substitution .
14. Chuẩn của vector và ma trận
Việc đo khoảng cách giữa hai điểm dữ liệu nhiều chiều, tức hai vector, là rất cần thiết trong
Machine Learning. Và đó chính là lý do mà khái niệm chuẩn (norm) ra đời. Để xác định
khoảng cách giữa hai vector y \mathbf{y} y và z \mathbf{z} z , người ta thường áp dụng một hàm số lên vector hiệu x = y − z \mathbf{x = y − z} x = y − z . Hàm số này cần có một vài tính chất đặc biệt.
Minh họa l 1 l_{1} l 1 norm và l 2 l_{2} l 2 norm trong không gian hai chiều. l 2 l_{2} l 2 norm chính là khoảng cách giữa hai điểm trong mặt phẳng. Trong khi đó l 1 l_{1} l 1 norm là quãng đường ngắn nhất giữa hai điểm nếu chỉ được đi theo các đường song song với các trục toạ độ.
Định nghĩa:
Một hàm số f : R n → R f: \mathbb{R}^n \to \mathbb{R} f : R n → R được gọi là một norm nếu nó thỏa mãn ba điều kiện sau đây:
f ( x ) ≥ 0. f(\mathbf{x}) \geq 0. f ( x ) ≥ 0. Dấu bằng xảy ra ⇔ x = 0. \Leftrightarrow \mathbf{x} = \mathbf{0}. ⇔ x = 0 .
f ( α x ) = ∣ α ∣ f ( x ) , ∀ α ∈ R . f(\alpha \mathbf{x}) = |\alpha| f(\mathbf{x}), \quad \forall \alpha \in \mathbb{R}. f ( α x ) = ∣ α ∣ f ( x ) , ∀ α ∈ R .
f ( x 1 ) + f ( x 2 ) ≥ f ( x 1 + x 2 ) , ∀ x 1 , x 2 ∈ R n f(\mathbf{x}_1) + f(\mathbf{x}_2) \geq f(\mathbf{x}_1 + \mathbf{x}_2), \quad \forall \mathbf{x}_1, \mathbf{x}_2 \in \mathbb{R}^n f ( x 1 ) + f ( x 2 ) ≥ f ( x 1 + x 2 ) , ∀ x 1 , x 2 ∈ R n
14.1. Một số chuẩn vector thường dùng
Độ dài Euclid của một vector x ∈ R n \mathbf{x} \in \mathbb{R}^{n} x ∈ R n chính là một norm, norm này được gọi là l 2 {l}_{2} l 2 norm hoặc
Euclidean norm:
∣ ∣ x ∣ ∣ 2 = x 1 2 + x 2 2 + ⋯ + x n 2 ||x||_{2} = \sqrt{x_1^2 + x_2^2 + \dots + x_n^2} ∣∣ x ∣ ∣ 2 = x 1 2 + x 2 2 + ⋯ + x n 2
Bình phương của l 2 l_2 l 2 norm chính là tích vô hướng của một vector với chính nó ∣ ∣ x ∣ ∣ 2 2 = x T x ||x||_{2}^2 = \mathbf{x^Tx} ∣∣ x ∣ ∣ 2 2 = x T x
Với p p p là một số không nhỏ hơn 1 bất kỳ, hàm số:
∣ ∣ x ∣ ∣ p = ( x 1 p + x 2 p + ⋯ + x n p ) 1 p ||x||_{p} = (x_1^p + x_2^p + \dots + x_n^p)^\frac{1}{p} ∣∣ x ∣ ∣ p = ( x 1 p + x 2 p + ⋯ + x n p ) p 1
được chứng minh thỏa mãn ba điều kiện của norm thì được gọi là l p l_p l p norm.
Có một vài giá trị của p p p thường được dùng:
Khi p = 2 p=2 p = 2 chúng ta có l 2 l_2 l 2 norm như ở trên.
Khi p = 1 p=1 p = 1 ta có l 1 l_1 l 1 norm là tổng các giá trị tuyệt đối của từng phẩn tử của x \mathbf{x} x .
Khi p → ∞ p\to\infty p → ∞ , giả sử i = arg max i = 1 , 2 , . . . , n ∣ x j ∣ i=\argmax_{i=1,2,...,n}|x_{j}| i = arg max i = 1 , 2 , ... , n ∣ x j ∣ , khi đó norm l ∞ l_{\infty} l ∞ chính bằng ∣ x i ∣ |x_{i}| ∣ x i ∣
14.2. Chuẩn Frobenius của ma trận
Với một ma trận A ∈ R m × n \mathbf{A} \in \mathbb{R}^{m \times n} A ∈ R m × n , chuẩn thường được dùng nhất là chuẩn Frobenius, ký hiệu là ∣ ∣ A ∣ ∣ F ||\mathbf{A}||_{F} ∣∣ A ∣ ∣ F là căn bậc 2 của tổng bình phương tất cả các phần tử của ma trận đó.
∣ ∣ A ∣ ∣ F = ∑ i = 1 m ∑ j = 1 n a i j 2 ||\mathbf{A}||_{F}= \sqrt{\displaystyle\sum_{i=1}^m\displaystyle\sum_{j=1}^n a_{ij}^2} ∣∣ A ∣ ∣ F = i = 1 ∑ m j = 1 ∑ n a ij 2
Chú ý rằng l 2 l_2 l 2 norm ∣ ∣ A ∣ ∣ 2 ||\mathbf{A}||_2 ∣∣ A ∣ ∣ 2 là một nỏm khác của ma trận, không phổ biến bằng Frobenius norm.