Chuyển tới nội dung chính

Đại số tuyến tính

Ôn tập lại một số kiến thức về chuyển vị, nhân ma trận, chuẩn

1. Chuyển vị

Cho ARm×n\mathbf{A} \in \mathbb{R}^{m \times n}, ta nói BRn×m\mathbf{B} \in \mathbb{R}^{n \times m} là chuyển vị của A\mathbf{A} nếu bij=aji, 1in,1jmb_{ij} = a_{ji}, \space \forall 1 \leq i \leq n, 1 \leq j \leq m

x=[x1x2xm]xT=[x1x2xm]\mathbf{x} = \begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_m \end{bmatrix} \Rightarrow \mathbf{x}^T = \begin{bmatrix} x_1 x_2 \dots & x_m \end{bmatrix}
A=[a11a12a1na21a22a2nam1am2amn]AT=[a11a21am1a12a22am2a1na2namn]\mathbf{A} = \begin{bmatrix} a_{11} & a_{12} & \dots & a_{1n} \\ a_{21} & a_{22} & \dots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \dots & a_{mn} \end{bmatrix} \Rightarrow \mathbf{A}^T = \begin{bmatrix} a_{11} & a_{21} & \dots & a_{m1} \\ a_{12} & a_{22} & \dots & a_{m2} \\ \vdots & \vdots & \ddots & \vdots \\ a_{1n} & a_{2n} & \dots & a_{mn} \end{bmatrix}

Một cách ngắn gọn, chuyển vị của một ma trận là một ma trận nhận được từ ma trận cũ thông qua phép phản xạ gương qua đường chéo chính của ma trận ban đầu.

2. Phép nhân 2 ma trận

Cho ARm×n\mathbf{A} \in \mathbb{R}^{m \times n}, BRn×p\mathbf{B} \in \mathbb{R}^{n \times p}, tích của hai ma trận được ký hiệu là C=ABRm×p\mathbf{C} = \mathbf{AB} \in \mathbb{R}^{m \times p} trong đó phần tử ở hàng thứ i\textit{i}, cột thứ j\textit{j} của ma trận kết quả được tính bởi.

cij=k=1naikbkj,1im,1jpc_{ij} = \sum_{k=1}^{n} a_{ik} b_{kj}, \quad \forall \, 1 \leq i \leq m, \, 1 \leq j \leq p

Một vài tính chất của phép nhân hai ma trận:

  1. Không có tính chất giao hoán: ABBA\mathbf{AB} \neq \mathbf{BA}
  2. Có tính chất kết hợp: ABC=(AB)C=A(BC)\mathbf{ABC} = \mathbf{(AB)C} = \mathbf{A(BC)}
  3. Có tính chất phân phối với phép cộng: A(B+C)=AB+BC\mathbf{A(B+C)} = \mathbf{AB + BC}
  4. Chuyển vị một tích bằng tích chuyển vị theo thứ tự ngược lại: (AB)T=BTAT\mathbf{(AB)^T = B^TA^T}

Phép nhân của một ma trận ARm×n\mathbf{A} \in \mathbb{R}^{m \times n} với một vector xRn\mathbf{x} \in \mathbb{R}^{n} là một vector bRm\mathbf{b} \in \mathbb{R}^{m}:

Ax=b vibi=A:,ix\mathbf{Ax=b} \space với b_{i} = \mathbf{A}_{:,i}\mathbf{x}

với A:,i\mathbf{A}_{:,i} là vector hàng thứ ii của A\mathbf{A}

Phép nhân Hadamand (element-wise) của 2 ma trận cùng kích thước A,BRm×n\mathbf{A,B} \in \mathbb{R}^{m \times n} ký hiệu là C=ABRm×n\mathbf{C = A \odot B} \in \mathbb{R}^{m \times n}, trong đó:

cij=aijbijc_{ij} = a_{ij}b_{ij}

3. Ma trận đơn vị và ma trận nghịch đảo

3.1. Ma trận đơn vị

Ma trận đơn vị(Identity matrix) ký hiệu là I\mathbf{I} là ma trận đặc biệt có các phần tử trên đường chéo chính là 1 còn lại là 0.

Dưới đây là ma trận đơn vị bậc 3 và bậc 4.

I3=[100010001], I4=[1000010000100001]\mathbf{I}_{3} = \begin{bmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{bmatrix} ,\space \mathbf{I}_{4} = \begin{bmatrix} 1 & 0 & 0 & 0 \\ 0 & 1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \end{bmatrix}

Tính chất:

  • Nếu ARm×n\mathbf{A} \in \mathbb{R}^{m \times n}, BRn×m\mathbf{B} \in \mathbb{R}^{n \times m}I\mathbf{I} là một ma trận đơn vị bậc nn thì ta có AI=A\mathbf{AI=A}IB=B\mathbf{IB=B}
  • Với mọi vector xRn\mathbf{x} \in \mathbb{R}^{n}, ta có Inx=x\mathbf{I}_{n}\mathbf{x}=\mathbf{x}

3.2. Ma trận nghịch đảo

Cho ma trận vuông ARn×n\mathbf{A} \in \mathbb{R}^{n \times n} nếu tồn tại BRn×n\mathbf{B} \in \mathbb{R}^{n \times n} sao cho AB=In\mathbf{AB}=\mathbf{I}_{n} thì ta gọi A\mathbf{A} là ma trận khả nghịch và B\mathbf{B} là ma trận nghich đảo của A\mathbf{A}.

Nếu A\mathbf{A} khả nghịch thì ma trận nghịch đảo của A\mathbf{A} thường được ký hiệu là A1\mathbf{A}^{-1}

Tính chất:

A1A=AA1=I\mathbf{A^{-1}A=AA^{-1}=I}

Áp dụng giải phương trình tuyến tính:

Ax=b\mathbf{Ax=b}

có nghiệm duy nhất x=A1b\mathbf{x=A^{-1}b}

4. Một vài ma trận đặc biệt khác

4.1. Ma trận đường chéo

Là ma trận chỉ có các phần tử trên đường chéo chính là khác 0.

Ví dụ:

[1] , [2000] , [100020] , [100200]\begin{bmatrix} 1 \end{bmatrix} \space,\space \begin{bmatrix} 2 & 0 \\ 0 & 0 \end{bmatrix} \space,\space \begin{bmatrix} 1 & 0 & 0 \\ 0 & 2 & 0 \end{bmatrix} \space,\space \begin{bmatrix} -1 & 0 \\ 0 & 2 \\ 0 & 0 \end{bmatrix}

Tính chất:

  • Tích, tổng của hai ma trận đường chéo vuông cùng bậc là một ma trận đường chéo.
  • Một ma trận đường chéo vuông là khả nghịch nếu và chỉ nếu mọi phần tử trên đường chéo chính là khác không.
  • Nghịch đảo của một ma trận đường chéo khả nghịch cũng là một ma trận đường chéo.

4.2. Ma trận tam giác

Một ma trận vuông được gọi là ma trận tam giác trên nếu các phần tử nằm dưới đường chéo chính của nó bằng 0, tưởng tự với ma trận tam giác dưới.

Các hệ phương trình tuyến tính mà ma trận hệ số có dạng tam giác thường được quan tâm vì chúng có thể được giải với chi phí tính toán thấp.

{a11x1+a12x2++a1,n1xn1+a1nxn=b1a22x2++a2,n1xn1+a2nxn=b2an1,n1xn1+an1,nxn=bn1annxn=bn\left\{ \begin{array}{ccccccccc} a_{11}x_1 & + & a_{12}x_2 & + & \cdots & + & a_{1,n-1}x_{n-1} & + & a_{1n}x_n = b_1 \\ & & a_{22}x_2 & + & \cdots & + & a_{2,n-1}x_{n-1} & + & a_{2n}x_n = b_2 \\ & & & & \ddots & & \vdots & & \vdots \\ & & & & & & a_{n-1,n-1}x_{n-1} & + & a_{n-1,n}x_n = b_{n-1} \\ & & & & & & & & a_{nn}x_n = b_n \end{array} \right.

Nhận thấy rằng phương trình này có thể giải mà không cần tính ma trận nghịch đảo A1\mathbf{A^{-1}} (quá trình tính ma trận nghịch đảo thường tốn khá nhiều thời gian), thay vào đó, ta có thể giải xnx_{n} dựa vào phương trình cuối cùng. Sau khi có xnx_{n}, ta có thể thay nó vào phương trình gần cuối để suy ra xn1x_{n-1}. Tiếp tục quá trình này, ta sẽ có nghiệm cuối cùng x\mathbf{x}. Quá trình này gọi là back substitution. Tương tự đối với ma trận tam giác dưới thì ta gọi là forward substitution.

14. Chuẩn của vector và ma trận

Việc đo khoảng cách giữa hai điểm dữ liệu nhiều chiều, tức hai vector, là rất cần thiết trong Machine Learning. Và đó chính là lý do mà khái niệm chuẩn (norm) ra đời. Để xác định khoảng cách giữa hai vector y\mathbf{y}z\mathbf{z}, người ta thường áp dụng một hàm số lên vector hiệu x=yz\mathbf{x = y − z}. Hàm số này cần có một vài tính chất đặc biệt.

Minh họa l1l_{1} norm và l2l_{2} norm trong không gian hai chiều. l2l_{2} norm chính là khoảng cách giữa hai điểm trong mặt phẳng. Trong khi đó l1l_{1} norm là quãng đường ngắn nhất giữa hai điểm nếu chỉ được đi theo các đường song song với các trục toạ độ.

Định nghĩa:

Một hàm số f:RnRf: \mathbb{R}^n \to \mathbb{R} được gọi là một norm nếu nó thỏa mãn ba điều kiện sau đây:

  1. f(x)0.f(\mathbf{x}) \geq 0. Dấu bằng xảy ra x=0.\Leftrightarrow \mathbf{x} = \mathbf{0}.
  2. f(αx)=αf(x),αR.f(\alpha \mathbf{x}) = |\alpha| f(\mathbf{x}), \quad \forall \alpha \in \mathbb{R}.
  3. f(x1)+f(x2)f(x1+x2),x1,x2Rnf(\mathbf{x}_1) + f(\mathbf{x}_2) \geq f(\mathbf{x}_1 + \mathbf{x}_2), \quad \forall \mathbf{x}_1, \mathbf{x}_2 \in \mathbb{R}^n

14.1. Một số chuẩn vector thường dùng

Độ dài Euclid của một vector xRn\mathbf{x} \in \mathbb{R}^{n} chính là một norm, norm này được gọi là l2{l}_{2} norm hoặc Euclidean norm:

x2=x12+x22++xn2||x||_{2} = \sqrt{x_1^2 + x_2^2 + \dots + x_n^2}

Bình phương của l2l_2 norm chính là tích vô hướng của một vector với chính nó x22=xTx||x||_{2}^2 = \mathbf{x^Tx}

Với pp là một số không nhỏ hơn 1 bất kỳ, hàm số:

xp=(x1p+x2p++xnp)1p||x||_{p} = (x_1^p + x_2^p + \dots + x_n^p)^\frac{1}{p}

được chứng minh thỏa mãn ba điều kiện của norm thì được gọi là lpl_p norm.

Có một vài giá trị của pp thường được dùng:

  1. Khi p=2p=2 chúng ta có l2l_2 norm như ở trên.
  2. Khi p=1p=1 ta có l1l_1 norm là tổng các giá trị tuyệt đối của từng phẩn tử của x\mathbf{x}.
  3. Khi pp\to\infty, giả sử i=arg maxi=1,2,...,nxji=\argmax_{i=1,2,...,n}|x_{j}|, khi đó norm ll_{\infty} chính bằng xi|x_{i}|

14.2. Chuẩn Frobenius của ma trận

Với một ma trận ARm×n\mathbf{A} \in \mathbb{R}^{m \times n}, chuẩn thường được dùng nhất là chuẩn Frobenius, ký hiệu là AF||\mathbf{A}||_{F} là căn bậc 2 của tổng bình phương tất cả các phần tử của ma trận đó.

AF=i=1mj=1naij2||\mathbf{A}||_{F}= \sqrt{\displaystyle\sum_{i=1}^m\displaystyle\sum_{j=1}^n a_{ij}^2}

Chú ý rằng l2l_2 norm A2||\mathbf{A}||_2 là một nỏm khác của ma trận, không phổ biến bằng Frobenius norm.