Table of Contents

Glossary

A

* Activation

* Activation function

* Active learning:

* ADAM

* Alexnet เป็นโครงข่ายคอนโวลูชั่น ที่รู้จักดีในวงการ หลังจากชนะการแข่งขันจำแนกชนิดวัตถุในภาพถ่าย อิมเมจเนต (ImageNet) ในปี 2012 (ชุดข้อมูลมักถูกอ้างอิงว่า ImageNet LSVRC-2012).

อเล็กซ์เน็ตเป็นงานแรก ๆ ที่แสดงความสามารถการทำนายจากเครื่อง ที่ใกล้เคียงกับระดับของมนุษย์ได้. การแข่งขัน ทดสอบผลด้วย ภาพถ่ายความละเอียดสูง 100,000 ภาพ ที่แต่ละภาพมีฉลากเฉลยของชนิดวัตถุในภาพ. ชุดข้อมูลครอบคลุมถึง 1000 ชนิดวัตถุ. ผลตัดสินวัดจากค่าผิดพลาดของห้าชนิดอันดับสูงสุด (top-5 error rate) ซึ่งอเล็กซ์เน็ตทำได้ต่ำถึง 15.3\%.

อเล็กซ์เน็ตใช้ชั้นคอนโวลูชั่น 5 ชั้น แล้วตามด้วยชั้นเชื่อมต่อเต็มที่ $3$ ชั้น รวมแล้วใช้ พารามิเตอร์ราว 60 ล้านตัว. อเล็กซ์เน็ต ใช้เรลู (ReLu) เป็นฟังก์ชันกระตุ้น (activation function) เพื่อช่วยให้การเรียนรู้ทำได้ง่ายขึ้น และใช้กลไกตกออก (drop out) เพื่อลดปัญหาโอเวอร์ฟิตติ้ง (overfitting). ที่สำคัญคือ อเล็กซ์เน็ต ใช้การประมวลผลจีพียูอย่างมีประสิทธิภาพ. อเล็กซ์เน็ตถูกฝึกกับตัวอย่างภาพร่วม 1.2 ล้านภาพ (จากชุดข้อมูลอิมเมจเนต ของปี 2010 หรือ LSVRC-2010).

* Attention: …

* Auto-encoder

B

* Batchnorm

* Bi-directional LSTM …

* Bias …

* Bias-Variance Dilemma …

* Bounding box

C

* Collaborative filtering

* Convolution layer ชั้นคำนวณที่อาศัยกลไกการเชื่อมต่อท้องถิ่นและการใช้ค่าน้ำหนักร่วม. ตัวอย่างเช่น สำหรับ Convolution 1D layer จะคำนวณเอาต์พุต $\mathbf{a} = [a_1, \ldots, a_k, \ldots, a_K]^T$ ของฟิลเตอร์ (filter) แต่ละตัวจาก

$a_k = b + \sum_{j=}^{F} w_j \cdot x_{k+j-1}$

เมื่อ $b$ คือไบอัส (bias) ของฟิลเตอร์ $w_j$ คือค่าน้ำหนัก (weight) ของฟิลเตอร์ โดย $F$ คือจำนวนค่าน้ำหนักของฟิลเตอร์ ซึ่งมักเรียกว่า ขนาดของฟิลเตอร์ และ $x_{k+j-1}$ คือ อินพุต (โดยอินพุต $\mathbf{x} = [x_1, \ldots, x_D]^T$ และ $D$ เป็นขนาดของอินพุต. ขนาดของเอาต์พุต $K$ จะขึ้นกับขนาดของอินพุต และขนาดของฟิลเตอร์. หมายเหตุ ตัวอย่างนี้ แสดงการคำนวณเมื่อใช้ขนาดก้าวย่าง (stride) เป็นหนึ่ง.

* Convolution Neural Network โครงข่ายประสาทเทียมที่มีการใช้ชั้นคอนโวลูชั่น (Convolution layer)

* Cross-entropy loss

* Cross-validation

D

* Deep learning …

* Densenet

* Drop out …

E

* ELU

* Encoder-Decoder

* Entropy (information) …

* Exploding gradient …

F

* Facenet

* Fast R-CNN …

* Filter …

* Fully connected layer

G

* Generative Adversarial Network หรือ โครงข่ายปรปักษ์เชิงสร้าง …

* GRU …

H

* Heatmap

* Hopfield network

I

* ICA

* Inception network

* Initialization (weight) …

* IoU หรือ Intersection over Union …

J

*

K

* K-Means …

* Kernel Density Estimation …

* KL Divergence หรือ Kullback Leibler Divergence: ค่าวัดว่าค่าการแจกแจงที่ทำนาย ต่างจากการแจกแจงอ้างอิงเท่าไร. ถ้ากำหนดให้ $f(X, \beta)$ เป็นค่า pdf หรือ pmf ที่ทำนายจากโมเดล และ $g(X, \mu)$ เป็นค่า pdf หรือ pmf ของการแจกแจงอ้างอิง (หรือค่าที่วัดได้จากข้อมูล) แล้วค่า KL Divergence นิยามว่า \begin{equation} I(g, f) = \int g(X, \mu) \log \frac{g(X, \mu)}{f(X, \beta)} dX \end{equation} เมื่อ $\beta$ และ $\mu$ เป็นค่าพารามิเตอร์ต่าง ๆ ของโมเดล $f$ และ $g$ ตามลำดับ. ปริมาณ I(g,f) ใช้วัดสารสนเทศที่สูญเสียไป เมื่อใช้โมเดล $f$ แทนการแจกแจง $g$.

L

* Long Short-Term Memory (LSTM) หรือ โมเดลความจำระยะสั้นที่ยาว หมายถึง โมเดลสำหรับข้อมูลเชิงลำดับ ที่ใช้โครงสร้างของสถานะภายใน เรียกว่า เซลล์ และใช้กลไกของประตู (gate) ในการปรับปรุงค่า. กลไกต่าง ๆ ทำเพื่อลดปัญหาความสัมพันธ์ระยะยาวในลำดับ ที่พบในโมเดลเชิงลำดับแบบดั้งเดิม (RNN หรือ โครงข่ายประสาทเทียมแบบป้อนกลับ)

* Loss function หรือ ฟังก์ชันสูญเสีย หมายถึง ฟังก์ชันจุดประสงค์ สำหรับปัญหาการหาค่าน้อยที่สุด ซึ่งงานการรู้จำรูปแบบ ด้วยวิธีการเรียนรู้ของเครื่องมักตีกรอบปัญหา (หรือส่วนที่ต้องการให้เครื่องเรียนรู้ของปัญหา) เป็นปัญหาการหาค่าดีที่สุด

M

* Meta-learning: …

N

* Node หรือ หน่วยคำนวณย่อย (เชิงตรรกะ) ในโครงข่ายประสาทเทียม

* Non-maximum suppression

O

* Overfitting

* Object detection การตรวจหาวัตถุ

* Object tracking การติดตามวัตถุ

P

* Padding หรือ การเติมเต็ม อาจเรียก zero-padding คือ การเติมค่าศูนย์ เข้าไปในอินพุต เพื่อปรับขนาดเอาต์พุต จากชั้นคอนโวลูชั่น (convolution layer) ให้ได้ขนาดตามต้องการ ซึ่งโดยมากคือรักษาขนาดเดิมของอินพุตไว้.

ตัวอย่าง การเติมค่าศูนย์ เพื่อรักษาให้เอาต์พุตมีขนาดเท่ากับอินพุต สำหรับอินพุตที่เป็นเวคเตอร์ อาจสรุปเป็นจำนวนของค่าศูนย์ที่ต้องเติมเข้าไปในอินพุตได้ว่า

$P_{\mathrm{start}} = \left\lfloor \frac{S \lceil \frac{D}{S} \rceil - D + F - S}{2} \right\rfloor$

$P_{\mathrm{end}} = \left\lceil \frac{S \lceil \frac{D}{S} \rceil - D + F - S}{2} \right\rceil$

เมื่อ $P_{\mathrm{start}}$ และ $P_{\mathrm{end}}$ คือจำนวนค่าศูนย์ที่ต้องเติมด้านหน้า และด้านหลังของอินพุตตามลำดับ นั่นคือ อินพุตหลังการเติมเติม $\mathbf{\hat{x}} = [0, \ldots, 0, \; \mathbf{x}, \; 0, \ldots, 0]$ เมื่อ $\mathbf{x}$ เป็นอินพุตดั้งเดิม และจำนวนค่าศูนย์ด้านหน้า (ซ้ายมือ) ของอินพุตดั้งเดิม เท่ากับ $P_{\mathrm{start}}$ และจำนวนค่าศูนย์ด้านหลัง (ขวามือ) ของอินพุตดั้งเดิม เท่ากับ $P_{\mathrm{end}}$. ค่า $S$ คือขนาดก้าวย่าง (stride). ค่า $F$ คือขนาดฟิลเตอร์ (filter). ส่วนค่า $D$ คือขนาดอินพุต นั่นคือ $\mathbf{x} \in \mathbb{R}^D$ และการทำคอนโวลูชั่น ทำในชุดมิติของ $D$.

* Part Affinity …

* Pooling layer: …

* Pre-training: …

Q

* Q-learning …

R

* Receptive field หรือ สนามรับรู้ สำหรับโครงข่ายคอนโวลูชั่น คือบริเวณพื้นที่ท้องถิ่นของอินพุต ที่หน่วยย่อยที่สนใจครอบคลุมถึง. ขนาดของสนามรับรู้ สามารถคำนวณได้จาก

$R_k = 1 + \sum_{j=1}^k (F_j - 1) \prod_{i=0}^{j-1} S_i$

เมื่อ $R_k$ เป็นขนาดของสนามรับรู้ แล้ว $F_j$ เป็นขนาดฟิลเตอร์ของชั้นที่ $j$ และ $S_i$ เป็นขนาดก้าวย่างของชั้นที่ $i$ และกำหนดให้ $S_0 = 1$.

ตัวอย่าง เช่น โครงข่ายคอนโวลูชั่นสองชั้น ที่ชั้นแรก ใช้ฟิลเตอร์ขนาด 3×3 ก้างย่างเป็น 1 และชั้นที่สองก็ใช้ฟิลเตอร์ 3×3 และก้าวย่างเป็น 1 แล้ว แต่ละหน่วยย่อยในชั้นที่สอง จะครอบคลุมพื้นที่ขนาด 3×3 ในชั้นที่หนึ่ง และจะครอบคลุมพื้นที่ขนาด 5×5 ของอินพุต. นั่นคือ $R_2 = 1 + (F_2 - 1) S_0 S_1 + (F_1 - 1) S_0$ = $1 + (2)(1)(1) + (2)(1) = 5$.

* Reinforcement learning …

* ReLu

* Representation learning: …

* Resnet

* Restricted Boltzmann Machine หรือมักย่อว่า RBM: …

S

* SARSA …

* Semantic segmentation การแบ่งส่วนภาพตามความหมาย

* Sigmoid

* Softmax

* Style transfer

T

* Transfer learning: …

* Transformer

U

* Underfitting

W

* Weights …

V

* Validation …

* Variational Auto-Encoder หรือมักย่อว่า VAE: …

* VGG net

X

* Xavier initialization: …

Y

* YOLO …

Z

* Zero-shot learning …