* Activation
* Activation function
* Active learning:
* ADAM
* Alexnet เป็นโครงข่ายคอนโวลูชั่น ที่รู้จักดีในวงการ หลังจากชนะการแข่งขันจำแนกชนิดวัตถุในภาพถ่าย อิมเมจเนต (ImageNet) ในปี 2012 (ชุดข้อมูลมักถูกอ้างอิงว่า ImageNet LSVRC-2012).
อเล็กซ์เน็ตเป็นงานแรก ๆ ที่แสดงความสามารถการทำนายจากเครื่อง ที่ใกล้เคียงกับระดับของมนุษย์ได้. การแข่งขัน ทดสอบผลด้วย ภาพถ่ายความละเอียดสูง 100,000 ภาพ ที่แต่ละภาพมีฉลากเฉลยของชนิดวัตถุในภาพ. ชุดข้อมูลครอบคลุมถึง 1000 ชนิดวัตถุ. ผลตัดสินวัดจากค่าผิดพลาดของห้าชนิดอันดับสูงสุด (top-5 error rate) ซึ่งอเล็กซ์เน็ตทำได้ต่ำถึง 15.3\%.
อเล็กซ์เน็ตใช้ชั้นคอนโวลูชั่น 5 ชั้น แล้วตามด้วยชั้นเชื่อมต่อเต็มที่ $3$ ชั้น รวมแล้วใช้ พารามิเตอร์ราว 60 ล้านตัว. อเล็กซ์เน็ต ใช้เรลู (ReLu) เป็นฟังก์ชันกระตุ้น (activation function) เพื่อช่วยให้การเรียนรู้ทำได้ง่ายขึ้น และใช้กลไกตกออก (drop out) เพื่อลดปัญหาโอเวอร์ฟิตติ้ง (overfitting). ที่สำคัญคือ อเล็กซ์เน็ต ใช้การประมวลผลจีพียูอย่างมีประสิทธิภาพ. อเล็กซ์เน็ตถูกฝึกกับตัวอย่างภาพร่วม 1.2 ล้านภาพ (จากชุดข้อมูลอิมเมจเนต ของปี 2010 หรือ LSVRC-2010).
* Attention: …
* Auto-encoder
* Batchnorm
* Bi-directional LSTM …
* Bias …
* Bias-Variance Dilemma …
* Bounding box
* Collaborative filtering
* Convolution layer ชั้นคำนวณที่อาศัยกลไกการเชื่อมต่อท้องถิ่นและการใช้ค่าน้ำหนักร่วม. ตัวอย่างเช่น สำหรับ Convolution 1D layer จะคำนวณเอาต์พุต $\mathbf{a} = [a_1, \ldots, a_k, \ldots, a_K]^T$ ของฟิลเตอร์ (filter) แต่ละตัวจาก
$a_k = b + \sum_{j=}^{F} w_j \cdot x_{k+j-1}$
เมื่อ $b$ คือไบอัส (bias) ของฟิลเตอร์ $w_j$ คือค่าน้ำหนัก (weight) ของฟิลเตอร์ โดย $F$ คือจำนวนค่าน้ำหนักของฟิลเตอร์ ซึ่งมักเรียกว่า ขนาดของฟิลเตอร์ และ $x_{k+j-1}$ คือ อินพุต (โดยอินพุต $\mathbf{x} = [x_1, \ldots, x_D]^T$ และ $D$ เป็นขนาดของอินพุต. ขนาดของเอาต์พุต $K$ จะขึ้นกับขนาดของอินพุต และขนาดของฟิลเตอร์. หมายเหตุ ตัวอย่างนี้ แสดงการคำนวณเมื่อใช้ขนาดก้าวย่าง (stride) เป็นหนึ่ง.
* Convolution Neural Network โครงข่ายประสาทเทียมที่มีการใช้ชั้นคอนโวลูชั่น (Convolution layer)
* Cross-entropy loss
* Cross-validation
* Deep learning …
* Densenet
* Drop out …
* ELU
* Encoder-Decoder
* Entropy (information) …
* Exploding gradient …
* Facenet
* Fast R-CNN …
* Filter …
* Fully connected layer
* Generative Adversarial Network หรือ โครงข่ายปรปักษ์เชิงสร้าง …
* GRU …
* Heatmap
* Hopfield network
* ICA
* Inception network
* Initialization (weight) …
* IoU หรือ Intersection over Union …
*
* K-Means …
* Kernel Density Estimation …
* KL Divergence หรือ Kullback Leibler Divergence: ค่าวัดว่าค่าการแจกแจงที่ทำนาย ต่างจากการแจกแจงอ้างอิงเท่าไร. ถ้ากำหนดให้ $f(X, \beta)$ เป็นค่า pdf หรือ pmf ที่ทำนายจากโมเดล และ $g(X, \mu)$ เป็นค่า pdf หรือ pmf ของการแจกแจงอ้างอิง (หรือค่าที่วัดได้จากข้อมูล) แล้วค่า KL Divergence นิยามว่า \begin{equation} I(g, f) = \int g(X, \mu) \log \frac{g(X, \mu)}{f(X, \beta)} dX \end{equation} เมื่อ $\beta$ และ $\mu$ เป็นค่าพารามิเตอร์ต่าง ๆ ของโมเดล $f$ และ $g$ ตามลำดับ. ปริมาณ I(g,f) ใช้วัดสารสนเทศที่สูญเสียไป เมื่อใช้โมเดล $f$ แทนการแจกแจง $g$.
* Long Short-Term Memory (LSTM) หรือ โมเดลความจำระยะสั้นที่ยาว หมายถึง โมเดลสำหรับข้อมูลเชิงลำดับ ที่ใช้โครงสร้างของสถานะภายใน เรียกว่า เซลล์ และใช้กลไกของประตู (gate) ในการปรับปรุงค่า. กลไกต่าง ๆ ทำเพื่อลดปัญหาความสัมพันธ์ระยะยาวในลำดับ ที่พบในโมเดลเชิงลำดับแบบดั้งเดิม (RNN หรือ โครงข่ายประสาทเทียมแบบป้อนกลับ)
* Loss function หรือ ฟังก์ชันสูญเสีย หมายถึง ฟังก์ชันจุดประสงค์ สำหรับปัญหาการหาค่าน้อยที่สุด ซึ่งงานการรู้จำรูปแบบ ด้วยวิธีการเรียนรู้ของเครื่องมักตีกรอบปัญหา (หรือส่วนที่ต้องการให้เครื่องเรียนรู้ของปัญหา) เป็นปัญหาการหาค่าดีที่สุด
* Meta-learning: …
* Node หรือ หน่วยคำนวณย่อย (เชิงตรรกะ) ในโครงข่ายประสาทเทียม
* Non-maximum suppression
* Overfitting
* Object detection การตรวจหาวัตถุ
* Object tracking การติดตามวัตถุ
* Padding หรือ การเติมเต็ม อาจเรียก zero-padding คือ การเติมค่าศูนย์ เข้าไปในอินพุต เพื่อปรับขนาดเอาต์พุต จากชั้นคอนโวลูชั่น (convolution layer) ให้ได้ขนาดตามต้องการ ซึ่งโดยมากคือรักษาขนาดเดิมของอินพุตไว้.
ตัวอย่าง การเติมค่าศูนย์ เพื่อรักษาให้เอาต์พุตมีขนาดเท่ากับอินพุต สำหรับอินพุตที่เป็นเวคเตอร์ อาจสรุปเป็นจำนวนของค่าศูนย์ที่ต้องเติมเข้าไปในอินพุตได้ว่า
$P_{\mathrm{start}} = \left\lfloor \frac{S \lceil \frac{D}{S} \rceil - D + F - S}{2} \right\rfloor$
$P_{\mathrm{end}} = \left\lceil \frac{S \lceil \frac{D}{S} \rceil - D + F - S}{2} \right\rceil$
เมื่อ $P_{\mathrm{start}}$ และ $P_{\mathrm{end}}$ คือจำนวนค่าศูนย์ที่ต้องเติมด้านหน้า และด้านหลังของอินพุตตามลำดับ นั่นคือ อินพุตหลังการเติมเติม $\mathbf{\hat{x}} = [0, \ldots, 0, \; \mathbf{x}, \; 0, \ldots, 0]$ เมื่อ $\mathbf{x}$ เป็นอินพุตดั้งเดิม และจำนวนค่าศูนย์ด้านหน้า (ซ้ายมือ) ของอินพุตดั้งเดิม เท่ากับ $P_{\mathrm{start}}$ และจำนวนค่าศูนย์ด้านหลัง (ขวามือ) ของอินพุตดั้งเดิม เท่ากับ $P_{\mathrm{end}}$. ค่า $S$ คือขนาดก้าวย่าง (stride). ค่า $F$ คือขนาดฟิลเตอร์ (filter). ส่วนค่า $D$ คือขนาดอินพุต นั่นคือ $\mathbf{x} \in \mathbb{R}^D$ และการทำคอนโวลูชั่น ทำในชุดมิติของ $D$.
* Part Affinity …
* Pooling layer: …
* Pre-training: …
* Q-learning …
* Receptive field หรือ สนามรับรู้ สำหรับโครงข่ายคอนโวลูชั่น คือบริเวณพื้นที่ท้องถิ่นของอินพุต ที่หน่วยย่อยที่สนใจครอบคลุมถึง. ขนาดของสนามรับรู้ สามารถคำนวณได้จาก
$R_k = 1 + \sum_{j=1}^k (F_j - 1) \prod_{i=0}^{j-1} S_i$
เมื่อ $R_k$ เป็นขนาดของสนามรับรู้ แล้ว $F_j$ เป็นขนาดฟิลเตอร์ของชั้นที่ $j$ และ $S_i$ เป็นขนาดก้าวย่างของชั้นที่ $i$ และกำหนดให้ $S_0 = 1$.
ตัวอย่าง เช่น โครงข่ายคอนโวลูชั่นสองชั้น ที่ชั้นแรก ใช้ฟิลเตอร์ขนาด 3×3 ก้างย่างเป็น 1 และชั้นที่สองก็ใช้ฟิลเตอร์ 3×3 และก้าวย่างเป็น 1 แล้ว แต่ละหน่วยย่อยในชั้นที่สอง จะครอบคลุมพื้นที่ขนาด 3×3 ในชั้นที่หนึ่ง และจะครอบคลุมพื้นที่ขนาด 5×5 ของอินพุต. นั่นคือ $R_2 = 1 + (F_2 - 1) S_0 S_1 + (F_1 - 1) S_0$ = $1 + (2)(1)(1) + (2)(1) = 5$.
* Reinforcement learning …
* ReLu
* Representation learning: …
* Resnet
* Restricted Boltzmann Machine หรือมักย่อว่า RBM: …
* SARSA …
* Semantic segmentation การแบ่งส่วนภาพตามความหมาย
* Sigmoid
* Softmax
* Style transfer
* Transfer learning: …
* Transformer
* Underfitting
* Weights …
* Validation …
* Variational Auto-Encoder หรือมักย่อว่า VAE: …
* VGG net
* Xavier initialization: …
* YOLO …
* Zero-shot learning …