* Activation
* Activation function
* Active learning:
* ADAM
* Alexnet เป็นโครงข่ายคอนโวลูชั่น ที่รู้จักดีในวงการ หลังจากชนะการแข่งขันจำแนกชนิดวัตถุในภาพถ่าย อิมเมจเนต (ImageNet) ในปี 2012 (ชุดข้อมูลมักถูกอ้างอิงว่า ImageNet LSVRC-2012).
อเล็กซ์เน็ตเป็นงานแรก ๆ ที่แสดงความสามารถการทำนายจากเครื่อง ที่ใกล้เคียงกับระดับของมนุษย์ได้. การแข่งขัน ทดสอบผลด้วย ภาพถ่ายความละเอียดสูง 100,000 ภาพ ที่แต่ละภาพมีฉลากเฉลยของชนิดวัตถุในภาพ. ชุดข้อมูลครอบคลุมถึง 1000 ชนิดวัตถุ. ผลตัดสินวัดจากค่าผิดพลาดของห้าชนิดอันดับสูงสุด (top-5 error rate) ซึ่งอเล็กซ์เน็ตทำได้ต่ำถึง 15.3\%.
อเล็กซ์เน็ตใช้ชั้นคอนโวลูชั่น 5 ชั้น แล้วตามด้วยชั้นเชื่อมต่อเต็มที่ 3 ชั้น รวมแล้วใช้ พารามิเตอร์ราว 60 ล้านตัว. อเล็กซ์เน็ต ใช้เรลู (ReLu) เป็นฟังก์ชันกระตุ้น (activation function) เพื่อช่วยให้การเรียนรู้ทำได้ง่ายขึ้น และใช้กลไกตกออก (drop out) เพื่อลดปัญหาโอเวอร์ฟิตติ้ง (overfitting). ที่สำคัญคือ อเล็กซ์เน็ต ใช้การประมวลผลจีพียูอย่างมีประสิทธิภาพ. อเล็กซ์เน็ตถูกฝึกกับตัวอย่างภาพร่วม 1.2 ล้านภาพ (จากชุดข้อมูลอิมเมจเนต ของปี 2010 หรือ LSVRC-2010).
* Attention: …
* Auto-encoder
* Batchnorm
* Bi-directional LSTM …
* Bias …
* Bias-Variance Dilemma …
* Bounding box
* Collaborative filtering
* Convolution layer ชั้นคำนวณที่อาศัยกลไกการเชื่อมต่อท้องถิ่นและการใช้ค่าน้ำหนักร่วม. ตัวอย่างเช่น สำหรับ Convolution 1D layer จะคำนวณเอาต์พุต a=[a1,…,ak,…,aK]T ของฟิลเตอร์ (filter) แต่ละตัวจาก
ak=b+∑Fj=wj⋅xk+j−1
เมื่อ b คือไบอัส (bias) ของฟิลเตอร์ wj คือค่าน้ำหนัก (weight) ของฟิลเตอร์ โดย F คือจำนวนค่าน้ำหนักของฟิลเตอร์ ซึ่งมักเรียกว่า ขนาดของฟิลเตอร์ และ xk+j−1 คือ อินพุต (โดยอินพุต x=[x1,…,xD]T และ D เป็นขนาดของอินพุต. ขนาดของเอาต์พุต K จะขึ้นกับขนาดของอินพุต และขนาดของฟิลเตอร์. หมายเหตุ ตัวอย่างนี้ แสดงการคำนวณเมื่อใช้ขนาดก้าวย่าง (stride) เป็นหนึ่ง.
* Convolution Neural Network โครงข่ายประสาทเทียมที่มีการใช้ชั้นคอนโวลูชั่น (Convolution layer)
* Cross-entropy loss
* Cross-validation
* Deep learning …
* Densenet
* Drop out …
* ELU
* Encoder-Decoder
* Entropy (information) …
* Exploding gradient …
* Facenet
* Fast R-CNN …
* Filter …
* Fully connected layer
* Generative Adversarial Network หรือ โครงข่ายปรปักษ์เชิงสร้าง …
* GRU …
* Heatmap
* Hopfield network
* ICA
* Inception network
* Initialization (weight) …
* IoU หรือ Intersection over Union …
*
* K-Means …
* Kernel Density Estimation …
* KL Divergence หรือ Kullback Leibler Divergence: ค่าวัดว่าค่าการแจกแจงที่ทำนาย ต่างจากการแจกแจงอ้างอิงเท่าไร. ถ้ากำหนดให้ f(X,β) เป็นค่า pdf หรือ pmf ที่ทำนายจากโมเดล และ g(X,μ) เป็นค่า pdf หรือ pmf ของการแจกแจงอ้างอิง (หรือค่าที่วัดได้จากข้อมูล) แล้วค่า KL Divergence นิยามว่า I(g,f)=∫g(X,μ)logg(X,μ)f(X,β)dX เมื่อ β และ μ เป็นค่าพารามิเตอร์ต่าง ๆ ของโมเดล f และ g ตามลำดับ. ปริมาณ I(g,f) ใช้วัดสารสนเทศที่สูญเสียไป เมื่อใช้โมเดล f แทนการแจกแจง g.
* Long Short-Term Memory (LSTM) หรือ โมเดลความจำระยะสั้นที่ยาว หมายถึง โมเดลสำหรับข้อมูลเชิงลำดับ ที่ใช้โครงสร้างของสถานะภายใน เรียกว่า เซลล์ และใช้กลไกของประตู (gate) ในการปรับปรุงค่า. กลไกต่าง ๆ ทำเพื่อลดปัญหาความสัมพันธ์ระยะยาวในลำดับ ที่พบในโมเดลเชิงลำดับแบบดั้งเดิม (RNN หรือ โครงข่ายประสาทเทียมแบบป้อนกลับ)
* Loss function หรือ ฟังก์ชันสูญเสีย หมายถึง ฟังก์ชันจุดประสงค์ สำหรับปัญหาการหาค่าน้อยที่สุด ซึ่งงานการรู้จำรูปแบบ ด้วยวิธีการเรียนรู้ของเครื่องมักตีกรอบปัญหา (หรือส่วนที่ต้องการให้เครื่องเรียนรู้ของปัญหา) เป็นปัญหาการหาค่าดีที่สุด
* Meta-learning: …
* Node หรือ หน่วยคำนวณย่อย (เชิงตรรกะ) ในโครงข่ายประสาทเทียม
* Non-maximum suppression
* Overfitting
* Object detection การตรวจหาวัตถุ
* Object tracking การติดตามวัตถุ
* Padding หรือ การเติมเต็ม อาจเรียก zero-padding คือ การเติมค่าศูนย์ เข้าไปในอินพุต เพื่อปรับขนาดเอาต์พุต จากชั้นคอนโวลูชั่น (convolution layer) ให้ได้ขนาดตามต้องการ ซึ่งโดยมากคือรักษาขนาดเดิมของอินพุตไว้.
ตัวอย่าง การเติมค่าศูนย์ เพื่อรักษาให้เอาต์พุตมีขนาดเท่ากับอินพุต สำหรับอินพุตที่เป็นเวคเตอร์ อาจสรุปเป็นจำนวนของค่าศูนย์ที่ต้องเติมเข้าไปในอินพุตได้ว่า
Pstart=⌊S⌈DS⌉−D+F−S2⌋
Pend=⌈S⌈DS⌉−D+F−S2⌉
เมื่อ Pstart และ Pend คือจำนวนค่าศูนย์ที่ต้องเติมด้านหน้า และด้านหลังของอินพุตตามลำดับ นั่นคือ อินพุตหลังการเติมเติม ˆx=[0,…,0,x,0,…,0] เมื่อ x เป็นอินพุตดั้งเดิม และจำนวนค่าศูนย์ด้านหน้า (ซ้ายมือ) ของอินพุตดั้งเดิม เท่ากับ Pstart และจำนวนค่าศูนย์ด้านหลัง (ขวามือ) ของอินพุตดั้งเดิม เท่ากับ Pend. ค่า S คือขนาดก้าวย่าง (stride). ค่า F คือขนาดฟิลเตอร์ (filter). ส่วนค่า D คือขนาดอินพุต นั่นคือ x∈RD และการทำคอนโวลูชั่น ทำในชุดมิติของ D.
* Part Affinity …
* Pooling layer: …
* Pre-training: …
* Q-learning …
* Receptive field หรือ สนามรับรู้ สำหรับโครงข่ายคอนโวลูชั่น คือบริเวณพื้นที่ท้องถิ่นของอินพุต ที่หน่วยย่อยที่สนใจครอบคลุมถึง. ขนาดของสนามรับรู้ สามารถคำนวณได้จาก
Rk=1+∑kj=1(Fj−1)∏j−1i=0Si
เมื่อ Rk เป็นขนาดของสนามรับรู้ แล้ว Fj เป็นขนาดฟิลเตอร์ของชั้นที่ j และ Si เป็นขนาดก้าวย่างของชั้นที่ i และกำหนดให้ S0=1.
ตัวอย่าง เช่น โครงข่ายคอนโวลูชั่นสองชั้น ที่ชั้นแรก ใช้ฟิลเตอร์ขนาด 3×3 ก้างย่างเป็น 1 และชั้นที่สองก็ใช้ฟิลเตอร์ 3×3 และก้าวย่างเป็น 1 แล้ว แต่ละหน่วยย่อยในชั้นที่สอง จะครอบคลุมพื้นที่ขนาด 3×3 ในชั้นที่หนึ่ง และจะครอบคลุมพื้นที่ขนาด 5×5 ของอินพุต. นั่นคือ R2=1+(F2−1)S0S1+(F1−1)S0 = 1+(2)(1)(1)+(2)(1)=5.
* Reinforcement learning …
* ReLu
* Representation learning: …
* Resnet
* Restricted Boltzmann Machine หรือมักย่อว่า RBM: …
* SARSA …
* Semantic segmentation การแบ่งส่วนภาพตามความหมาย
* Sigmoid
* Softmax
* Style transfer
* Transfer learning: …
* Transformer
* Underfitting
* Weights …
* Validation …
* Variational Auto-Encoder หรือมักย่อว่า VAE: …
* VGG net
* Xavier initialization: …
* YOLO …
* Zero-shot learning …