
New theoretical analysis frames deep neural networks as geometric systems, revealing why ReLU's preservation of spatial distance information gives it a decisive edge over sigmoid for deep inference. The geometric perspective offers a principled framework for understanding activation function choices and their real-world cost implications.
ชุมชนการเรียนรู้ของเครื่องจักรได้กลับมาพิจารณาหนึ่งในตัวเลือกพื้นฐานที่สุดของการเรียนรู้เชิงลึกอีกครั้ง นั่นคือ ฟังก์ชันการกระตุ้น (activation function) ผ่านกรอบการทำงานที่ดูสง่างามอย่างน่าประหลาดใจ การวิเคราะห์เชิงทฤษฎีใหม่นี้มองว่าโครงข่ายประสาทเทียมเชิงลึกเป็นระบบ ทางเรขาคณิต โดยแต่ละชั้นทำหน้าที่เป็นการแปลงเชิงพื้นที่ที่สร้างขอบเขตการตัดสินใจในพื้นที่มิติสูง ภายใต้แนวคิดนี้ การถกเถียงเรื่อง sigmoid กับ ReLU แบบคลาสสิกจึงมีมิติใหม่ทั้งหมด: มันกลายเป็นคำถามว่าแต่ละฟังก์ชันรักษาความสัมพันธ์เชิงพื้นที่ที่ทำให้ความลึกมีประโยชน์ได้ดีเพียงใด
นี่ไม่ใช่แค่การศึกษาเชิงวิชาการเท่านั้น ผลการค้นพบนี้มีนัยสำคัญอย่างแท้จริงต่อประสิทธิภาพการอนุมาน การปรับขนาดโมเดล และการตัดสินใจด้านสถาปัตยกรรมที่วิศวกรในบริษัทต่างๆ เช่น Google DeepMind, Meta FAIR และ OpenAI ทำในทุกๆ วัน
โดยพื้นฐานแล้ว ข้อโต้แย้งนี้ดูเรียบง่ายอย่างน่าประหลาดใจ ลองนึกถึงโครงข่ายประสาทเทียมว่าเป็นเครื่องจักรที่ค่อยๆ บิดเบือนพื้นที่อินพุต — บิด ยืด และพับมันไปเรื่อยๆ จนกระทั่งจุดข้อมูลที่อยู่ในคลาสต่างกันไปอยู่คนละฝั่งของ เส้นแบ่ง การตัดสินใจที่ชัดเจน เพื่อให้การเปลี่ยนแปลงแบบต่อเนื่องนี้ทำงานได้ในหลายๆ ชั้น แต่ละชั้นจำเป็นต้องรู้ไม่เพียงแต่ว่าจุดนั้นอยู่ ฝั่งใด ของเส้นแบ่ง แต่ยังต้องรู้ด้วยว่ามันอยู่ ห่างออกไปเท่าใด
ระยะทางนั้น— บริบททางเรขาคณิต —คือสัญญาณสำคัญ มันบอกเลเยอร์ถัดไปว่าจุดข้อมูลนั้นเป็นกรณีที่ก้ำกึ่งซึ่งต้องการการปรับแต่งอย่างละเอียดอ่อน หรือเป็นการจำแนกประเภทที่มั่นใจได้ซึ่งสามารถใช้เป็นพื้นฐานสำหรับการแสดงผลที่กว้างขึ้น หากปราศจากสัญญาณนั้น เลเยอร์ที่อยู่ลึกลงไปก็เหมือนกับกำลังทำงานโดยไม่รู้ทิศทาง
ฟังก์ชัน ซิกมอยด์ จะแปลงจำนวนจริงทุกจำนวนให้อยู่ในช่วง (0, 1) ฟังดูเรียบร้อยดี แต่กลับสร้างปัญหาคอขวดอย่างร้ายแรงสำหรับการให้เหตุผล เชิงเรขาคณิต :
ผลโดยรวมคือ การเพิ่มเลเยอร์เข้าไปในเครือข่ายแบบซิกมอยด์จะให้ผลตอบแทนที่ลดลง ความลึกกลายเป็นภาระมากกว่าข้อดี เพราะแต่ละเลเยอร์จะได้รับข้อมูลทาง เรขาคณิต ที่ด้อยคุณภาพลงกว่าที่ควรจะเป็น
หน่วยเชิงเส้นแบบปรับแก้ (Rectified Linear Unit หรือ ReLU ) ใช้แนวทางที่แตกต่างอย่างสิ้นเชิง กล่าวคือ มันจะส่งผ่านค่าบวกโดยไม่เปลี่ยนแปลง และกำหนดค่าลบทั้งหมดให้เป็นศูนย์ พฤติกรรมเชิงเส้นแบบเป็นช่วงๆ นี้มีผล ทางเรขาคณิต ที่สำคัญอย่างยิ่ง
การรักษาขนาดเชิงพื้นที่นี้ไว้อย่างแม่นยำ คือเหตุผลสำคัญที่ทำให้สถาปัตยกรรมอย่าง ResNets และ Transformer รุ่นใหม่ๆ สามารถซ้อนเลเยอร์ได้อย่างมีประสิทธิภาพ แต่ละเลเยอร์จะได้รับการแสดงโครงสร้าง ทางเรขาคณิต ที่ถูกต้องจากต้นทาง ทำให้สามารถสร้าง ขอบเขต การตัดสินใจที่ละเอียดอ่อนยิ่งขึ้นได้
เมื่ออุตสาหกรรมกำลังเปลี่ยนจากการฝึกฝนไปสู่การอนุมาน ซึ่งได้รับแรงผลักดันจากการใช้งานโมเดลภาษาขนาดใหญ่ AI บนอุปกรณ์ปลายทาง และแอปพลิเคชันแบบเรียลไทม์ ต้นทุนของการแสดงผลที่ไม่สมบูรณ์จึงกลายเป็นสิ่งที่จับต้องได้ หากฟังก์ชันการกระตุ้นบังคับให้เครือข่ายมีความลึกหรือความกว้างมากขึ้นเพื่อชดเชย บริบท ที่หายไป นั่นจะส่งผลโดยตรงต่อความหน่วงที่สูงขึ้น การใช้หน่วยความจำมากขึ้น และการใช้พลังงานที่เพิ่มขึ้น
สำหรับผู้ปฏิบัติงานที่กำลังมองหาวิธีออกแบบโมเดลที่มีประสิทธิภาพ การทำความเข้าใจว่าตัวเลือกการเปิดใช้งานส่งผลต่อ การสร้างไปป์ไลน์การเพิ่มประสิทธิภาพโมเดลแบบครบวงจรด้วย NVIDIA อย่างไรนั้น ไม่ใช่เรื่องที่เลือกได้อีกต่อไป แต่เป็นสิ่งจำเป็นสำหรับการแข่งขัน
ลองพิจารณาขนาดดู: มีรายงานว่า GPT-4 ของ OpenAI ใช้รูปแบบต่างๆ ของฟังก์ชันการกระตุ้น GELU (การประมาณ ค่า ReLU ที่ราบเรียบ) ใน เลเยอร์ Transformer ต่างๆ ตระกูล PaLM ของ Google ก็เลือกใช้ในลักษณะเดียวกัน การตัดสินใจเหล่านี้ไม่ใช่เรื่องบังเอิญ แต่สะท้อนให้เห็นถึงความเข้าใจอย่างลึกซึ้งว่า การรักษาข้อมูล ทางเรขาคณิต ไว้ในแต่ละเลเยอร์นั้นมีความสำคัญอย่างยิ่งต่อการดึงพลังการแสดงผลสูงสุดจากทุกพารามิเตอร์
ฟังก์ชันซิกมอยด์ครองวงการวิจัยโครงข่ายประสาทเทียมตลอดช่วงทศวรรษ 1980 และ 1990 ส่วนใหญ่เป็นเพราะคุณสมบัติทางคณิตศาสตร์ที่ยอดเยี่ยมและความสมเหตุสมผลทางชีววิทยา แต่เมื่อโครงข่ายมีความซับซ้อนมากขึ้นในทศวรรษ 2010 ข้อจำกัดของมันก็ไม่อาจมองข้ามได้อีกต่อไป
บทความ AlexNet ปี 2012 โดย Krizhevsky, Sutskever และ Hinton ถือเป็นจุดเปลี่ยนสำคัญ ด้วยการนำ ReLU มาใช้ ทีมงานประสบความสำเร็จในการฝึกฝนโมเดล ImageNet ได้เร็วขึ้นอย่างมาก และเป็นตัวเร่งให้เกิดการปฏิวัติการเรียนรู้เชิงลึก นับตั้งแต่นั้นมา ตระกูล ReLU ก็ได้ขยายออกไปรวมถึง Leaky ReLU, PReLU, ELU, Swish และ GELU ซึ่งทั้งหมดได้รับการออกแบบมาเพื่อแก้ไขข้อบกพร่องของ ReLU เอง (ปัญหา "เซลล์ประสาทที่กำลังจะตาย") ในขณะที่ยังคงรักษาข้อได้เปรียบหลักไว้ นั่นคือการรักษาระดับขนาด
หากคุณกำลังทำความเข้าใจว่าส่วนประกอบเหล่านี้เข้ากับสถาปัตยกรรมโมเดลที่กว้างขึ้นได้อย่างไร บทสรุปของเราเรื่อง " การสร้างไปป์ไลน์ข้อมูลอัจฉริยะด้วย LangExtract" จะให้ข้อมูลพื้นฐานที่เป็นประโยชน์
การตีความฟังก์ชันการกระตุ้นใหม่ในฐานะตัวดำเนินการ ทางเรขาคณิต นั้นไม่ใช่เรื่องใหม่เสียทีเดียว นักวิจัยอย่าง Ian Goodfellow และ Yoshua Bengio ได้อภิปรายสมมติฐานแมนิโฟลด์มานานแล้ว ซึ่งตั้งสมมติฐานว่าข้อมูลในโลกแห่งความเป็นจริงนั้นอยู่บนพื้นผิวที่มีมิติlต่ำในพื้นที่ที่มีมิติสูง สิ่งที่ใหม่คือการเชื่อมโยงอย่างชัดเจนระหว่างการเลือกฟังก์ชันการกระตุ้นและการรักษาข้อมูลระยะห่างจากขอบเขตข้าม ชั้นต่างๆ
มุมมองนี้เสนอเกณฑ์ที่มีหลักการสำหรับการประเมินไม่เพียงแต่การทำงานที่มีอยู่แล้ว แต่รวมถึงการทำงานในอนาคตด้วย ฟังก์ชันใดๆ ก็ตามสามารถประเมินได้โดยการถามว่า: ฟังก์ชันนั้นรักษาหรือทำลาย บริบททางเรขาคณิต ที่เลเยอร์ถัดไปต้องการเพื่อสร้าง ขอบเขต การตัดสินใจที่มีประสิทธิภาพหรือไม่?
มีแนวโน้มหลายอย่างที่น่าจับตามอง:
การถกเถียงเรื่องฟังก์ชันซิกมอยด์กับรีลู (ReLU) ยังไม่ใช่เรื่องที่จบลงง่ายๆ มันเป็นการตัดสินใจด้านการออกแบบที่มีชีวิตชีวาและมีผลกระทบที่วัดได้ต่อต้นทุนการอนุมาน ความลึกของแบบจำลอง และพลังในการแสดงผล การมองฟังก์ชันการกระตุ้นผ่านมุม มองทางเรขาคณิต จะให้กรอบการทำงานที่เข้มงวดและเข้าใจง่ายสำหรับการทำความเข้าใจว่าทำไมรีลูและฟังก์ชันที่พัฒนาต่อยอดมาจากมันจึงครองตลาดการเรียนรู้เชิงลึกในปัจจุบัน และทำไมการบีบอัด บริบท เชิงพื้นที่ของซิกมอยด์จึงทำให้มันไม่เหมาะสมมากขึ้นเรื่อยๆ สำหรับสถาปัตยกรรมที่ต้องการประสิทธิภาพสูงในปัจจุบัน
สำหรับวิศวกรและนักวิจัย ข้อสรุปนั้นชัดเจน: เมื่อคุณเลือกฟังก์ชันการกระตุ้น คุณไม่ได้แค่เลือกความไม่เป็นเชิงเส้นเท่านั้น คุณกำลังตัดสินใจว่าเครือข่ายของคุณจะสามารถมองเห็นโครงสร้าง ทางเรขาคณิต ของโลกได้มากน้อยเพียงใด