ซิกมอยด์เทียบกับรีลู: ต้นทุนทางเรขาคณิตของฟังก์ชันการกระตุ้น

Artificial IntelligenceYesterday

New theoretical analysis frames deep neural networks as geometric systems, revealing why ReLU's preservation of spatial distance information gives it a decisive edge over sigmoid for deep inference. The geometric perspective offers a principled framework for understanding activation function choices and their real-world cost implications.

มุมมองใหม่ต่อข้อถกเถียงเก่า: ฟังก์ชันการกระตุ้นในฐานะตัวดำเนินการทางเรขาคณิต

ชุมชนการเรียนรู้ของเครื่องจักรได้กลับมาพิจารณาหนึ่งในตัวเลือกพื้นฐานที่สุดของการเรียนรู้เชิงลึกอีกครั้ง นั่นคือ ฟังก์ชันการกระตุ้น (activation function) ผ่านกรอบการทำงานที่ดูสง่างามอย่างน่าประหลาดใจ การวิเคราะห์เชิงทฤษฎีใหม่นี้มองว่าโครงข่ายประสาทเทียมเชิงลึกเป็นระบบ ทางเรขาคณิต โดยแต่ละชั้นทำหน้าที่เป็นการแปลงเชิงพื้นที่ที่สร้างขอบเขตการตัดสินใจในพื้นที่มิติสูง ภายใต้แนวคิดนี้ การถกเถียงเรื่อง sigmoid กับ ReLU แบบคลาสสิกจึงมีมิติใหม่ทั้งหมด: มันกลายเป็นคำถามว่าแต่ละฟังก์ชันรักษาความสัมพันธ์เชิงพื้นที่ที่ทำให้ความลึกมีประโยชน์ได้ดีเพียงใด

นี่ไม่ใช่แค่การศึกษาเชิงวิชาการเท่านั้น ผลการค้นพบนี้มีนัยสำคัญอย่างแท้จริงต่อประสิทธิภาพการอนุมาน การปรับขนาดโมเดล และการตัดสินใจด้านสถาปัตยกรรมที่วิศวกรในบริษัทต่างๆ เช่น Google DeepMind, Meta FAIR และ OpenAI ทำในทุกๆ วัน

สิ่งที่กรอบเรขาคณิตเผยให้เห็น

โดยพื้นฐานแล้ว ข้อโต้แย้งนี้ดูเรียบง่ายอย่างน่าประหลาดใจ ลองนึกถึงโครงข่ายประสาทเทียมว่าเป็นเครื่องจักรที่ค่อยๆ บิดเบือนพื้นที่อินพุต — บิด ยืด และพับมันไปเรื่อยๆ จนกระทั่งจุดข้อมูลที่อยู่ในคลาสต่างกันไปอยู่คนละฝั่งของ เส้นแบ่ง การตัดสินใจที่ชัดเจน เพื่อให้การเปลี่ยนแปลงแบบต่อเนื่องนี้ทำงานได้ในหลายๆ ชั้น แต่ละชั้นจำเป็นต้องรู้ไม่เพียงแต่ว่าจุดนั้นอยู่ ฝั่งใด ของเส้นแบ่ง แต่ยังต้องรู้ด้วยว่ามันอยู่ ห่างออกไปเท่าใด

ระยะทางนั้น— บริบททางเรขาคณิต —คือสัญญาณสำคัญ มันบอกเลเยอร์ถัดไปว่าจุดข้อมูลนั้นเป็นกรณีที่ก้ำกึ่งซึ่งต้องการการปรับแต่งอย่างละเอียดอ่อน หรือเป็นการจำแนกประเภทที่มั่นใจได้ซึ่งสามารถใช้เป็นพื้นฐานสำหรับการแสดงผลที่กว้างขึ้น หากปราศจากสัญญาณนั้น เลเยอร์ที่อยู่ลึกลงไปก็เหมือนกับกำลังทำงานโดยไม่รู้ทิศทาง

วิธีที่ฟังก์ชันซิกมอยด์ทำลายข้อมูลระยะทาง

ฟังก์ชัน ซิกมอยด์ จะแปลงจำนวนจริงทุกจำนวนให้อยู่ในช่วง (0, 1) ฟังดูเรียบร้อยดี แต่กลับสร้างปัญหาคอขวดอย่างร้ายแรงสำหรับการให้เหตุผล เชิงเรขาคณิต :

โซนอิ่มตัว: สำหรับค่าอินพุตที่มากกว่าศูนย์มากหรือน้อยกว่าศูนย์มาก ค่าเอาต์พุตของฟังก์ชันซิกมอยด์จะกระจุกตัวอยู่ใกล้ 1 หรือ 0 จุดข้อมูลที่อยู่ห่างจากขอบเขต 5 จะมีลักษณะเกือบเหมือนกับจุดที่อยู่ห่างจากขอบเขต 50
ปัญหาการขาดแคลนค่าความชัน: ในบริเวณที่ราบเรียบเหล่านี้ ค่าความชันจะลดลงจนเข้าใกล้ศูนย์ ซึ่ง เป็นปัญหาที่โด่งดังในชื่อ "ปัญหาค่าความชันหายไป " และเป็นอุปสรรคต่อการเรียนรู้ในสถาปัตยกรรมเชิงลึก
การยุบตัวของบริบท: เนื่องจากข้อมูลขนาดถูกบีบอัด เลเยอร์ถัดไปจึงไม่สามารถแยกแยะความแตกต่างระหว่างการกระตุ้นที่มีความมั่นใจปานกลางและการกระตุ้นที่มีความมั่นใจสูงมากได้ บริบท เชิงพื้นที่ที่สมบูรณ์ซึ่งสร้างขึ้นโดยเลเยอร์ก่อนหน้าจึงสูญหายไปอย่างถาวร

ผลโดยรวมคือ การเพิ่มเลเยอร์เข้าไปในเครือข่ายแบบซิกมอยด์จะให้ผลตอบแทนที่ลดลง ความลึกกลายเป็นภาระมากกว่าข้อดี เพราะแต่ละเลเยอร์จะได้รับข้อมูลทาง เรขาคณิต ที่ด้อยคุณภาพลงกว่าที่ควรจะเป็น

เหตุใด ReLU จึงรักษาไว้ซึ่งสิ่งที่สำคัญ

หน่วยเชิงเส้นแบบปรับแก้ (Rectified Linear Unit หรือ ReLU ) ใช้แนวทางที่แตกต่างอย่างสิ้นเชิง กล่าวคือ มันจะส่งผ่านค่าบวกโดยไม่เปลี่ยนแปลง และกำหนดค่าลบทั้งหมดให้เป็นศูนย์ พฤติกรรมเชิงเส้นแบบเป็นช่วงๆ นี้มีผล ทางเรขาคณิต ที่สำคัญอย่างยิ่ง

ความแม่นยำของขนาด: สำหรับค่าที่บ่งชี้ไปในทางบวก ระยะห่างจากเส้นแบ่งการตัดสินใจจะถูกรักษาไว้อย่างแม่นยำ ค่า 12.7 จะยังคงเป็น 12.7 — ไม่มีการบีบอัดหรือการบิดเบือน
การเปิดใช้งานแบบเบาบาง: ด้วยการกำหนดค่าลบให้เป็นศูนย์ ฟังก์ชัน ReLU จะสร้างความเบาบางตามธรรมชาติ ซึ่งทำหน้าที่เป็นตัวควบคุมโดยปริยายและลดภาระการคำนวณระหว่างการอนุมาน
การไหลของเกรเดียนต์เชิงเส้น: เกรเดียนต์สำหรับนิวรอนที่ทำงานอยู่จะมีค่าคงที่ (เท่ากับ 1) ทำให้สามารถฝึกฝนได้อย่างเสถียรในหลายสิบหรือหลายร้อย เลเยอร์

การรักษาขนาดเชิงพื้นที่นี้ไว้อย่างแม่นยำ คือเหตุผลสำคัญที่ทำให้สถาปัตยกรรมอย่าง ResNets และ Transformer รุ่นใหม่ๆ สามารถซ้อนเลเยอร์ได้อย่างมีประสิทธิภาพ แต่ละเลเยอร์จะได้รับการแสดงโครงสร้าง ทางเรขาคณิต ที่ถูกต้องจากต้นทาง ทำให้สามารถสร้าง ขอบเขต การตัดสินใจที่ละเอียดอ่อนยิ่งขึ้นได้

เหตุใดเรื่องนี้จึงสำคัญในตอนนี้: มุมมองด้านต้นทุนการอนุมาน

เมื่ออุตสาหกรรมกำลังเปลี่ยนจากการฝึกฝนไปสู่การอนุมาน ซึ่งได้รับแรงผลักดันจากการใช้งานโมเดลภาษาขนาดใหญ่ AI บนอุปกรณ์ปลายทาง และแอปพลิเคชันแบบเรียลไทม์ ต้นทุนของการแสดงผลที่ไม่สมบูรณ์จึงกลายเป็นสิ่งที่จับต้องได้ หากฟังก์ชันการกระตุ้นบังคับให้เครือข่ายมีความลึกหรือความกว้างมากขึ้นเพื่อชดเชย บริบท ที่หายไป นั่นจะส่งผลโดยตรงต่อความหน่วงที่สูงขึ้น การใช้หน่วยความจำมากขึ้น และการใช้พลังงานที่เพิ่มขึ้น

สำหรับผู้ปฏิบัติงานที่กำลังมองหาวิธีออกแบบโมเดลที่มีประสิทธิภาพ การทำความเข้าใจว่าตัวเลือกการเปิดใช้งานส่งผลต่อ การสร้างไปป์ไลน์การเพิ่มประสิทธิภาพโมเดลแบบครบวงจรด้วย NVIDIA อย่างไรนั้น ไม่ใช่เรื่องที่เลือกได้อีกต่อไป แต่เป็นสิ่งจำเป็นสำหรับการแข่งขัน

ลองพิจารณาขนาดดู: มีรายงานว่า GPT-4 ของ OpenAI ใช้รูปแบบต่างๆ ของฟังก์ชันการกระตุ้น GELU (การประมาณ ค่า ReLU ที่ราบเรียบ) ใน เลเยอร์ Transformer ต่างๆ ตระกูล PaLM ของ Google ก็เลือกใช้ในลักษณะเดียวกัน การตัดสินใจเหล่านี้ไม่ใช่เรื่องบังเอิญ แต่สะท้อนให้เห็นถึงความเข้าใจอย่างลึกซึ้งว่า การรักษาข้อมูล ทางเรขาคณิต ไว้ในแต่ละเลเยอร์นั้นมีความสำคัญอย่างยิ่งต่อการดึงพลังการแสดงผลสูงสุดจากทุกพารามิเตอร์

ภูมิหลัง: ประวัติโดยย่อของสงครามฟังก์ชันการทำงาน

ฟังก์ชันซิกมอยด์ครองวงการวิจัยโครงข่ายประสาทเทียมตลอดช่วงทศวรรษ 1980 และ 1990 ส่วนใหญ่เป็นเพราะคุณสมบัติทางคณิตศาสตร์ที่ยอดเยี่ยมและความสมเหตุสมผลทางชีววิทยา แต่เมื่อโครงข่ายมีความซับซ้อนมากขึ้นในทศวรรษ 2010 ข้อจำกัดของมันก็ไม่อาจมองข้ามได้อีกต่อไป

บทความ AlexNet ปี 2012 โดย Krizhevsky, Sutskever และ Hinton ถือเป็นจุดเปลี่ยนสำคัญ ด้วยการนำ ReLU มาใช้ ทีมงานประสบความสำเร็จในการฝึกฝนโมเดล ImageNet ได้เร็วขึ้นอย่างมาก และเป็นตัวเร่งให้เกิดการปฏิวัติการเรียนรู้เชิงลึก นับตั้งแต่นั้นมา ตระกูล ReLU ก็ได้ขยายออกไปรวมถึง Leaky ReLU, PReLU, ELU, Swish และ GELU ซึ่งทั้งหมดได้รับการออกแบบมาเพื่อแก้ไขข้อบกพร่องของ ReLU เอง (ปัญหา "เซลล์ประสาทที่กำลังจะตาย") ในขณะที่ยังคงรักษาข้อได้เปรียบหลักไว้ นั่นคือการรักษาระดับขนาด

หากคุณกำลังทำความเข้าใจว่าส่วนประกอบเหล่านี้เข้ากับสถาปัตยกรรมโมเดลที่กว้างขึ้นได้อย่างไร บทสรุปของเราเรื่อง " การสร้างไปป์ไลน์ข้อมูลอัจฉริยะด้วย LangExtract" จะให้ข้อมูลพื้นฐานที่เป็นประโยชน์

มุมมองจากผู้เชี่ยวชาญ: เรขาคณิตในฐานะหลักการออกแบบ

การตีความฟังก์ชันการกระตุ้นใหม่ในฐานะตัวดำเนินการ ทางเรขาคณิต นั้นไม่ใช่เรื่องใหม่เสียทีเดียว นักวิจัยอย่าง Ian Goodfellow และ Yoshua Bengio ได้อภิปรายสมมติฐานแมนิโฟลด์มานานแล้ว ซึ่งตั้งสมมติฐานว่าข้อมูลในโลกแห่งความเป็นจริงนั้นอยู่บนพื้นผิวที่มีมิติlต่ำในพื้นที่ที่มีมิติสูง สิ่งที่ใหม่คือการเชื่อมโยงอย่างชัดเจนระหว่างการเลือกฟังก์ชันการกระตุ้นและการรักษาข้อมูลระยะห่างจากขอบเขตข้าม ชั้นต่างๆ

มุมมองนี้เสนอเกณฑ์ที่มีหลักการสำหรับการประเมินไม่เพียงแต่การทำงานที่มีอยู่แล้ว แต่รวมถึงการทำงานในอนาคตด้วย ฟังก์ชันใดๆ ก็ตามสามารถประเมินได้โดยการถามว่า: ฟังก์ชันนั้นรักษาหรือทำลาย บริบททางเรขาคณิต ที่เลเยอร์ถัดไปต้องการเพื่อสร้าง ขอบเขต การตัดสินใจที่มีประสิทธิภาพหรือไม่?

อะไรจะเกิดขึ้นต่อไป

มีแนวโน้มหลายอย่างที่น่าจับตามอง:

การค้นหาสถาปัตยกรรมที่คำนึงถึงรูปทรงเรขาคณิต: คาดว่าเครื่องมืออัตโนมัติ (NAS) จะรวมเมตริกการรักษารูป ทรงเรขาคณิต เมื่อเลือกฟังก์ชันการเปิดใช้งานต่อเลเยอร์
การกระตุ้นแบบไฮบริด: นักวิจัยบางกลุ่มกำลังทดลองใช้การกระตุ้นที่แตกต่างกันในระดับความลึกที่ต่างกัน เช่น ฟังก์ชันคล้ายซิกมอยด์ใกล้กับเอาต์พุตสำหรับการตีความเชิงความน่าจะเป็น และฟังก์ชัน ReLU รูปแบบต่างๆ ใน ชั้น ซ่อนเพื่อรักษาความถูกต้องเชิงพื้นที่
การออกแบบฮาร์ดแวร์ร่วมกัน: ในขณะที่ชิป AI แบบกำหนดเองจาก NVIDIA, AMD และสตาร์ทอัพอย่าง Cerebras ปรับให้เหมาะสมกับโปรไฟล์การทำงานเฉพาะ การประสิทธิภาพ เชิงเรขาคณิต ของฟังก์ชันการทำงานอาจส่งผลต่อการออกแบบซิลิคอนเองได้

สรุปแล้ว

การถกเถียงเรื่องฟังก์ชันซิกมอยด์กับรีลู (ReLU) ยังไม่ใช่เรื่องที่จบลงง่ายๆ มันเป็นการตัดสินใจด้านการออกแบบที่มีชีวิตชีวาและมีผลกระทบที่วัดได้ต่อต้นทุนการอนุมาน ความลึกของแบบจำลอง และพลังในการแสดงผล การมองฟังก์ชันการกระตุ้นผ่านมุม มองทางเรขาคณิต จะให้กรอบการทำงานที่เข้มงวดและเข้าใจง่ายสำหรับการทำความเข้าใจว่าทำไมรีลูและฟังก์ชันที่พัฒนาต่อยอดมาจากมันจึงครองตลาดการเรียนรู้เชิงลึกในปัจจุบัน และทำไมการบีบอัด บริบท เชิงพื้นที่ของซิกมอยด์จึงทำให้มันไม่เหมาะสมมากขึ้นเรื่อยๆ สำหรับสถาปัตยกรรมที่ต้องการประสิทธิภาพสูงในปัจจุบัน

สำหรับวิศวกรและนักวิจัย ข้อสรุปนั้นชัดเจน: เมื่อคุณเลือกฟังก์ชันการกระตุ้น คุณไม่ได้แค่เลือกความไม่เป็นเชิงเส้นเท่านั้น คุณกำลังตัดสินใจว่าเครือข่ายของคุณจะสามารถมองเห็นโครงสร้าง ทางเรขาคณิต ของโลกได้มากน้อยเพียงใด