Artwork

เนื้อหาจัดทำโดย Tamir Nave & Uri Goren, Tamir Nave, and Uri Goren เนื้อหาพอดแคสต์ทั้งหมด รวมถึงตอน กราฟิก และคำอธิบายพอดแคสต์ได้รับการอัปโหลดและจัดหาให้โดยตรงจาก Tamir Nave & Uri Goren, Tamir Nave, and Uri Goren หรือพันธมิตรแพลตฟอร์มพอดแคสต์ของพวกเขา หากคุณเชื่อว่ามีบุคคลอื่นใช้งานที่มีลิขสิทธิ์ของคุณโดยไม่ได้รับอนุญาต คุณสามารถปฏิบัติตามขั้นตอนที่แสดงไว้ที่นี่ https://th.player.fm/legal
Player FM - แอป Podcast
ออฟไลน์ด้วยแอป Player FM !

על RLHF ומודלי שפה גדולים

55:10
 
แบ่งปัน
 

Manage episode 477949053 series 2995782
เนื้อหาจัดทำโดย Tamir Nave & Uri Goren, Tamir Nave, and Uri Goren เนื้อหาพอดแคสต์ทั้งหมด รวมถึงตอน กราฟิก และคำอธิบายพอดแคสต์ได้รับการอัปโหลดและจัดหาให้โดยตรงจาก Tamir Nave & Uri Goren, Tamir Nave, and Uri Goren หรือพันธมิตรแพลตฟอร์มพอดแคสต์ของพวกเขา หากคุณเชื่อว่ามีบุคคลอื่นใช้งานที่มีลิขสิทธิ์ของคุณโดยไม่ได้รับอนุญาต คุณสามารถปฏิบัติตามขั้นตอนที่แสดงไว้ที่นี่ https://th.player.fm/legal

בפרק זה החליפו מייק ותמיר את התובנות החידודים והשאלות הפתוחות שלהם בניסיון להבין איך מתחברים עולם ה RL ועולם ה LLM (קרי RLHF). ב 2024 השתנתה הפרדיגמה - בתחילה יצירת מודל reward כדי לעשות אימון נוסף ל LLM אחרי ה pretraining שלו באמצעות PPO. ולאחר מכן הוחלף ה PPO בRLHF.

בעוד רוב מודלי ה reasoning של החברות הגדולות (chatgpt, claude, gemini) עדיין באפילה - נדבר על איך לדעתנו RLHF יכול לשמש בתהליך.

  continue reading

116 ตอน

Artwork
iconแบ่งปัน
 
Manage episode 477949053 series 2995782
เนื้อหาจัดทำโดย Tamir Nave & Uri Goren, Tamir Nave, and Uri Goren เนื้อหาพอดแคสต์ทั้งหมด รวมถึงตอน กราฟิก และคำอธิบายพอดแคสต์ได้รับการอัปโหลดและจัดหาให้โดยตรงจาก Tamir Nave & Uri Goren, Tamir Nave, and Uri Goren หรือพันธมิตรแพลตฟอร์มพอดแคสต์ของพวกเขา หากคุณเชื่อว่ามีบุคคลอื่นใช้งานที่มีลิขสิทธิ์ของคุณโดยไม่ได้รับอนุญาต คุณสามารถปฏิบัติตามขั้นตอนที่แสดงไว้ที่นี่ https://th.player.fm/legal

בפרק זה החליפו מייק ותמיר את התובנות החידודים והשאלות הפתוחות שלהם בניסיון להבין איך מתחברים עולם ה RL ועולם ה LLM (קרי RLHF). ב 2024 השתנתה הפרדיגמה - בתחילה יצירת מודל reward כדי לעשות אימון נוסף ל LLM אחרי ה pretraining שלו באמצעות PPO. ולאחר מכן הוחלף ה PPO בRLHF.

בעוד רוב מודלי ה reasoning של החברות הגדולות (chatgpt, claude, gemini) עדיין באפילה - נדבר על איך לדעתנו RLHF יכול לשמש בתהליך.

  continue reading

116 ตอน

ทุกตอน

×
 
Loading …

ขอต้อนรับสู่ Player FM!

Player FM กำลังหาเว็บ

 

คู่มืออ้างอิงด่วน

ฟังรายการนี้ในขณะที่คุณสำรวจ
เล่น