Natasha Jaques 2

TalkRL: The Reinforcement Learning Podcast

เนื้อหาจัดทำโดย Robin Ranjit Singh Chauhan เนื้อหาพอดแคสต์ทั้งหมด รวมถึงตอน กราฟิก และคำอธิบายพอดแคสต์ได้รับการอัปโหลดและจัดหาให้โดยตรงจาก Robin Ranjit Singh Chauhan หรือพันธมิตรแพลตฟอร์มพอดแคสต์ของพวกเขา หากคุณเชื่อว่ามีบุคคลอื่นใช้งานที่มีลิขสิทธิ์ของคุณโดยไม่ได้รับอนุญาต คุณสามารถปฏิบัติตามขั้นตอนที่แสดงไว้ที่นี่ https://th.player.fm/legal

2+ y ago 46:02

MP3•หน้าโฮมของตอน

Hear about why OpenAI cites her work in RLHF and dialog models, approaches to rewards in RLHF, ChatGPT, Industry vs Academia, PsiPhi-Learning, AGI and more!

Dr Natasha Jaques is a Senior Research Scientist at Google Brain.

Featured References

Way Off-Policy Batch Deep Reinforcement Learning of Implicit Human Preferences in Dialog
Natasha Jaques, Asma Ghandeharioun, Judy Hanwen Shen, Craig Ferguson, Agata Lapedriza, Noah Jones, Shixiang Gu, Rosalind Picard

Sequence Tutor: Conservative Fine-Tuning of Sequence Generation Models with KL-control
Natasha Jaques, Shixiang Gu, Dzmitry Bahdanau, José Miguel Hernández-Lobato, Richard E. Turner, Douglas Eck

PsiPhi-Learning: Reinforcement Learning with Demonstrations using Successor Features and Inverse Temporal Difference Learning
Angelos Filos, Clare Lyle, Yarin Gal, Sergey Levine, Natasha Jaques, Gregory Farquhar

Basis for Intentions: Efficient Inverse Reinforcement Learning using Past Experience
Marwa Abdulhai, Natasha Jaques, Sergey Levine

Additional References

Fine-Tuning Language Models from Human Preferences, Daniel M. Ziegler et al 2019
Learning to summarize from human feedback, Nisan Stiennon et al 2020
Training language models to follow instructions with human feedback, Long Ouyang et al 2022

73 ตอน

#Reinforcement Learning #Machine Learning #Robin Ranjit Singh Chauhan #Artificial Intelligence #Tech

Natasha Jaques 2

TalkRL: The Reinforcement Learning Podcast

84 subscribers

published 2+ y ago

แบ่งปัน

MP3•หน้าโฮมของตอน

Hear about why OpenAI cites her work in RLHF and dialog models, approaches to rewards in RLHF, ChatGPT, Industry vs Academia, PsiPhi-Learning, AGI and more!

Dr Natasha Jaques is a Senior Research Scientist at Google Brain.

Featured References

Basis for Intentions: Efficient Inverse Reinforcement Learning using Past Experience
Marwa Abdulhai, Natasha Jaques, Sergey Levine

Additional References

Fine-Tuning Language Models from Human Preferences, Daniel M. Ziegler et al 2019
Learning to summarize from human feedback, Nisan Stiennon et al 2020
Training language models to follow instructions with human feedback, Long Ouyang et al 2022

73 ตอน

#Reinforcement Learning #Machine Learning #Robin Ranjit Singh Chauhan #Artificial Intelligence #Tech

ทุกตอน

ขอต้อนรับสู่ Player FM!

Player FM กำลังหาเว็บ

เปิดฟังกว่า 500+ หัวข้อ

ที่คล้ายกับ TalkRL: The Reinforcement Learning Podcast

พอดคาสต์ที่ควรค่าแก่การฟัง

TalkRL: The Reinforcement Learning Podcast « » Natasha Jaques 2

Natasha Jaques 2

พอดคาสต์ที่ควรค่าแก่การฟัง

ขอต้อนรับสู่ Player FM!

ที่คล้ายกับ TalkRL: The Reinforcement Learning Podcast

คู่มืออ้างอิงด่วน

TalkRL: The Reinforcement Learning Podcast « »
Natasha Jaques 2