Artwork

เนื้อหาจัดทำโดย Joe Carlsmith เนื้อหาพอดแคสต์ทั้งหมด รวมถึงตอน กราฟิก และคำอธิบายพอดแคสต์ได้รับการอัปโหลดและจัดหาให้โดยตรงจาก Joe Carlsmith หรือพันธมิตรแพลตฟอร์มพอดแคสต์ของพวกเขา หากคุณเชื่อว่ามีบุคคลอื่นใช้งานที่มีลิขสิทธิ์ของคุณโดยไม่ได้รับอนุญาต คุณสามารถปฏิบัติตามขั้นตอนที่แสดงไว้ที่นี่ https://th.player.fm/legal
Player FM - แอป Podcast
ออฟไลน์ด้วยแอป Player FM !

A taxonomy of non-schemer models (Section 1.2 of "Scheming AIs")

11:20
 
แบ่งปัน
 

Manage episode 385189426 series 3402048
เนื้อหาจัดทำโดย Joe Carlsmith เนื้อหาพอดแคสต์ทั้งหมด รวมถึงตอน กราฟิก และคำอธิบายพอดแคสต์ได้รับการอัปโหลดและจัดหาให้โดยตรงจาก Joe Carlsmith หรือพันธมิตรแพลตฟอร์มพอดแคสต์ของพวกเขา หากคุณเชื่อว่ามีบุคคลอื่นใช้งานที่มีลิขสิทธิ์ของคุณโดยไม่ได้รับอนุญาต คุณสามารถปฏิบัติตามขั้นตอนที่แสดงไว้ที่นี่ https://th.player.fm/legal
  continue reading

บท

1. A taxonomy of non-schemer models (Section 1.2 of "Scheming AIs") (00:00:00)

2. 1.2 Other models training might produce (00:00:36)

3. 1.2.1 Terminal training-gamers (or, “reward-on-the-episode seekers”) (00:01:15)

4. 1.2.2 Models that aren’t playing the training game (00:04:12)

5. 1.2.2.1 Training saints (00:04:50)

6. 1.2.2.2 Misgeneralized non-training-gamers (00:06:17)

7. 1.2.3 Contra “internal” vs. “corrigible” alignment (00:09:22)

8. 1.2.4 The overall taxonomy (00:10:15)

63 ตอน

Artwork
iconแบ่งปัน
 
Manage episode 385189426 series 3402048
เนื้อหาจัดทำโดย Joe Carlsmith เนื้อหาพอดแคสต์ทั้งหมด รวมถึงตอน กราฟิก และคำอธิบายพอดแคสต์ได้รับการอัปโหลดและจัดหาให้โดยตรงจาก Joe Carlsmith หรือพันธมิตรแพลตฟอร์มพอดแคสต์ของพวกเขา หากคุณเชื่อว่ามีบุคคลอื่นใช้งานที่มีลิขสิทธิ์ของคุณโดยไม่ได้รับอนุญาต คุณสามารถปฏิบัติตามขั้นตอนที่แสดงไว้ที่นี่ https://th.player.fm/legal
  continue reading

บท

1. A taxonomy of non-schemer models (Section 1.2 of "Scheming AIs") (00:00:00)

2. 1.2 Other models training might produce (00:00:36)

3. 1.2.1 Terminal training-gamers (or, “reward-on-the-episode seekers”) (00:01:15)

4. 1.2.2 Models that aren’t playing the training game (00:04:12)

5. 1.2.2.1 Training saints (00:04:50)

6. 1.2.2.2 Misgeneralized non-training-gamers (00:06:17)

7. 1.2.3 Contra “internal” vs. “corrigible” alignment (00:09:22)

8. 1.2.4 The overall taxonomy (00:10:15)

63 ตอน

ทุกตอน

×
 
Loading …

ขอต้อนรับสู่ Player FM!

Player FM กำลังหาเว็บ

 

คู่มืออ้างอิงด่วน

ฟังรายการนี้ในขณะที่คุณสำรวจ
เล่น