Episode 216 - Features verstehen ohne Datenhunger: Der Weight Lens-Ansatz

Knowledge Science - Alles über KI, ML und NLP

เนื้อหาจัดทำโดย Sigurd Schacht, Carsten Lanquillon, Sigurd Schacht, and Carsten Lanquillon เนื้อหาพอดแคสต์ทั้งหมด รวมถึงตอน กราฟิก และคำอธิบายพอดแคสต์ได้รับการอัปโหลดและจัดหาให้โดยตรงจาก Sigurd Schacht, Carsten Lanquillon, Sigurd Schacht, and Carsten Lanquillon หรือพันธมิตรแพลตฟอร์มพอดแคสต์ของพวกเขา หากคุณเชื่อว่ามีบุคคลอื่นใช้งานที่มีลิขสิทธิ์ของคุณโดยไม่ได้รับอนุญาต คุณสามารถปฏิบัติตามขั้นตอนที่แสดงไว้ที่นี่ https://th.player.fm/legal

1M ago 39:55

MP3•หน้าโฮมของตอน

Send us a text

Wie können wir verstehen, was in einem Sprachmodell wirklich passiert? Sigurd und Carsten tauchen tief ein in ein Paper aus Deutschland, das zeigt, wie man Features in neuronalen Netzen identifizieren kann – ohne riesige Datensätze und ohne aufwändiges Training. Von Sparse Auto Encodern über Transcoders bis zur neuen Weight Lens-Methode: Erfahrt, wie Mechanistic Interpretability den Weg zu transparenteren KI-Systemen ebnet.

Plus: Einblicke vom AI Transparency Days Hackathon, wo das Team versuchte, die "Refusal"-Mechanismen in GPT-OSS-20B zu entschlüsseln. Teil 1 einer zweiteiligen Serie!

Circuit Insights: Towards interpretability Beond Activiations. https://www.arxiv.org/abs/2510.14936

Support the show

249 ตอน

#Technologie #Bildung #Sigurd Schacht, Carsten Lanquillon #Carsten Lanquillon #Sigurd Schacht #Wissenschaft #Künstliche Intelligenz