Course Outline

Εισαγωγή στο Reinforcement Learning με Ανθρώπινη Παρόμοια (RLHF)

  • Τι είναι το RLHF και γιατί είναι σημαντικό
  • Σύγκριση με μέθοδους supervised fine-tuning
  • Εφαρμογές RLHF σε σύγχρονα συστήματα AI

Δημιουργία Μοντέλων Αποδοχής με Ανθρώπινη Παρόμοια

  • Συλλογή και δομή ανθρώπινης παρόμοιας
  • Δημιουργία και εκπαίδευση μοντέλων αποδοχής
  • Αξιολόγηση της αποτελεσματικότητας των μοντέλων αποδοχής

Eκπαίδευση με Proximal Policy Optimization (PPO)

  • Επισκόπηση των λογισμικών PPO για RLHF
  • Εφαρμογή PPO με μοντέλα αποδοχής
  • Ιτερατιβή και ασφαλή εκπαίδευση των μοντέλων

Πρακτικές Fine-Tuning Μοντέλων Γλώσσας

  • Προετοιμασία δεδομένων για τους πόρους RLHF
  • Χειροποίητη εκπαίδευση μιας μικρής LLM χρησιμοποιώντας RLHF
  • Προβλήματα και στρατηγικές ανίχνευσης

Μεγάλη Περίπτωση RLHF σε Σύστημα Παραγωγής

  • Ανάλυση υποδομών και λογιστικών πόρων
  • Εγγύηση ποιότητας και συνεχών διαδικασιών απόδοσης
  • Βέλτιστες πρακτικές για εγκατάσταση και υποστήριξη

Eνθυμήσεις Έλεγχου και Μείωσης Διακρίσεων

  • Αντιμετώπιση ηθικών κινδύνων στην ανθρώπινη παρόμοια
  • Στρατηγικές ανίχνευσης και διόρθωσης διακρίσεων
  • Εγγύηση συμβολής και ασφαλών εξόδων

Περίπτωση Σπουδής και Πραγματικά Δείγματα

  • Περίπτωση: Εκπαίδευση ChatGPT με RLHF
  • Άλλες επιτυχές εφαρμογές RLHF
  • Λektήρια και πρακτικά συνειδησίες του βιοτόπου

Επισοματώσεις και Προχωρημένες Στάδιες

Requirements

  • Συνειδητοποίηση των βασικών πρинципών του εποπτικού και της μάθησης με αναγνώριση
  • Εμπειρία στην ευρεία τύλιγμα μοντέλων και τις δομές νευρωνικών δικτύων
  • Γνώση της πρόγραμμα Python και βάθους μάθησης πλαίσια (π.χ., TensorFlow, PyTorch)

Πολιτικό

  • Ιντζίνιρς Machine Learning
  • Ερευνητές Τεχνητής Νοημοσύνης
 14 Hours

Number of participants


Price per participant

Upcoming Courses

Related Categories