
Nowe badania Apple pokazują, iż duże modele językowe (LLM) mogą znacząco poprawić swoje wyniki dzięki prostej metodzie – sprawdzaniu własnej pracy przy pomocy checklist.
Czym jest RLCF?
Apple opracowało technikę Reinforcement Learning from Checklist Feedback (RLCF). Zamiast oceny „kciuk w górę/kciuk w dół”, model dostaje listę kryteriów i punktację (0–100) za to, jak dobrze je spełnia.
Efekty badań?
- Poprawa wyników na wszystkich testowanych benchmarkach,
- +6 pkt na InFoBench, +4 pkt na FollowBench, +3 pkt na Arena-Hard,
- Wzrost choćby o 8,2% w ocenie złożonych instrukcji.
Checklista zwiększa precyzję w realizacji wieloetapowych zadań i złożonych poleceń. To kluczowe, bo asystenci AI stają się głównym interfejsem, przez który użytkownicy będą wykonywać codzienne zadania.
RLCF poprawia „instruction following”, ale nie rozwiązuje jednak kwestii bezpieczeństwa i wymaga użycia mocniejszych modeli jako „sędziów” przy trenowaniu mniejszych.
Pełny raport i opis metody znajdziecie tutaj.
Jest jednak coś niesamowitego w tym, iż metoda checklist, którą zawdzięczamy branży lotnictwa cywilnego przez cały czas okazuje się w wielu obszarach jedną z najskuteczniejszych metod sprawowania kontroli. Więcej o jej historii przeczytacie w świetnej książce „Metoda czarnej skrzynki. Zaskakująca prawda o nauce na błędach” autorstwa Matthew Syed, którą w Polsce wydało krakowskie Insignis Media.
Jeśli artykuł Apple: listy kontrolne skuteczniejsze niż nagrody w trenowaniu AI nie wygląda prawidłowo w Twoim czytniku RSS, to zobacz go na iMagazine.