
kontrola czy dopasowanie?
moje refleksje na temat kursu Blue Dot Impact Technical AI Safety samego kursu (zobacz kurs) Bardzo podobała mi się struktura kursu. Z grubsza struktura programu nauczania była następująca: – Dlaczego bezpieczeństwo sztucznej inteligencji jest trudnym tematem? Trochę o wyzwaniach technicznych i nietechnicznych, kluczowych koncepcjach dostosowania sztucznej inteligencji – Szkolenie bezpiecznej sztucznej inteligencji – różne techniki, takie jak filtrowanie danych wejściowych, uczenie się przez wzmacnianie przy użyciu informacji zwrotnych od ludzi (RLHF) itp. – Ocena modeli – niebezpieczne możliwości, co obecnie robią laboratoria pionierskie, aby ocenić swoje modele – Dalsze zrozumienie sztucznej inteligencji, możliwości interpretacji mechanicznej! – Kontrola sztucznej inteligencji, minimalizowanie szkód – Stworzenie osobistego planu działania i ustalenie kolejnych kroków po kursie Mieliśmy mnóstwo materiałów do każdej jednostki, która zazwyczaj była mieszanka filmów, wpisów na blogu i podsumowań ostatnich prac organizacji badawczych/laboratoriów pionierskich. Cała treść była aktualna i nigdy nie miałem poczucia, że lektura jest bezużyteczna lub zbędna. Jedynym minusem jest to, że biorąc udział w intensywnym kursie jako stosunkowo nowicjusz w dziedzinie bezpieczeństwa sztucznej inteligencji, naprawdę chciałem zbadać każde ogniwo, zajrzeć do każdej króliczej nory, co oczywiście trwało dłużej niż szacowane 5 godzin na codzienne odczyty jednostek. Podobał mi się dynamika i możliwość codziennego, konsekwentnego kontaktu z ludźmi. Każdy miał inne pochodzenie i inny punkt widzenia na wszystko, o czym rozmawialiśmy, dlatego byłem zmuszony do bardziej krytycznego myślenia o słuszności moich własnych przekonań. To właśnie najbardziej mi się podobało – ludzie wytykający luki w moich argumentach i kwestionujący moją zdolność do dalszej ich obrony. Na pewno będzie mi tego brakować i będę aktywnie poszukiwać społeczności, w których mógłbym odtworzyć to uczucie. Poleciłbym ten kurs każdemu (co robię), jest to doskonały wstęp do tej dziedziny i pozwala dowiedzieć się o aktualnym stanie AI. Główne wnioski i przemyślenia Oto kilka moich luźnych przemyśleń po wzięciu udziału w kursie, rzeczy, które mnie zainteresowały lub o których chciałbym przeczytać dalej. – Sztuczna inteligencja zawsze będzie miała potencjał, aby wyrządzić krzywdę, jedyne, co możemy zrobić, to starać się zapewnić jej jak największe bezpieczeństwo. Nie sądzę, że jest to coś, co kiedykolwiek uda nam się naprawić. Ludzie zawsze znajdą sposób na wykorzystanie systemu w sposób, w jaki nigdy nie był przeznaczony. W miarę ewolucji modeli, a nawet jeśli staną się one bezpieczniejsze, zmienią się także ludzie i sposób, w jaki z nich korzystają. – Sterowanie sztuczną inteligencją jako rozwiązanie krótkoterminowe, dostosowanie sztucznej inteligencji jako rozwiązanie długoterminowe? Jest to coś, co szeroko omawialiśmy podczas kursu i myślę, że jest to całkiem dobra droga, aby obrać bezpieczeństwo sztucznej inteligencji. W perspektywie krótkoterminowej możemy wdrożyć bardziej praktyczne podejścia do bezpieczeństwa sztucznej inteligencji, takie jak ochrona przed jailbreakami, manipulowanie niebezpiecznymi funkcjami przy użyciu metod takich jak filtrowanie danych itp. Nie są to rozwiązania panaceum na wszystko, ale środki mające chronić ludzi w perspektywie krótkoterminowej, dopóki nie upewnimy się, że dostosowanie sztucznej inteligencji jest niezawodne. To interesujące pytanie, nad którym jednak chciałbym kontynuować debatę. Kontrolę sztucznej inteligencji możemy porównać do umieszczania zwierzęcia w klatce, a dostosowanie sztucznej inteligencji do szkolenia tego samego zwierzęcia, aby działało w naszym najlepszym interesie. Czy możemy zagwarantować, że którekolwiek z nich będzie dobrym rozwiązaniem? Niezupełnie, ale musimy zrobić wszystko, co w naszej mocy, aby zwierzę stało się naszym towarzyszem. W tym sensie może to nie być takie proste. Co się stanie, jeśli zwierzę oszuka nas, że wyznaje te same wartości, a następnie nas zaatakuje? Jest to sytuacja nieprzewidywalna, dlatego musimy być przygotowani na wszystkich frontach. – Nie jestem jeszcze zbyt nastawiony na interpretację mechaniczną (jeszcze). Jest to dziedzina, którą chciałbym głębiej zbadać. Wiem, że jest bardzo efektowna — demistyfikacja czarnej skrzynki modeli sztucznej inteligencji to jak poznawanie nowego gatunku, ale nie jestem pewien, czy jest to naprawdę wykonalne. Mój tok myślenia jest taki, że modele będą coraz bardziej złożone i nie jestem pewien, czy ta dziedzina będzie ewoluować w tym samym tempie, aby dotrzymać im kroku. – Musimy skupić się na ewaluacjach i audytach! Każda firma integruje sztuczną inteligencję, co ma duży wpływ na nasze życie osobiste (podstawowy przykład, zatrudnianie wspomagane sztuczną inteligencją). Musimy mieć pewne podstawowe uniwersalne standardy, aby mieć pewność, że sztuczna inteligencja jest wykorzystywana w sposób odpowiedzialny. Czytając o niektórych pracach przeprowadzonych w pionierskich laboratoriach, stwierdziliśmy, że brakuje im odpowiedzialności i przejrzystości. Te przemyślenia będą ewoluować z biegiem czasu. Mam nadzieję co jakiś czas pisać swoje spostrzeżenia po przeczytaniu większej liczby badań i zmianie mojego sposobu myślenia. Kolejne kroki Przeczytałem jak każdy poradnik na temat bezpieczeństwa sztucznej inteligencji i moim głównym wnioskiem jest budowanie wiarygodności w terenie. Planuję to robić, budując publicznie, kiedy tylko będzie to możliwe. Chcę przejść do odtwarzania artykułów i wdrażania projektów technicznych, upewniając się, że będę co tydzień pisać na blogu (niezależnie od tego, czy mi się to uda, czy nie). To moja pierwsza próba w tym kierunku, więc będę wdzięczny za każdą opinię. Kolejnym pomysłem, który doceniam, jest zwiększenie powierzchni szczęścia (coś, co dowiedziałem się z wywiadu, którego udzielił Neel Nanda). Mam nadzieję, że budowanie tego dokona, ale także wykorzystanie wszystkich możliwości, jakie mogę znaleźć, i nie banie się tak bardzo, że będę nieodpowiedni. W tym procesie chcę także nawiązać kontakt z jak największą liczbą osób w terenie, aby dowiedzieć się więcej i odbyć ciekawe rozmowy.
已Opublikowany: 2026-01-18 00:55:00
źródło: medium.com







