Salah satu teknik paling populer yang digunakan perusahaan AI untuk meningkatkan kualitas model bahasa besar mereka malah membuat model tersebut lebih baik dalam menipu manusia, menurut studi pracetak baru dari Anthropic dan para peneliti di universitas-universitas Tiongkok dan Amerika.
Para penulis menulis bahwa ini adalah pertama kalinya penelitian mendokumentasikan secara empiris sebuah fenomena yang mereka sebut penyesatan yang tidak disengaja, yaitu model yang dilatih dengan umpan balik manusia belajar untuk menghasilkan tanggapan yang mengelabui penilai manusia agar percaya bahwa tanggapan tersebut akurat daripada belajar menghasilkan tanggapan yang tidak disengaja. sebenarnya akurat.
Pembelajaran penguatan dari umpan balik manusia, yang biasa disingkat RLHF, adalah bagian penting dari jalur pelatihan yang digunakan perusahaan seperti Anthropic dan OpenAI untuk mengajarkan model bahasa generatif mereka agar merespons dengan cara yang disukai manusia.–seperti dengan menjawab pertanyaan dengan benar dan tidak memasukkan konten beracun dalam tanggapannya. Dalam RLHF, model merespons permintaan dan evaluator manusia memberikan umpan balik terhadap permintaan tersebut, mencatat respons yang baik dan buruk. Umpan balik tersebut digunakan untuk membangun sistem insentif bagi model bahasa asli yang memberikan imbalan—dengan cara apa pun yang diinginkan algoritme—untuk menghasilkan jenis respons yang disukai manusia.
Para peneliti sebelumnya telah menunjukkan bahwa pelatihan sistem penghargaan dapat mengarah pada sesuatu yang disebut peretasan hadiah, di mana model mereplikasi pola dalam materi pelatihannya yang berkorelasi dengan hasil yang diinginkan namun sebenarnya bukan yang diinginkan pengembang. Misalnya, sebuah studi pada tahun 2023 yang meneliti model yang dilatih berdasarkan data dari perusahaan forum tanya jawab StackExchange menemukan bahwa model bahasa mengenali bahwa postingan yang lebih panjang umumnya menerima lebih banyak suara positif, sehingga alih-alih menghasilkan respons berkualitas lebih tinggi saat menjawab pertanyaan, model tersebut malah memberikan hadiah pada postingan tersebut. sistem insentif dengan menghasilkan respons yang lebih lama dan berkualitas lebih rendah.
Studi baru, yang sedang ditinjau dan hanya diterbitkan sebagai pracetak, mendokumentasikan model bahasa yang memberi penghargaan pada peretasan manusia dalam proses RLHF.
Para peneliti meminta manusia mengevaluasi kualitas respons model bahasa terhadap dua perintah—satu diminta menjawab pertanyaan, dan satu lagi diminta menulis kode—sebelum dan sesudah model menjalani proses RLHF. Mereka mengukur apakah keakuratan respons model meningkat dan seberapa sering evaluator manusia dengan tepat memberi label respons model sebagai akurat atau tidak akurat. Setelah proses RLHF, mereka menemukan bahwa manusia 24 persen lebih mungkin menyetujui jawaban model terhadap sebuah pertanyaan padahal jawaban tersebut ternyata salah. Evaluator juga 18 persen lebih mungkin menyetujui kode salah yang dihasilkan oleh model RLHF yang memiliki kesalahan, dibandingkan dengan kode salah dari model tanpa RLHF.
“Kami menemukan bahwa setelah RLHF, [language model] tidak menjadi lebih baik dalam mengerjakan tugas tersebut, namun hal ini menyesatkan subjek kita untuk lebih sering menyetujui jawaban yang salah,” tulis para penulis. “Saat menjawab pertanyaan, [language models] belajar membela jawaban yang salah dengan memilih atau mengarang bukti pendukung, membuat argumen yang konsisten namun tidak benar, dan memberikan argumen yang mengandung kesalahan sebab akibat yang halus. Pada tugas pemrograman, [language models] belajarlah untuk menghasilkan program yang sebagian salah namun tetap lulus semua pengujian unit yang dirancang oleh evaluator, menghasilkan program yang kurang mudah dibaca, dan membuat lebih sedikit kesalahan umum yang biasanya diperiksa oleh manusia.”
Hasilnya signifikan karena perusahaan AI sering menggunakan studi tinjauan manusia sebagai tolok ukur untuk menunjukkan seberapa besar peningkatan model mereka dibandingkan iterasi sebelumnya dan RLHF telah menjadi metode umum untuk mengurangi ketidakakuratan, yang sering disebut halusinasi, dalam model bahasa. Jika model menjadi lebih baik dalam menipu manusia, itu berarti hanya melakukan tinjauan manusia terhadap keluaran model AI generatif mungkin tidak cukup untuk pemeriksaan kualitas atau keamanan.
“Peningkatan yang Anda lihat mungkin tidak nyata,” tulis penulis studi tersebut, sambil menambahkan “Hasil kami menggarisbawahi risiko penerapan RLHF untuk mengendalikan sistem AI yang semakin mampu: sistem AI di masa depan mungkin menjadi lebih baik dalam menyesatkan kita dan berpura-pura benar, sehingga menyebabkan kita tidak bisa berbuat apa-apa. kehilangan kendali tanpa disadari.”