LAION, organisasi riset Jerman yang menciptakan data yang digunakan untuk melatih Stable Diffusion, di antara model AI generatif lainnya, telah merilis dataset baru yang diklaim telah "dibersihkan sepenuhnya dari tautan yang diketahui ke materi dugaan penyalahgunaan seksual anak (CSAM)."
Dataset baru, Re-LAION-5B, sebenarnya merupakan versi ulang dari dataset lama, LAION-5B - tetapi dengan "perbaikan" yang diimplementasikan dengan rekomendasi dari Internet Watch Foundation, Human Rights Watch, Canadian Center for Child Protection dan Stanford Internet Observatory yang sudah tidak beroperasi. Tersedia untuk diunduh dalam dua versi, Re-LAION-5B Penelitian dan Re-LAION-5B Penelitian-Aman (yang juga menghapus konten NSFW tambahan), keduanya difilter untuk ribuan tautan ke CSAM yang diketahui - dan "kemungkinan" - menurut LAION.
"LAION telah berkomitmen untuk menghapus konten ilegal dari datasetnya sejak awal dan telah menerapkan langkah-langkah yang tepat untuk mencapainya sejak awal," tulis LAION dalam pos blognya. "LAION tunduk secara ketat pada prinsip bahwa konten ilegal dihapus segera setelah diketahui."
Penting untuk dicatat bahwa dataset LAION tidak - dan tidak pernah - memuat gambar. Sebaliknya, mereka adalah indeks tautan ke gambar dan teks alt gambar yang dikurasi oleh LAION, yang semuanya berasal dari dataset yang berbeda - Common Crawl - dari situs dan halaman web yang dikumpulkan.
Rilis Re-LAION-5B ini dilakukan setelah penyelidikan pada Desember 2023 oleh Stanford Internet Observatory yang menemukan bahwa LAION-5B - khususnya subset yang disebut LAION-5B 400M - termasuk setidaknya 1.679 tautan ke gambar illegal yang dikumpulkan dari postingan media sosial dan situs web dewasa populer. Menurut laporan tersebut, 400M juga memuat tautan ke "berbagai konten yang tidak sesuai termasuk gambar pornografi, umpatan rasial, dan stereotip sosial yang berbahaya."
Meskipun para penulis bersama laporan Stanford mencatat bahwa akan sulit untuk menghapus konten yang melanggar dan bahwa keberadaan CSAM tidak selalu mempengaruhi output dari model yang dilatih pada dataset tersebut, LAION mengatakan akan sementara menarik LAION-5B dari sirkulasi.
Laporan Stanford merekomendasikan bahwa model yang dilatih pada LAION-5B "harus ditinggalkan dan distribusi dihentikan jika memungkinkan." Mungkin terkait, startup AI Runway baru-baru ini menarik model Stable Diffusion 1.5 miliknya dari platform hosting AI Hugging Face; kami telah menghubungi perusahaan untuk informasi lebih lanjut. (Runway pada 2023 bermitra dengan Stability AI, perusahaan di balik Stable Diffusion, untuk membantu melatih model Stable Diffusion asli.)
Dari dataset Re-LAION-5B yang baru, yang berisi sekitar 5,5 miliar pasangan teks-gambar dan dirilis di bawah lisensi Apache 2.0, LAION mengatakan bahwa metadata tersebut dapat digunakan oleh pihak ketiga untuk membersihkan salinan-salinan LAION-5B yang sudah ada dengan menghapus konten ilegal yang cocok.
LAION menekankan bahwa datasetnya ditujukan untuk tujuan riset - bukan komersial. Tetapi, jika dari sejarah sebagai indikasi, hal itu tidak akan menahan beberapa organisasi. Di luar Stability AI, Google pernah menggunakan dataset LAION untuk melatih model-generasi gambar.
"Secara total, 2.236 tautan [ke CSAM yang diduga] dihapus setelah dicocokkan dengan daftar hash tautan dan gambar yang diberikan oleh mitra kami," lanjut LAION dalam posnya. "Tautan-tautan ini juga mencakup 1.008 tautan yang ditemukan oleh laporan Stanford Internet Observatory pada Desember 2023 ... Kami sangat mendorong semua laboratorium riset dan organisasi yang masih menggunakan LAION-5B lama untuk beralih ke dataset Re-LAION-5B secepat mungkin."