Baru baru ini cukup ramai diperbincangkan bahwa Meta mengakui pemakaian dataset Books3 dan banyak material lain untuk melatih large language model (LLM) Llama 1 dan Llama 2 dalam teknologi AI mereka.
Bagi yang belum tahu, Books3 adalah dataset terkenal yang dibuat oleh peneliti AI Shawn Presser pada tahun 2020, dimana dataset ini berisi teks dari 195 ribu buku yang tentunya dilindungi oleh hak cipta dengan ukuran file mencapai 37 GB. Dan menariknya, banyak buku dari dataset ini berasal dari situs bajakan buku Bibliotik yang sempat digugat oleh Rights Alliance, sebuah grup anti pembajakan asal Denmark pada tahun 2023 lalu.
Gunakan Dataset Ilegal Tapi Meta Enggan Bayar!
Dataset Books3 ini banyak digunakan untuk melatih AI, dimana beberapa perusahaan besar termasuk Meta juga dikabarkan menggunakan Books3 dan berbagai dataset kontroversial untuk melatih produk AI komersil nya.
Meskipun telah mengakui penggunaan dataset tersebut, Meta disisi lain menganggap bahwa pemakaian konten yang dilindungi hak cipta untuk melatih LLM tidak membutuhkan izin, kompensasi atau pemberian kredit terhadap pemilik hak cipta, dimana mereka juga menyangkal tuduhan pelanggaran hak cipta dari pengguna dan menganggap bahwa menyalin buku (yang ada di datasets Books3) tanpa izin bisa dipakai secara bebas.
Secara umum Meta mempermasalahkan keabsahan mempertahankan gugatan hukum sebagai gugatan Class Action, dimana mereka menolak memberikan “bantuan” berupa uang apa pun kepada penulis yang menggugat atau pihak lain yang terlibat dalam kontroversi Books3.
Nah bagaimana menurutmu mengenai hal ini, apakah Meta salah? atau sebaliknya? mengingat dataset ini digunakan untuk keperluan pengembangan AI miliknya? komen dibawah guys.
Via : Techspot