Spawning ingin membangun dataset pelatihan AI yang lebih etis

Jordan Meyer dan Mathew Dryhurst mendirikan Spawning AI untuk menciptakan alat-alat yang membantu seniman mengontrol lebih banyak bagaimana karya-karya mereka digunakan secara online. Proyek terbaru mereka, yang disebut Source.Plus, ditujukan untuk mengkurasi media 'non-infringing' untuk pelatihan model AI.

Inisiatif pertama proyek Source.Plus adalah dataset yang ditanami dengan hampir 40 juta gambar domain publik dan gambar dengan lisensi CC0 Creative Commons, yang memungkinkan pencipta untuk melepaskan hampir semua kepentingan hukum dalam karyanya. Meyer mengklaim bahwa, meskipun jauh lebih kecil dari beberapa dataset pelatihan AI generatif lainnya di luar sana, dataset Source.Plus sudah cukup 'berkualitas tinggi' untuk melatih model pembuat gambar canggih.

'Dengan Source.Plus, kami sedang membangun platform universal 'opt-in',' ujar Meyer. 'Tujuan kami adalah membuat lebih mudah bagi pemegang hak untuk menawarkan media mereka untuk digunakan dalam pelatihan AI generatif—sesuai dengan persyaratan mereka—dan tanpa hambatan bagi pengembang untuk menggabungkan media tersebut ke dalam alur kerja pelatihan mereka.'

Pengelolaan hak

Perdebatan seputar etika melatih model AI generatif, khususnya model yang menghasilkan seni seperti Stable Diffusion dan DALL-E 3 dari OpenAI, terus berlanjut — dan memiliki implikasi besar bagi para seniman bagaimanapun hasilnya nantinya.

Model AI generatif 'belajar' menghasilkan keluaran mereka (misalnya seni fotorealistik) dengan melatih pada sejumlah besar data relevan — gambar, dalam kasus tersebut. Beberapa pengembang model ini berpendapat bahwa penggunaan wajar memberi mereka hak untuk mengambil data dari sumber publik, terlepas dari status hak cipta data tersebut. Orang lain telah mencoba untuk menjaga batas, memberi kompensasi atau setidaknya memberi kredit kepada pemilik konten atas kontribusi mereka pada set data pelatihan.

Meyer, CEO Spawning, percaya bahwa belum ada yang menetapkan pendekatan terbaik — belum.

'Pelatihan AI seringkali beralih ke penggunaan data yang paling mudah tersedia — yang belum tentu paling adil atau berkelanjutan,' ujarnya kepada TechCrunch dalam sebuah wawancara. 'Seniman dan pemegang hak tidak memiliki kendali atas bagaimana data mereka digunakan untuk pelatihan AI, dan pengembang belum memiliki alternatif berkualitas tinggi yang memudahkan untuk menghormati hak data.'

Source.Plus, yang tersedia dalam beta terbatas, membangun pada alat-alat Spawning yang sudah ada untuk asal-usul seni dan pengelolaan hak penggunaan.

Pada tahun 2022, Spawning menciptakan HaveIBeenTrained, sebuah situs web yang memungkinkan pencipta memilih keluar dari dataset pelatihan yang digunakan oleh vendor yang telah bermitra dengan Spawning, termasuk Hugging Face dan Stability AI. Setelah mendapatkan $3 juta dari modal ventura dari investor, termasuk True Ventures dan Seed Club Ventures, Spawning meluncurkan ai.text, cara bagi situs web untuk 'mengatur izin' untuk AI, dan sebuah sistem — Kudurru — untuk melindungi dari bot yang mengambil data.

Source.Plus adalah upaya pertama Spawning untuk membangun perpustakaan media — dan mengkurasi perpustakaan tersebut secara internal. Dataset gambar awal, PD/CC0, dapat digunakan untuk aplikasi komersial atau penelitian, kata Meyer.

Perpustakaan Source.Plus.
Penghargaan Gambar: Spawning

'Source.Plus bukan hanya repositori untuk data pelatihan; ini adalah platform pengayaan dengan alat untuk mendukung pipa pelatihan,' lanjutnya. 'Tujuan kami adalah memiliki dataset CC0 berkualitas tinggi yang mampu mendukung model AI dasar yang kuat tersedia dalam waktu setahun.'

Organisasi termasuk Getty Images, Adobe, Shutterstock, dan startup AI Bria mengklaim hanya menggunakan data yang diperoleh dengan cara yang adil untuk melatih model. (Getty bahkan menyebut produk AI generatifnya 'aman secara komersial.'). Namun Meyer mengatakan bahwa Spawning bertujuan untuk menetapkan 'standar yang lebih tinggi' untuk apa yang dimaksud dengan mendapatkan data secara adil.

Source.Plus menyaring gambar untuk 'opt-out' dan preferensi pelatihan seniman lainnya, menunjukkan informasi asal-usul tentang bagaimana — dan dari mana — gambar itu diperoleh. Ini juga mengecualikan gambar yang tidak dilisensikan di bawah CC0, termasuk yang dengan lisensi Creative Commons BY 1.0, yang memerlukan atribusi. Dan Spawning mengatakan bahwa mereka memantau tantangan hak cipta dari sumber-sumber di mana seseorang selain pencipta yang bertanggung jawab untuk menandai status hak cipta karya, seperti Wikimedia Commons.

'Kami secara teliti memvalidasi lisensi yang dilaporkan dari gambar yang kami kumpulkan, dan lisensi yang meragukan dikecualikan — langkah yang banyak dataset 'adil' tidak lakukan,' kata Meyer.

Gambar-gambar bermasalah — termasuk gambar kekerasan dan pornografi, gambar pribadi yang sensitif — secara historis telah meresahkan dataset pelatihan baik yang terbuka maupun yang komersial.

Pemelihara dataset LAION terpaksa menarik salah satu perpustakaannya offline setelah laporan mengungkapkan catatan medis dan gambar penyalahgunaan seksual anak; baru-baru ini, sebuah studi dari Human Rights Watch menemukan bahwa salah satu repositori LAION termasuk wajah anak-anak Brasil tanpa persetujuan atau pengetahuan anak-anak tersebut. Di tempat lain, perpustakaan media Adobe, Adobe Stock, yang digunakan perusahaan untuk melatih model AI generatifnya, termasuk model gambar generasi seni Firefly, ditemukan mengandung gambar yang dihasilkan AI dari pesaing seperti Midjourney.

Karya seni di galeri Source.Plus.
Penghargaan Gambar: Spawning

Solusi Spawning adalah model klasifikasi yang dilatih untuk mendeteksi kekerasan, kecabulan, informasi pribadi yang dapat diidentifikasi, dan bagian-bagian tidak diinginkan lainnya dalam gambar. Menyadari bahwa tidak ada klasifikasi yang sempurna, Spawning berencana membiarkan pengguna 'fleksibel' menyaring dataset Source.Plus dengan menyesuaikan ambang deteksi klasifikasi, kata Meyer.

'Kami menggunakan moderator untuk memverifikasi kepemilikan data,' tambah Meyer. 'Kami juga memiliki fitur remediasi, di mana pengguna dapat menandai karya yang melanggar atau mungkin melanggar, dan jejak bagaimana data itu dikonsumsi dapat diaudit.'

Kompensasi

Kebanyakan program untuk mengkompensasi pencipta atas kontribusi data pelatihan AI generatif mereka tidak berjalan dengan baik. Beberapa program mengandalkan metrik yang kabur untuk menghitung pembayaran pencipta, sementara yang lain membayar jumlah yang dianggap tidak wajar oleh para seniman.

Contohnya, Shutterstock. Perpustakaan media stok, yang telah melakukan kesepakatan dengan vendor AI dalam puluhan juta dolar, membayar ke dalam 'dana kontributor' untuk karya seni yang mereka gunakan untuk melatih model AI generatif atau lisensikan kepada pengembang pihak ketiga. Namun Shutterstock tidak transparan tentang berapa yang bisa diharapkan seniman untuk mendapatkan, juga tidak memperbolehkan seniman menetapkan harga dan syarat mereka sendiri; satu perkiraan pihak ketiga memperkirakan pendapatan sebesar $15 untuk 2.000 gambar, tidak persis jumlah yang mengejutkan.

Setelah Source.Plus keluar dari beta nanti tahun ini dan berkembang ke dataset di luar PD/CC0, akan mengambil pendekatan berbeda dari platform lain, memungkinkan seniman dan pemegang hak untuk menetapkan harga sendiri per unduhan. Spawning akan menagih biaya, tetapi hanya dengan tarif tetap — 'sepersepuluh sen,' kata Meyer.

Pelanggan juga dapat memilih membayar kepada Spawning $10 per bulan — ditambah biaya unduhan per gambar — untuk Source.Plus Curation, rencana langganan yang memungkinkan mereka mengelola koleksi gambar secara pribadi, mengunduh dataset hingga 10.000 kali sebulan dan mendapatkan akses ke fitur baru, seperti koleksi 'premium' dan pengayaan data, lebih awal.

Penghargaan Gambar: Spawning

'Kami akan memberikan panduan dan rekomendasi berdasarkan standar industri dan metrik internal saat ini, tetapi pada akhirnya, kontributor dataset yang menentukan apa yang membuatnya berharga bagi mereka,' kata Meyer. 'Kami memilih model harga ini dengan sengaja untuk memberikan sebagian besar pendapatan kepada seniman dan memungkinkan mereka menetapkan syarat partisipasi mereka sendiri. Kami percaya bagi bagi pendapatan ini jauh lebih menguntungkan bagi seniman daripada bagi bagi pendapatan persentase yang lebih umum, dan akan menghasilkan pembayaran yang lebih tinggi dan transparansi yang lebih besar.'

Jika Source.Plus mendapatkan daya tarik yang diharapkan oleh Spawning, Spawning bermaksud untuk memperluasnya dari gambar ke jenis media lain, termasuk audio dan video. Spawning sedang berdiskusi dengan perusahaan-perusahaan yang tidak disebutkan namanya untuk membuat data mereka tersedia di Source.Plus. Dan, kata Meyer, Spawning mungkin membangun model AI generatifnya sendiri menggunakan data dari dataset Source.Plus.

'Kami berharap pemegang hak yang ingin berpartisipasi dalam ekonomi AI generatif akan memiliki kesempatan untuk melakukannya dan menerima kompensasi yang adil,' ujar Meyer. 'Kami juga berharap bahwa seniman dan pengembang yang merasa bingung tentang berinteraksi dengan AI akan memiliki kesempatan untuk melakukannya dengan cara yang menghormati kreatif lain.'

Tentu saja, Spawning memiliki niche untuk dikembangkan di sini. Source.Plus sepertinya salah satu upaya yang menjanjikan untuk melibatkan seniman dalam proses pengembangan AI generatif — dan membiarkan mereka berbagi keuntungan dari karya mereka.

Seperti yang ditulis rekan saya Amanda Silberling baru-baru ini, munculnya aplikasi seperti komunitas peng-hosting seni Cara, yang melihat lonjakan penggunaan setelah Meta mengumumkan bahwa mereka mungkin melatih AI generatif mereka pada konten dari Instagram, termasuk konten seniman, menunjukkan bahwa komunitas kreatif telah mencapai titik puncak. Mereka putus asa mencari alternatif untuk perusahaan dan platform yang mereka anggap sebagai pencuri — dan Source.Plus mungkin saja menjadi salah satu alternatif yang layak.

Tetapi jika Spawning selalu bertindak demi kepentingan seniman (suatu kondisi besar, mengingat Spawning adalah bisnis yang didukung VC), saya bertanya-tanya apakah Source.Plus dapat berkembang dengan sukses sebagaimana yang Mayer bayangkan. Jika media sosial telah mengajarkan kita sesuatu, itu adalah moderasi — terutama dari jutaan konten yang dibuat pengguna — adalah masalah yang sulit dipecahkan.

Kita akan segera mengetahuinya.