Bir Microsoft sözcüsü şirketin herhangi bir yorumu olmadığını söyledi ”
Dikey endüstri ihtiyaçlarını karşılayan, alana özel daha küçük LLM’ler halihazırda yapay zekanın bir sonraki sınırı olarak ortaya çıkıyor
Avivah Litan, “Nightshade gibi bir araç çok gerçek ve benzer araçlar, bilgisayar korsanları ve suçlular tarafından model eğitim verilerini kendi çıkarları doğrultusunda zehirlemek için (örneğin, bir uydu veya GPS sistemini kandırmak ve böylece düşman tespitini önlemek için) yıllardır kullanılıyor” dedi Gartner’da başkan yardımcısı ve seçkin analist KUM Laboratuvarıbu yılın başlarında ayrıca ücretsiz bir hizmet başlattı isminde Sır genAI modelleri tarafından kazınmaması için kendi IP’lerini maskelemek “Dolayısıyla, bu davaların sonucunun, telif hakkıyla korunan eserin sahibinin izni olmadan eleştiri, hiciv, adil yorum veya habercilik gibi amaçlarla kullanılmasına izin veren adil kullanım doktrininin yorumlanmasına bağlı olması bekleniyor
“Bu şu anda büyük bir tartışma konusu,” diye ekledi
Litan’a göre bugüne kadar hükümetin genAI modellerine karşı fikri mülkiyet korumasını ele alma çabaları en iyi ihtimalle dengesiz ”
genAI geliştiren şirketler, çevrimiçi içeriğin ayrım gözetmeksizin kazınmasından daha sık vazgeçiyor ve bunun yerine, fikri mülkiyet mevzuatına aykırı olmadıklarından emin olmak için içerik satın alıyor ” Modellerini bu tür düşmanca saldırıları ve veri zehirlenmelerini göz ardı edecek şekilde eğitmek için çok para harcıyorlar Yani benim iznim olmadan alıyorsan bu senin sorunun ”
Amorf LLM’ler, genel amaçlar için kullanılabildikleri için alana özgü LLM’lerle birlikte büyümeye devam edecek; bu da, kontrolsüz IP kazımasını engelleyen araçların da büyümeye devam edeceği anlamına geliyor
“AB Yapay Zeka Yasası, yapay zeka modeli üreticilerinin ve geliştiricilerinin, modellerini eğitmek için kullanılan telif hakkı materyallerini açıklamaları gerektiğine dair bir kural önermektedir
Bu arada sanatçılar da hayal kırıklıklarında ve tepkilerinde tamamen haklılar
Çevrimiçi bulunan içeriğin adil kullanımını neyin oluşturduğuna dair mücadele, bu konuda yapılanların merkezinde yer alıyor Buna veri toplamaya harcanan süre bile dahil değil
Yeni bir yöntem şunu kullanıyor:veri zehirlenmesi saldırılarıgenAI eğitim verilerini manipüle etmek ve makine öğrenimi modellerine beklenmedik davranışlar eklemek için ” söz konusu
Birçoğu üniversitelerin bilgisayar bilimleri bölümlerinden olan yazılım mühendisleri, mücadeleyi kendi ellerine aldılar ”
Telif Hakkı © 2023 IDG Communications, Inc
Son olarak, hızlı mühendislik gibi genAI eğitim teknikleri ve artırılmış nesil alma (RAG) veya ince ayar, bir modele yalnızca kullanıcı kuruluşundan gelen özel doğrulanmış verileri kullanması talimatını verebilir
Litan, “Böyle bir aracın etiğini yargılayamam; yalnızca yangına ateşle karşılık vermeye yardımcı olduğunu ve büyük model geliştiricileri ve sağlayıcıları için çıtayı yükselttiğini söyleyebilirim” dedi
genel-13
Ancak dijital filigranlama yöntemleri geçmişte ağ parametrelerini değiştirerek davetsiz misafirlerin içeriği kendilerine aitmiş gibi talep etmelerine olanak tanıyan geliştiriciler tarafından engellendi “IBM duyurdu [it] Bir model piyasaya sürülecek ve eğer bir işletme bunu kullanıyorsa, bir dava açılırsa emin ellerdedirler, çünkü IBM sağlayacak tazminatla onları Mücadele sanat eserinin ötesine geçerek genAi şirketlerinin Microsoft ve ortağı OpenAI gibiyazılım kodunu ve diğer yayınlanmış içerikleri modellerine dahil edebilir “Bunu kamuoyuna açıkladım ve bir şeyle maskeledim Finansal hizmet şartları ve piyasa bilgileri gibi daha hedefe yönelik veri ve dil kullanmanın yanı sıra, temel LLM’ler hala çok büyük miktarda işlemci döngüsü tüketebilir ve eğitimleri milyonlarca dolara mal olabilir
“Microsoft 365 Copilot RAG kullanıyor, böylece modellerden kullanıcılara verilen yanıtlar her zaman kuruluşun özel verilerine dayanıyor, bu nedenle M365 Copilot kurallarına uydukları ve korkuluklarını kullandıkları sürece işletmeleri telif hakkı ihlallerine karşı koruyorlar Sonuç: OpenAI’nin GPT-4, Google’ın PaLM 2’si veya Meta’nın Llama 2 modellerinden daha küçük veri kümelerine sahip LLM’ler
Temel modelleri“Transformatörler” olarak da bilinen , binlerce, hatta milyonlarca parça ham, etiketlenmemiş veri üzerinde eğitilmiş büyük ölçekli üretken yapay zeka modelleridir Zhao okulun lisansüstü öğrencileriyle çalıştı Bu tür geçici çözümleri önlemek için yeni teknikler ortaya çıktı, ancak bu sürekli gelişen bir mücadele
Teknoloji uzmanları, eğitim algoritmaları otomatik olarak interneti ve diğer yerleri içerik için tarayan üretken yapay zeka (genAI) araçlarıyla, sanatçıların fikri mülkiyet (IP) hırsızlığı olarak gördükleri şeye karşı mücadele etmelerine yardımcı oluyor Japonya, yapay zeka tarafından üretilen sanatın telif hakkı yasalarını ihlal etmediğini söylüyor” dedi Litan “Bu benim verilerim veya sanat eserim” dedi
“Ve bu davalarda yargı yetkisine bağlı olarak pek çok değişiklik var; farklı eyalet veya federal çevre mahkemeleri farklı yorumlarla yanıt verebilir” dedi
İlk kez bildirildi MİT’ler Teknoloji İncelemesiNightshade, esasen yapay zeka modellerinin bir görüntüyü gerçekte gösterdiğinden farklı bir şey olarak yorumlamasını sağlıyor
Hancock, çok daha fazla şirketin AI geliştiricilerini içeriğin kazınmasına karşı açıkça uyardığını gördüğünü söyledi
Bu tür araçların kullanımının etik olup olmadığı, bunların nereye yönelik olduğuna bağlı olduğunu söyledi
Hancock, “Bir modele aktarmanız gereken bu kadar çok veriye sahip olduğunuzda, ne kadar paralelleştirme yaptığınıza bağlı olarak haftalarca veya aylarca çalıştıracağınız yüzlerce veya binlerce özel hızlandırıcıya (CPU’lar veya GPU’lar) ihtiyaç duyarsınız
Hancock, “Modele genel eğitimden bilmesi gerekenleri öğretmek için hala onlarca veya yüzlerce veri noktasından değil, binlerce veya on binlerce veri noktasından bahsediyoruz” dedi “Fakat bu yine de İnternet’in diğer temel modellerin ön eğitimi için kullanılan önemli kısımlarından biraz farklı Zhao’ya göre Nightshade teknolojisi sonunda Glaze’e entegre edilecek
Google şu anda dahil toplu dava Şirketin genAI sistemlerini eğitmek için veri toplamasının milyonlarca insanın mahremiyetini ve mülkiyet haklarını ihlal ettiğini iddia ediyor “Çoğu zaman olduğu gibi, burada liderlik için Avrupa’ya bakacağımızdan şüpheleniyorum ”
Jyoti’ye göre şirketler, binlerce ve hatta milyonlarca lisanslı veya lisanssız çalışma içeren veri göllerini kullanarak yapay zeka içerik oluşturma araçlarını rutin olarak eğitiyor
Hancock, “Bunun etik olmayan kullanımları olduğunu düşünüyorum; örneğin, sürücüsüz araçların dur işaretlerini ve hız sınırı işaretlerini tanımalarına yardımcı olan verilerini zehirlemeye çalışıyorsanız” dedi Veri gizliliğini koruma konusunda genellikle ABD’ye göre biraz daha rahatlar ve biz de sonunda aynı yolu izliyoruz” dedi Hancock , veya öğretim veya sınıfta kullanım için
Jyoti, “Konuştuğum her şirket, tüm teknoloji şirketleri, IBM, Adobe, Microsoft tazminat teklif ediyor” dedi
Düzenlenemeyecek kadar hızlı mı gelişiyorsunuz?Jyoti’ye göre her durumda, hukuk sisteminden fikri mülkiyet yasaları kapsamında özel bir çalışmanın ne olduğunu açıklığa kavuşturması isteniyor OpenAI ve IBM, yorum taleplerine yanıt vermedi Örneğin, bir görüntü lisanslama hizmeti olan Getty Images, AI sanat aracı Stable Diffusion’a dava açtı bu yılın başlarında fotoğraflarının uygunsuz şekilde kullanıldığı ve hem telif hakkı hem de ticari marka haklarını ihlal ettiği iddiasıyla dava açıldı “Telif haklarına ilişkin ABD federal yasaları hâlâ mevcut değil, ancak hükümet yetkilileri ve endüstri liderleri arasında içerik kaynak standartlarının kullanılması veya zorunlu kılınması konusunda tartışmalar var
Gartner’dan Litan’a göre, kullanıcıların çalınan IP’ye karşı tazmin edilmesinin yanı sıra, görüntülerin ve diğer nesnelerin kaynağını destekleyen içerik kimlik doğrulama standartları oluşturmak için endüstri çabaları sürüyor
Nightshade – bir genAI kabusu mu?Teknoloji, AI büyük dil modeli (LLM) eğitim verilerini bozarak görüntü üreten genAI araçlarına zarar verebilir; bu da DALL-E, Midjourney ve Stable Diffusion gibi platformların hatalı resim veya videolar yayınlamasına yol açar Hancock, “Reddit, Stack Overflow, Twitter ve diğer yerler, ‘Bunu modelleriniz için iznimiz olmadan kullanırsanız sizi dava ederiz’ diyerek daha açık ve agresif bir tavır takınıyorlar” dedi devam eden bir mahkeme savaşı
Örneğin, Adobe’nin oluşturduğu İçerik Kimlik Bilgileri — sanat eserini kimin yaptığı, ne zaman yaptığı ve nasıl yaratıldığı gibi bağlamsal ayrıntıları taşıyan meta veriler “Donanımın kendisi pahalı ama aynı zamanda onu uzun süre kesintisiz elektrik faturasıyla çalıştırıyorsunuz bilgisayar bilimi profesörü Ben Zhao ” Litan söz konusu İçerik oluşturucuları korumanın başka bir yöntemi de şunları içerir: kaynak içerik referansları Çeşitli yapay zeka modeli satıcıları veya üçüncü taraf firmalar tarafından sağlanan genAI çıktılarında Kalipso AI Ve Veri Robotu İsminde İtüzümüBu teknoloji, genAI eğitim algoritmasını, gerçekte tamamen farklı bir şeyi yutarken, bir şeyi aldığına inandırmak için “gizleme”yi kullanıyor Bu şekilde, AI hizmetlerini satın alan müşterilere, içerik yaratıcıları tarafından dava edilmeyeceklerine dair güvence sunabilirler
Hancock, genAI geliştirme şirketlerinin, hükümet düzenleyicilerinin fikri mülkiyet korumaları konusunda ne kadar agresif “ya da değil” olacağını görmeyi beklediklerini söyledi
Microsoft o kadar ileri gitti ki Copilot kullanıcılarına söyleyin Şirketin aracına yerleştirdiği içerik filtrelerini ve korkulukları kullanmazlarsa yasal olarak korunmazlar
Özelleştirilmiş genAI kurtarmaya mı gidiyor?Snorkel AI, tamamen belirli alanlar ve uygulamalar için temel genAI modellerini özelleştirmeye ve uzmanlaştırmaya odaklanmış bir şirkettir ”
Araştırma firması IDC’de başkan yardımcısı analisti olan Ritu Jyoti, konuyu Nightshade’in ne olduğuyla ilgili bir sorudan ziyade etikle ilgili bir soru olarak görüyor Modeller, kullanıcılardan gelen yanıtları üretmek veya soruları çözmek için internetten ve satın alınan veri kümeleri de dahil olmak üzere diğer yerlerden derledikleri verilerden öğrenir Kim en güçlü ve en etkili yapay zekaya sahipse o kazanacak Dijital “filigranlar” bir seçenektir yazarlık talebinde bulunmak için oluşturuldu benzersiz sanat eserleri veya diğer içerikler üzerinden
Peki veri zehirlenmesi etik değil mi?
Şirketlerin alana özel kullanım için Yüksek Lisans (LLM) geliştirmelerine yardımcı olan bir girişim olan Snorkel AI’nin teknoloji başkanı ve kurucu ortağı Bradon Hancock, Nightshade’in AI geliştiricileri tarafından veri kazımasını engellemek için başka çabaları teşvik edebileceğine inanıyor Örneğin yapay zeka tarafından araba olarak yorumlanan bir fotoğraf aslında bir tekne olabilir; bir ev muza dönüşür; bir kişi balinaya dönüşür vb “Amacınız daha çok ‘beni kazıma’ yönündeyse ve aktif olarak bir modeli mahvetmeye çalışmıyorsanız, sanırım benim için çizgi burada
Nightshade, Chicago Üniversitesi araştırmacıları tarafından geliştirildi