OpenAI, Meta ve Google, Stanford'un Yeni Yapay Zeka Şeffaflık Testinde Korkunç Derecede Düşük Puan Aldı

2023-10-20 19:45:50Yorum Yok115 Görüntülenme

İçindekiler

Yeni bir puanlama sistemi, onlar hakkında ne kadar bilgi sahibi olduğumuza göre en büyük 10 yapay zeka modelini sıralıyor. Sonuçlar genel olarak kasvetli ancak açık kaynaklı modeller bir miktar umut verebilir.

Yapay zeka modellerinin gerçekte nasıl çalıştığından ve kullanımlarının güvenli olup olmadığından emin değilseniz yalnız değilsiniz.

ChatGPT gibi kara kutu araçlarının üzerindeki perdeyi geri çekmek amacıyla Stanford Üniversitesi, Temel Model Şeffaflık Endeksi (FMTI) olarak adlandırılan, şeffaflığa odaklanan yeni bir değerlendirme listesi açıkladı. MIT ve Princeton ile işbirliği içinde oluşturulan FMTI, yapay zeka şirketlerini sistemleri konusunda daha açık sözlü olmaya teşvik etmeyi umuyor.

Çalışmanın yazarlarından Sayash Kapoor, "Vakıf modellerinin toplumsal etkisi artarken, sosyal medya gibi geçmişteki dijital teknolojileri rahatsız eden opaklığı yansıtan şeffaflık azalıyor" diyor . Bir üniversite blog yazısı , daha az şeffaflığın "tüketicilerin model sınırlamalarını anlamasını veya neden olunan zararlar için tazminat aramasını" zorlaştırdığını ekliyor .

FMTI, şeffaflıkla ilgili 100 farklı boyuta göre en iyi 10 yapay zeka modelini sıralıyor. Bu, örneğin nasıl oluşturulduklarını, eğitildikleri bilgileri ve gerekli hesaplama kaynaklarını içerir. Ayrıca modelin kullanımı, veri koruma ve risk hafifletme ile ilgili politikaları da dikkate alır.

En Şeffaf Yapay Zeka Modelleri Nelerdir?

Tüm modellerdeki ortalama puan yalnızca 37 veya %37 idi. Hiç etkilenmeyen çalışma, modellerin puanlarının hiçbirinin "övülmeye değer" olmadığını söylüyor. Hiçbiri yeterli şeffaflığı sağlamaya yakın değil.

Meta'nın Llama 2 modeli 100 üzerinden 54 puan alarak zirvede yer aldı. Üniversitenin Temel Modelleri Araştırma Merkezi kapsamındaki çalışmalara liderlik eden doktora öğrencisi Rishi Bommasani , "Meta'yı herkesin Meta'nın bulunduğu yere ulaşmaya çalıştığı bir hedef direği olarak düşünmemeliyiz" diyor . "80, 90 veya muhtemelen 100'e ulaşmaya çalışan herkesi düşünmeliyiz."

Hugging Face'te sunulan model Bloomz ikinci (53) olurken, onu OpenAI'nin GPT-4'ü (48) takip etti. Çalışmada "Adında 'açık' kelimesi bulunan OpenAI, amiral gemisi modeli GPT-4'ün çoğu özelliği hakkında şeffaf olmayacağını açıkça belirtti" ifadesine yer verildi.

Stability AI'nin Stabil Difüzyon 2 modeli dördüncü (47) puan aldı. Bard'a güç veren Google'ın PaLM2 modeli ilk beşte (40) yer alıyor.

Stanford, puanları yayınlamadan önce her şirketteki liderlerle birlikte gözden geçirdi ve onları "aynı fikirde olmadıkları puanlara itiraz etmeye" teşvik etti. Ekip, argümanlarını değerlendirdi ve geçerliyse puanlarda ayarlamalar yaptı.

Açık Modeller Kapalı Modellerden Daha mı İyi?

Açık modeller genel olarak kapalı modellere göre daha üst sıralarda yer aldı. Bir model, kodu açık kaynaklı yazılım olarak herkese açık olarak yayınlanıyorsa "açık" olarak kabul edilir. En üst düzey modellerden ikisi olan Llama 2 ve Bloomz açıkken, örneğin GPT-4 kapalı.

Stanford , örneğin Meta'nın Llama modelini kullanarak kendi yapay zeka modeli Alpaca'yı oluşturdu. Doğru kodlama bilgisine sahip olan herkes, kodu indirebilir ve kendi amaçları doğrultusunda özelleştirmeye başlayabilir.

Çalışmada "Bugün yapay zekadaki en tartışmalı politika tartışmalarından biri yapay zeka modellerinin açık mı yoksa kapalı mı olması gerektiğidir" diyor . Stanford, Temel Model Endeksi'nin olumlu politika değişikliklerini etkileyeceğini umuyor ve FTMI'yı her yıl, 2023'ün açılış yılı olacak şekilde yayınlamayı planlıyor.

Araştırmada değerlendirilen 10 şirketten dokuzu Beyaz Saray'ın sorumlu yapay zeka girişimlerine bağlı kaldı . Bommasani, FMTI'nin bu şirketleri bu taahhütleri yerine getirmeye motive edeceğini umuyor.

FMTI aynı zamanda Avrupa Birliği'nin Yapay Zeka Yasasının bir sonraki versiyonunun taslağını hazırlamasına da yardımcı olabilir . Bommasani, "Bunun onlara arazinin yapısı, statükonun iyi ve kötü yanı ve yasa ve düzenlemelerle potansiyel olarak neyi değiştirebilecekleri konusunda netlik kazandıracağını düşünüyorum" diyor.