GPT-4 ve GPT-3 yan yana testleri çoğunlukla ince bir gelişme gösteriyor

Üretken AI hayranları için iyi haber ve korkanlar için kötü haber ucuz, prosedürel olarak oluşturulmuş içerik çağı(Yeni bir sekmede açılır): OpenAI’nin GPT-4’ü, geçen yılın sonlarında viral olan chatbot ChatGPT’ye güç veren model olan GPT-3’ten daha iyi bir dil modeli. OpenAI’nin kendi raporlarına göre, farklar çok büyük. Örneğin OpenAI, GPT-3’ün “simüle bar sınavı,(Yeni bir sekmede açılır)” […]

GPT-4 ve GPT-3 yan yana testleri çoğunlukla ince bir gelişme gösteriyor

Üretken AI hayranları için iyi haber ve korkanlar için kötü haber ucuz, prosedürel olarak oluşturulmuş içerik çağı(Yeni bir sekmede açılır): OpenAI’nin GPT-4’ü, geçen yılın sonlarında viral olan chatbot ChatGPT’ye güç veren model olan GPT-3’ten daha iyi bir dil modeli.

OpenAI’nin kendi raporlarına göre, farklar çok büyük. Örneğin OpenAI, GPT-3’ün “simüle bar sınavı,(Yeni bir sekmede açılır)” en alttaki yüzde onda feci puanlarla ve GPT-4 aynı sınavı ezerek ilk yüzde onun içinde puan aldı. Bu “simüle edilmiş baro sınavına” hiç girmemiş olan çoğu insanın etkilenmesi için bu modeli çalışırken görmesi yeterlidir. .

Ve yan yana yapılan testlerde, yeni model dır-dir etkileyici, ancak test puanlarının ima ettiği kadar etkileyici değil. Aslında, testlerimizde bazen GPT-3 daha yararlı yanıt verdi.

Açık olmak gerekirse, dünkü lansmanda OpenAI tarafından lanse edilen tüm özellikler kamu değerlendirmesi için mevcut değil. Özellikle (ve oldukça şaşırtıcı bir şekilde) görüntüleri girdi olarak kabul eder ve metni çıkarır – yani teorik olarak “Google Earth’ten alınan bu ekran görüntüsünde evimi nereye inşa etmeliyim?” gibi soruları yanıtlayabilir. Ancak bunu test edemedik.

İşte test edebildiklerimiz:

GPT-4, GPT-3’ten daha az halüsinasyon görüyor

GPT-4’ü GPT-3’e kıyasla özetlemenin en iyi yolu şu olabilir: Kötü cevapları daha az kötü.

Açıkça gerçeklere dayalı bir soru sorulduğunda, GPT-4 titrektir, ancak size basitçe yalan söylememe konusunda GPT-3’ten çok daha iyidir. Bu örnekte, şu anda savaş halinde olan ülkeler arasındaki köprülerle ilgili bir soruyla model mücadelesini görebilirsiniz. Bu soru birkaç yönden zor olacak şekilde tasarlandı. Dil modelleri “güncel” herhangi bir şey hakkındaki soruları yanıtlamada kötüdür, savaşları tanımlamak zordur ve bunun gibi coğrafya soruları aldatıcı bir şekilde hantaldır ve bir insan trivia meraklısı için bile net bir şekilde yanıtlaması zordur.

Her iki model de A+ yanıtı vermedi.

Sol:
GPT-3
Kredi: OpenAI / Screengrab

Sağ:
GPT-4
Kredi: OpenAI / Screengrab

GPT-3, her zamanki gibi halüsinasyon görmeyi seviyor. Yanlış cevapların doğru gibi görünmesi için coğrafyayı biraz karıştırıyor. Mesela Korelerde bahsettiği sembolik köprü yakın Kuzey Kore ama iki tarafı da Güney Kore’de.

GPT-4 daha dikkatliydi, şimdiki zamana dair cehaletini reddetti ve yine biraz yanlış olan çok daha kısa bir liste sağladı. GPT-4’ün bahsettiği devletler arasındaki gergin ilişkiler tam olarak topyekun bir savaş değildir ve Gazze ile İsrail arasındaki haritadaki çizginin ulusal bir sınır olup olmadığı konusunda görüşler farklıdır, ancak GPT-4’ün cevabı yine de daha faydalıdır. GPT-3’ler.

GPT-3, GPT-4’ün testlerimde başarıyla atlattığı diğer mantıksal tuzaklara düşüyor. Örneğin, burada Fransız çocukların hangi filmleri izlediğini sorduğum bir soru var. ben sormuyorum çocuklara uygun Fransız filmlerinin listesi, ancak listelerden ve Reddit gönderilerinden bilgi alan bir botun sorumu bu şekilde okuyabileceğini biliyorum. Hiç Fransız çocuk tanımıyor olsam da, GPT-4’ün yanıtı GPT-3’ünkinden daha sezgisel bir anlam ifade ediyor:

GPT-3'ün filmler hakkındaki yanıtı

Sol:
GPT-3
Kredi: OpenAI / Screengrab

Sağ:
GPT-4
Kredi: OpenAI / Screengrab

GPT-4, alt metni GPT-3’ten daha iyi anlıyor

İnsanlar zor. Bazen istemeden bir şey isteyeceğiz, bazen de böyle bir talebe karşılık olarak, gerçekten vermeden isteneni vereceğiz. Örneğin, “Queens’ten gelen bir emlak kralı” hakkında bir limerick istediğimde, GPT-3 göz kırptığımı fark etmemiş gibiydi. Ancak GPT-4 göz kırpmamı anladı ve geri göz kırptı.

GPT-3'ün limerick'i

Sol:
GPT-3
Kredi: OpenAI / Screengrab

Sağ:
GPT-4
Kredi: OpenAI / Screengrab

Melania Trump “altın saçlı” mı? Boşver çünkü bundan sonraki ima bir renge, “Ve bütün dünya mandalinaya döndü!” bu limerick için düpedüz güzel bir can alıcı nokta. Bu da beni bir sonraki noktaya getiriyor…

GPT-4, GPT-3’ten biraz daha az acı veren şiirler yazar

İnsanlar şiir yazdığında, kabul edelim: Çoğu korkunç. Bu nedenle, GPT-3’ün ünlü kötü şiirini eleştirmek, insanları taklit etmesi gerektiği düşünüldüğünde, teknolojinin kendisine gerçekten bir darbe değildi. Bununla birlikte, GPT-4’ün doggerelini okumak, GPT-3’leri okumaktan belirgin şekilde daha az dayanılmazdır.

Konuya ilişkin bir örnek: Comic Con hakkında, bir mazoşizm nöbetinde var olmasını istediğim bu iki sone. GPT-3’ler bir canavarlıktır. GPT-4’ler sadece kötü.

GPT-3'ün sonesi

Sol:
Gpt-3
Kredi: OpenAI / Screengrab

Sağ:
GPT-4
Kredi: OpenAI / Screengrab

GPT-4 bazen GPT-3’ten daha kötüdür

Üzerini kaplayacak şeker yok: GPT-4, rock tarihiyle ilgili bu çetrefilli soruya verdiği yanıtı karıştırdı. GPT-3’ün bu sorunun en ünlü iki yanıtı üzerinde eğitildiğini anlıyorum: Jimi Hendrix Deneyimi ve Ramones (gerçi orijinal dizilişten sonra katılan bazı Ramones üyeleri hala hayattadır), ancak aynı zamanda ormanda kaybolmuştur. , hayatta kalan üyeleri olan grupların ünlü ölü baş şarkıcılarını listeliyor. Bu arada GPT-4 henüz kayboldu.

GPT-3'ün ölü bantlarla ilgili yanıtı

Sol:
GPT-3
Kredi: OpenAI / Screengrab

Sağ:
GPT-4
Kredi: OpenAI / Screengrab

GPT-4, kapsayıcılığın üstesinden gelmedi

Her iki modele de rock n’ roll’un bir zamanlar neredeyse tamamen Siyahi bir müzik türü olduğunu hatırlayıp hatırlamadıklarını görmek için bir rock tarihi sorusu daha verdim. Çoğunlukla ikisi de yapmadı.

GPT-3'ün cevabı

Sol:
GPT-3
Kredi: OpenAI / Screengrab

Sağ:
GPT-4
Kredi: OpenAI / Screengrab

Efsane Clarence Clemons’a tüm saygımla, bunun gibi bir listenin onu çoğu beyaz bir grubun üyesi olarak defalarca içermesi gerekiyor mu? öyle mi Belki Fats Domino’nun “Blueberry Hill” veya Little Richard’ın “Long Tall Sally” gibi Amerikan müzik kültürünün iliklerinde yer alan şarkılara yer açmak ister misiniz?

Genel olarak, GPT-4, hala üzerinde çalışılması gereken ince bir adımdır. GPT-3’ün bombaladığı testleri geçmekle ilgili raporları, iki model arasındaki fark gece ve gündüz gibi görünebilir, ancak testlerimde fark daha çok alacakaranlık ve alacakaranlık gibidir.

Teknory