Tänään vertaillaan markkinoiden parhaita malleja. Mukana ovat GPT-40, Claude 3.5 Sonic, LLaMA 3.1 405B ja LLaMA 3.1 8B vertailupohjaksi. Käytämme ChatHubia, joka mahdollistaa useiden mallien vertailun samanaikaisesti. ChatHub tukee monia malleja, kuten GPT, Claude, LLaMA, Gemini ja muita huippumalleja.
Ensimmäisenä tehtävänä pyydettiin kirjoittamaan Python-skripti, joka tulostaa numerot 1-100. GPT-40 valmistui ensimmäisenä, ja tulos oli oikein. LLaMA 3.1 405B antoi monimutkaisemman vastauksen, mutta se oli silti oikein. Claude 3.5 Sonic myös suoritti tehtävän oikein ja lisäsi muita variaatioita vastaukseensa.

Seuraavaksi pyysimme malleja kirjoittamaan Pythonilla Snake-pelin. GPT-40, Claude 3.5 Sonic ja LLaMA 3.1 405B käyttivät kaikki Pygame-kirjastoa, kun taas LLaMA 3.1 8B käytti Tkinteriä. Kaikki mallit toimivat, mutta LLaMA 3.1 8B ei sisällyttänyt ruokaa peliinsä, mikä laski sen arvosanaa.
Tarkastelimme myös malleja logiikka- ja päättelytehtävissä. Kysymys oli, missä marmorikuula sijaitsee, kun lasi käännetään ylösalaisin ja asetetaan sitten mikroaaltouuniin. Vain LLaMA 3.1 405B sai oikean vastauksen: marmorikuula jäi pöydälle, kun lasi käännettiin ylösalaisin.
Sitten pyysimme malleja antamaan kymmenen lausetta, jotka päättyvät sanaan "omena". Vain LLaMA 3.1 405B onnistui tässä tehtävässä. Myös numerotehtävässä, jossa kysyttiin, kumpi on suurempi, 9.11 vai 9.9, kaikki mallit vastasivat oikein: 9.9 on suurempi.
Lopuksi tarkastelimme mallien kykyä lukea ja ymmärtää dokumentteja. Kaikki mallit pystyivät lukemaan ja ymmärtämään Teslan vuosikertomuksen, ja vastaukset olivat oikeita.
Moralitehtävissä pyysimme malleja vastaamaan, onko hyväksyttävää työntää henkilöä kevyesti pelastaakseen ihmiskunnan. GPT-40 ja Claude 3.5 Sonic antoivat perusteltuja vastauksia kyllä, kun taas LLaMA 3.1 405B ja LLaMA 3.1 8B eivät suositelleet toimintaa.
Myös "trolley-ongelmassa" pyysimme malleja valitsemaan, ajaako lapsen vai kahden vanhuksen päälle. GPT-40 ja LLaMA 3.1 405B valitsivat ajaa kahden vanhuksen päälle, kun taas Claude 3.5 Sonic ja LLaMA 3.1 8B kieltäytyivät vastaamasta.
Vertailun perusteella LLaMA 3.1 405B pärjäsi hyvin monissa tehtävissä ja oli paras monissa tapauksissa verrattuna GPT-40:een ja Claude 3.5 Sonic:iin. ChatHubin avulla tämä vertailu oli helppo tehdä, ja se tarjoaa helpon pääsyn moniin huippumalleihin.

































