Anthropic ja Kehittynyt AI-Agentti Claude
Anthropic on luonut edistyksellisen AI-agentin nimeltä Claude, joka pystyy suorittamaan monimutkaisia tietokonetehtäviä ihmismäisin tavoin ja tarjoaa uusia mahdollisuuksia työn automatisointiin.
Tärkeimmät Havainnot
- Claude kykenee monimutkaisiin tehtäviin, kuten verkkoselaamiseen ja sovellusten käyttöön, imitoimalla ihmisen toimintoja hiiren ja näppäimistön avulla.
- AI-agentit, kuten Claude, voivat mahdollisesti automaattisesti suorittaa rutiinitehtäviä ja lisätä työtehokkuutta toimistoympäristössä.
- Anthropic väittää, että Claude ylittää suorituskyvyllään muut AI-agentit useilla testimittareilla, vaikka riippumatonta vahvistusta ei ole vielä saatu.
- Alan markkinoilla on kilpailua AI-agenttien kehittämisestä, ja useat teknologiayritykset, kuten Microsoft ja Amazon, tutkivat agenttien kaupallisia mahdollisuuksia.
- Virheidenhallinta on yhä keskeinen haaste AI-agenteille, mikä voi rajoittaa niiden käyttöä ilman tarkkoja valvontamekanismeja ja rajoituksia.

Anthropic, joka kilpailee OpenAI:n kanssa, on kehittänyt AI-mallinsa Clauden, joka voi suorittaa erilaisia tehtäviä tietokoneella, kuten verkkoselausta, sovellusten avaamista ja tekstin syöttämistä hiiren ja näppäimistön avulla. Jared Kaplan, Anthropicin johtava tiedevirkailija, uskoo, että olemme astumassa aikakauteen, jossa malli voi hyödyntää kaikkia työvälineitä, joita ihminen käyttää tehtäviensä suorittamiseen.
Demossa Claude auttoi suunnittelemaan retken Golden Gate Bridgelle, avasi Chrome-selaimen ja etsi tietoa Googlen kautta. Lisäksi se käytti kalenterisovellusta tapahtuman luomiseksi ja jakamiseen ystävän kanssa. Samassa demossa Claudea pyydettiin myös luomaan yksinkertainen verkkosivusto käyttämällä Visual Studio Code -editoria ja testaamaan se yksinkertaisella verkkopalvelimella.
Agenttien automaatio ja tehokkuus
Anthropicin tuotepäällikkö Mike Krieger toivoo, että AI-agentit voivat automatisoida rutiineja toimistotöissä ja vapauttaa ihmisten aikaa tuottavampiin tehtäviin. Antropic tarjoaa agenteiden kyvyt saataville Claude 3.5 Sonnet -mallinsa kautta ja esittelee samalla pienemmän, parannetun version Claude 3.5 Haikusta. AI-agenttidemoja on näyttäviä, mutta teknologian luotettava käyttö arjessa ilman virheitä on haastavaa.
- Mallit voivat vastata kysymyksiin ja keskustella lähes ihmiselle ominaisella taidolla.
- Suorittaa tehtäviä tietokoneella yksinkertaisella komennolla.
Anthropic väittää, että Claude ylittää muut AI-agentit useilla avainmittareilla, kuten SWE-bench ja OSWorld, vaikka riippumatonta vahvistusta ei ole vielä saatu. Yhtiö väittää Clauden suorittavan tehtäviä OSWorldissä oikein 14.9 prosenttia ajasta. Testikäyttäjiä ovat muun muassa Canva, Replit, The Browser Company, Asana ja Notion.
Ofir Press, joka oli mukana kehittämässä SWE-benchiä, toteaa, että agentti AI:lla on taipumus ennakoida huonosti ja toipua virheistä heikosti. Kaplanin mukaan Claude osaa jo korjata joitakin virheitä yllättävän hyvin.
Useat teknologiayhtiöt pyrkivät nyt kehittämään AI-agentteja vallatakseen markkinaosuuksia. Microsoft ja Amazon ovat mukana kilpailemassa, tutkien agenttien mahdollisuuksia suositella ja ostaa tuotteita käyttäjille.
Sonya Huang Sequoia-yrityksestä sanoo, että AI-agentit toimivat parhaiten rajatussa ympäristössä, kuten koodaukseen liittyvissä tehtävissä. Suurin haaste AI-agenteissa on, että virheet voivat olla ongelmallisempia kuin epäselvät chatbot-vastaukset. Anthropic onkin asettanut Claudelle rajoituksia, esimerkiksi rajoittamalla sen kykyä käyttää henkilön luottokorttia.

































