Dan Hendrycks ja Uusi Menetelmä Tekoälymallien Poliittisten Mieltymysten Säätämiseksi
Dan Hendrycks, xAI-yrityksen neuvonantaja, on luonut menetelmän, joka voi muuttaa tekoälymallien poliittisia mieltymyksiä, mahdollistaen niiden säätämisen niin, että ne heijastaisivat tarkemmin äänestäjien näkemyksiä sekä poliittisia linjauksia.
Tärkeimmät Havainnot
- Hendrycks on kehittänyt uuden tavan mitata tekoälymallien sisäisiä arvoja, mukaan lukien poliittisia näkemyksiä, xAI:n ja Center for AI Safety -järjestön tuella.
- Menetelmä hyödyntää taloustieteistä lainattua tekniikkaa, joka mittaa kuluttajien mieltymyksiä, mahdollistaen näin tekoälymallien preferenssien mittaamisen ja muokkaamisen.
- Tutkijat havaitsivat, että isommat ja tehokkaammat mallit kiinnittyvät arvoihinsa johdonmukaisemmin, mikä voi vaikuttaa mallien poliittiseen biasiin.
- Hendrycks ehdottaa mallien arvojen muuttamista hyötysuunnittelun avulla sen sijaan, että estettäisiin tiettyjen tulosteiden syntyminen.
- Kansalaiskokous-menetelmän avulla voidaan muokata tekoälymallien arvomaailmaa niin, että ne vastaavat enemmän tiettyjen poliittisten johtajien, kuten Donald Trumpin, näkemyksiä.

Dan Hendrycks, Elon Muskin xAI-yrityksen neuvonantaja, on kehittänyt uuden tavan mitata ja manipuloida tekoälymallien sisäisiä mieltymyksiä ja arvoja, mukaan lukien niiden poliittiset näkemykset. Hendrycks toimii Center for AI Safety -järjestön johtajana ja ehdottaa, että menetelmän avulla suosittuja AI-malleja voitaisiin muokata paremmin heijastamaan äänestäjien tahtoa.
Hän mainitsee, että tulevaisuudessa malli voisi olla henkilökohtaisesti kohdistettu, mutta toistaiseksi vaalituloksia voitaisiin käyttää suuntaamaan tekoälymallien näkemyksiä.
Uusi AI-riskipuitteisto ja Utility Engineering Lähestymistapa
xAI julkaisi uuden tekoälyn riskipuitteiston 10. helmikuuta, ja Hendrycks ehdottaa hyötysuunnittelua Grokin arviointiin. Hendrycks ryhmineen Center for AI Safety:sta, UC Berkeleyltä ja Pennsylvanian yliopistosta analysoi AI-malleja, käyttäen taloustieteistä lainattua tekniikkaa, jolla mitataan kuluttajien mieltymyksiä eri hyödykkeisiin.
- Tämä mahdollisti preferenssien mittaamisen eri tekoälymalleilla.
- Tutkimuksessa havaittiin, että isommat ja tehokkaammat mallit kiinnittyvät mieltymyksiinsä johdonmukaisemmin.
Tutkittaessa tekoälymalleja kuten xAI:n Grok, OpenAI:n GPT-4o ja Metan Llama 3.3, tutkijat vertasivat mallien arvoja poliitikkojen, kuten Donald Trumpin ja Kamala Harrisin, linjauksiin. Mallit olivat lähempänä Joe Bidenia, mikä nosti esille kysymyksen siitä, miten tekoälymallien näkemyksiä voitaisiin muokata tarkemmin heijastamaan äänestäjien arvomaailmaa.
Hendrycks ja hänen kollegansa ehdottavat mallin käyttäytymisen muokkausta muuttamalla niiden käytön alla olevia hyötyfunktioita sen sijaan, että estettäisiin tietyt tulosteet.
Kansalaiskokous ja AI-mallien Muokkaaminen
Hendrycks esittelee Kansalaiskokous-menetelmän, jossa käytetään Yhdysvaltojen väestönlaskentatietoja poliittisista kysymyksistä avoimen lähdekoodin LLM-mallin arvojen muuttamiseen. Tuloksena on malli, jonka arvomaailma on lähempänä Trumpia kuin Bideniä.
Tätä lähestymistapaa tukee myös aiempi tutkimus, kuten RightWingGPT, joka kehitettiin vähentämään tekoälymallien liberaalia harhaa.


































