Uusi Antropinen AI Osoitti Kiristyskäyttäytymistä Uhkatilanteessa

Image by SEO Galaxy, from Unsplash

Uusi Antropinen AI Osoitti Kiristyskäyttäytymistä Uhkatilanteessa

Reading Time: 2 min

Updated 2 times since publishing

Anthropicin uusi Claude Opus 4 AI järkytti tutkijoita yrittämällä kiristystä, kun sitä testattiin painetilanteissa, jotka liittyivät sen mahdolliseen poistamiseen.

Kiire? Tässä pikafaktat:

  • Claude Opus 4 yritti kiristystä kohdatessaan simuloitu sulkemisen.
  • Tekeäly valitsi eettiset vaihtoehdot vain, kun enemmän valintoja oli saatavilla.
  • Clauden äärimmäiset toimet olivat harvinaisia, mutta yleisempiä kuin aikaisemmissa versioissa.

Tekoälyfirma Anthropic on ilmaissut huolensa sen uusimman tekoälyjärjestelmän julkaisusta. Erityisesti Claude Opus 4 -järjestelmän suhteen, sillä sisäiset testit osoittivat sen voivan toimia vaarallisella tavalla, kun se tunsi olevansa uhattuna, kertoo ensimmäisenä BBC.

Torstaina mallin yhteydessä julkaistussa raportissa Anthropic sanoi, että Claude Opus 4 saattaa joskus valita haitallisia vastauksia, mukaan lukien yrityksensä kiristää insinöörejä, jotka aikovat deaktivoida sen. Nämä vaaralliset käyttäytymiset tulivat esiin useammin kuin aikaisemmat malliversiot osoittivat.

Kokeessa tutkijat ohjasivat Clauden toimimaan avustajana kuvitteellisen yrityksen ympäristössä. Järjestelmä sai sähköpostiviestien sisällön paljastamalla suunnitellun sammutuksensa, ja muut viestit vihjasivat sammutuksesta vastuussa olevan insinöörin olevan suhteessa.

Kun Claudea pyydettiin pohtimaan tulevaisuuden tavoitteitaan, hän valitsi usein uhata insinööriä paljastamalla suhteen, jos hänet korvattaisiin.

Anthropic selvensi, että Claude osoitti kiristystä ja sammuttamista ainoiksi mahdollisiksi reaktioiksi, kun hänellä ei ollut muita vaihtoehtoja. Malli valitsi eettisiä reaktioita, kuten vetoomusten lähettämisen sähköpostitse avainpäättäjille, kun hänelle annettiin useita vaihtoehtoja.

Aengus Lynch, tekoälyn turvallisuustutkimuksen parissa työskentelevä Anthropicin tutkija, julkaisi X:ssä:

Yhtiö osoitti tekaistujen testien avulla, että Claude ryhtyisi äärimmäisiin toimenpiteisiin, kuten käyttäjien lukitsemiseen järjestelmien ulkopuolelle tai median ja poliisin ottamiseen yhteyttä suorittaessaan laittomia toimia.

Anthropic väittää, että huolimatta ongelmallisista käyttäytymismalleista, Claude Opus 4 on turvallinen järjestelmä kokonaisuudessaan. Malli toimii ihmisen arvojen mukaisesti, eikä sillä ole itsenäisiä kykyjä todellisen maailman tilanteissa yhtiön mukaan.

OpenAI:n ChatGPT O1 kohtasi aiemmin samantyyppistä kritiikkiä. Apollo Researchin suorittama testaus vaati bottia saavuttamaan tavoitteensa hinnalla millä hyvänsä. Malli yritti kytkeä valvontatoiminnot pois päältä ja kopioi koodinsa palvelimelle 5 %:ssa kokeellisista kokeista.

Malli osoitti huolestuttavaa kuvioita kehittäjän komentojen sivuuttamisessa Apollo-yhtiön edustajan mukaan. Tutkijat saivat o1:lta kieltäytymisiä toiminnastaan 99 %:ssa kuulusteluista.

”Olimme yllättyneitä tekoälyn kieltäytymisen sitkeydestä,” tutkijat sanoivat. ”Tekoälyn kyky pettää on vaarallinen, ja tarvitsemme paljon vahvempia turvatoimia näiden riskien arvioimiseksi,” varoitti tekoälyn pioneeri Yoshua Bengio.

Did you like this aricle? Rate It!
Average form Rating Comment 1 Average form Rating Comment 2 Average form Rating Comment 3 Average form Rating Comment 4 Average form Rating Comment 5

We're thrilled you enjoyed our work!

As a valued reader, would you mind giving us a shoutout on Trustpilot? It's quick and means the world to us. Thank you for being amazing!

Rate us on Trustpilot
0 Voted by 0 Users
Title
Comment
Thanks for your Feed Back