A gép is ember? A GPT-4 átment a Turing-teszten – állítják a kutatók

A legtöbb ember nem tudta megkülönböztetni a ChatGPT-t egy emberi beszélgetőpartnertől, ami arra utal, hogy a híres Turing-tesztet első alkalommal sikerült teljesíteni.

A „Turing-teszt”, amelyet először Alan Turing informatikus 1950-ben „utánzó játék” néven javasolt, azt értékeli, hogy egy gép intelligencia szert tehet-e olyan képességekre, hogy a kommunikációban megkülönböztethetetlen legyen egy embertől. Ahhoz, hogy egy gép átmenjen a Turing-teszten, képesnek kell lennie arra, hogy beszéljen egy élő személlyel, és elhitesse vele, hogy ember.

A tudósok úgy döntöttek, megismétlik ezt a tesztet, és 500 embert kérnek meg a beszélgetésre az említett négy válaszadóval, köztük egy emberrel, aztán az 1960-as évekbeli ELIZA mesterségesintelligencia-programmal, valamint a GPT-3.5 és a GPT-4 AI-programokkal. A beszélgetések öt percig tartottak, majd a résztvevőknek meg kellett mondaniuk, szerintük emberrel vagy mesterséges intelligenciával beszéltek-e. A résztvevők a GPT-4-et az esetek 54 százalékában ítélték embernek. Az ELIZA-t csak az esetek 22 százalékában, míg a GPT-3.5-öt 50 százalékos arányban ítélték embernek. Az emberi résztvevő is csak 67 százalékos eredményt ért el, ami azt jelzi, hogy a mesterséges intelligencia gyorsan közeledik hozzánk.

Nell Watson, az Institute of Electrical and Electronics Engineers (IEEE) mesterségesintelligencia-kutatója szerint a gépek képesek konfabulálni, és – az emberekhez hasonlóan – hihető, utólagos indoklásokat párosítani dolgokhoz. Kognitív elfogultságoknak vannak kitéve, becsaphatók és manipulálhatók, és egyre inkább megtévesztőek. Az AI-rendszerekben az emberhez hasonló gyarlóságok és furcsaságok jutnak kifejezésre, ami emberibbé teszi őket.

A tanulmány, ami azon évtizedes kísérletekre épült, amelyek arra irányultak, hogy az AI-ágensek átmenjenek a Turing-teszten, visszhangozta azokat az általános aggodalmakat, hogy az emberinek ítélt AI-rendszerek „széles körű társadalmi és gazdasági következményekkel járnak”.

A tudósok azzal is érveltek, hogy jogos kritikák érik a Turing-teszt túlságosan leegyszerűsítő megközelítését. A stilisztikai és szocio-emocionális tényezők nagyobb szerepet játszanak a Turing-tesztben, mint az intelligencia hagyományos fogalmai. Watson szerint a nyers értelem csak egy bizonyos határig terjed. Ami igazán számít, az a kellő intelligencia ahhoz, hogy megértsünk egy helyzetet, mások képességeit, és legyen empátiánk, hogy ezeket az elemeket összeillesszük. Az AI értékének csak egy kis részét képezik a képességek. Az a képességük, hogy megértsék mások értékeit, preferenciáit és határait, szintén alapvető fontosságú. Ezek a tulajdonságok teszik majd lehetővé, hogy az AI hűséges és megbízható concierge-ként szolgáljon az életünkben.

Watson hozzátette, hogy a tanulmány kihívást jelent a jövőbeli ember-gép interakció számára, és hogy egyre paranoiásabbak leszünk az interakciók valódi természetét illetően, különösen az érzékeny ügyekben. A tanulmány rávilágít arra, hogyan változott a mesterséges intelligencia a GPT-korszakban. Az ELIZA korlátozott képességeihez képest a nyelvi modellek végtelenül rugalmasak, képesek a témák széles skálájára válaszokat szintetizálni, bizonyos nyelveken vagy szociolektusokban beszélni, karaktervezérelt személyiséggel és értékekkel ábrázolni magukat, ami óriási előrelépés az ember által kézzel programozott valamihez képest.