Viatu viwili vya kawaida vya mazungumzo vimefikia safu muhimu-wamepitisha mtihani wa Kujaribu, wanasayansi kutoka Chuo Kikuu cha California huko San Diego (USA) walisema. Tunazungumza juu ya mifano ya GPT na llama. Hii inaweza kumaanisha roboti zimekuwa nzuri kama kila mtu.

Upimaji, ulioundwa mnamo 1950, ulitumiwa kuangalia akili ya mashine. Ikiwa watafiti hawakuweza kutofautisha matokeo ya matokeo ya mtu kutoka kwa matokeo ya mtu, iliaminika kuwa mashine hiyo ilizidi mtihani.
Timu ilijaribu mifano minne ya akili bandia: iliyotolewa mnamo Februari 2025 GPT-4.5, toleo la zamani lililoitwa GPT-4O, mfano wa Llama na mpango wa mazungumzo wa 1960 Eliza. Tatu za kwanza ni mifano kubwa ya lugha ya watu wa Viking – algorithms ya kina inaweza kutambua na kuunda maandishi kulingana na seti kubwa za data.
Wataalam wamevutia wanafunzi 126 kutoka Chuo Kikuu cha California na watu 158 kutoka jukwaa kamili la ukusanyaji wa data. Washiriki wameongoza watu mkondoni na mtu mwingine au akili bandia, na hawajui ni nani mazungumzo yao. Kwa hivyo, GPT-4.5 imechukuliwa kwa mtu mmoja katika 73% ya kesi mara nyingi zaidi kuliko watu halisi. Llama-3.1 inatambulika kama moja ya 56% ya kesi. Katika mifano ya msingi, Eliza na GPT-4O, viashiria ni 23% na 21% mtawaliwa.
Aina za AI zinaonyesha matokeo bora ikiwa yamefundishwa mapema, jinsi ya kuiga mtu. Lakini hii haimaanishi kuwa hawawezi kupitisha mtihani bila maoni. Waandishi wanasisitiza kwamba hii ndio kesi ya kwanza ya kufaulu na akili bandia ya mtihani wa Kujaribu, ripoti ya ARXIV.
Mapema Mtandao wa mishipa ulirekodiwa kwanza katika chuo kikuu wakati alikuwa mwanafunzi. Uongozi wa Chuo Kikuu cha Sanaa kilichotumika huko Vienna umechukua hatua kama hiyo. Mfano unaoitwa Flynn umerekodiwa katika mpango wa sanaa ya dijiti. Alipitisha mchakato wa kawaida wa maombi. Viongozi wanaona kuwa hakuna kiwango kilichoandikwa, ambacho wanafunzi lazima wawe mtu mmoja.