...Alimlər süni intellektin hüdudlarını yoxlamaq üçün 2500 sualdan ibarət “Bəşəriyyətin ən yaxşı imtahanı”nı yaratdılar və hətta ən güclü modellər belə 50 faizdən çox düzgün nəticə göstərə bilmədilər.
SİA-nın əldə etdiyi məlumata görə, bu barədə New Voice yazır.
Köhnə testlər artıq əsl süni intellekt biliklərini ölçmür, buna görə də dünyanın hər yerindən təxminən 1000 mütəxəssis yeni, genişmiqyaslı bir imtahan hazırladı.
Bu imtahan riyaziyyat, humanitar elmlər, qədim dillər və yüksək ixtisaslaşmış mövzuları əhatə edir.
Hər bir sualın aydın, təsdiqlənə bilən cavabı var idi və internetdə axtarış etməklə tez bir zamanda həll edilə bilməzdi.
...Süni intellekt insan testlərində yaxşı nəticə göstərməyə başlayanda, insan səviyyəsində anlayışa yaxınlaşırmış kimi görünür.
Lakin bu imtahan bizə xatırladır ki, zəka yalnız nümunə tanımaqla deyil, həm də dərinlik, kontekst və ixtisaslaşmış biliklərlə bağlıdır, - deyə Texas A&M-də kompüter elmləri professoru Tunq Nquyen izah edib.
Testlər göstərdi ki, GPT-4o 2,7, Claude 3.5 Sonnet 4,1 və OpenAI o1 8 faiz bal toplayıb.
Gemini 3.1 Pro və Claude Opus 4.6 da daxil olmaqla ən güclü sistemlər 40-50 faiz düzgün nəticə göstərib.
İmtahanın məqsədi süni intellekti məğlub etmək deyil, sistemlərin hələ də geridə qaldığı yerləri müəyyən etmək və süni intellektin qiymətləndirilməsi üçün etibarlı uzunmüddətli bir meyar yaratmaqdır.
Nquyenin sözlərinə görə, köhnə testlərdə yüksək ballar əsl intellekti göstərmir, çünki onlar yalnız insanlar üçün nəzərdə tutulmuş xüsusi tapşırıqları yerinə yetirmək qabiliyyətini yoxlayır.
Layihə müasir süni intellektin real məhdudiyyətlərini ortaya qoyan bir test yaratmaq üçün müxtəlif sahələrdən olan mütəxəssisləri - tarixçiləri, fizikləri, dilçiləri, tibb tədqiqatçılarını və kompüter alimlərini bir araya gətirdi.
Əli Babayev