...Microsoft Research və Salesforce tərəfindən aparılan yeni birgə tədqiqat göstərir ki, məşhur süni intellekt çatbotları insanlarla uzunmüddətli qarşılıqlı əlaqədən sonra daha axmaqlaşır.
Ümumi səhv nisbəti 200.000-dən çox söhbəti təhlil edərkən 100 faizdən çox arta bilər.
SİA-nın məlumatına görə, son illərdə aparıcı İT tərtibatçıları bazar liderliyini təmin etməyə çalışaraq qabaqcıl genişmiqyaslı dil modellərinin bütöv bir xəttini təqdim ediblər.
...Bununla belə, istifadəçilər müntəzəm olaraq “hallüsinasiyalar” və səhv cavablardan şikayətlənirlər.
Yeni bir elmi araşdırma təsdiqləyir ki, hətta ən ağıllı neyron şəbəkələri belə, tapşırıq bir neçə sətirdən ibarət təbii dialoqa bölündükdə tez-tez söhbətdə “itilir”.
Təcrübədə mütəxəssislər GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet və DeepSeek R1 daxil olmaqla flaqman LLM-ləri əhatə edən 200.000-dən çox söhbəti təhlil ediblər.
Bu cür modellər tək sorğular üçün təxminən 90 faiz uğurlu cavab nisbətləri nümayiş etdirsə də, aydınlaşdırmalar və əlavə suallarla daha uzun söhbətlərdə bu nisbət 65 faizə düşür.
Başqa sözlə, kontekst daha mürəkkəbləşdikcə performans əhəmiyyətli dərəcədə azalır.
Tədqiqatçılar başqa bir maraqlı fenomen kəşf ediblər: "cavab inflyasiyası".
Çoxmərhələli dialoqlarda modellərin cavabları 20-300 faiz artdı. Uzunluqla yanaşı, söhbət kontekstində gücləndirilən və sonrakı cavablar üçün əsas kimi istifadə edilən fərziyyələrin və halüsinasiyaların sayı da artıb.
OpenAI o3 və DeepSeek R1 kimi genişləndirilmiş "düşüncə nişanları" olan modellər belə bu təsirdən tamamilə qaça bilmədilər.
Müəlliflər vurğulayırlar ki, daha uzun söhbətlərdə performansın kəskin azalması modellərin sözün əsl mənasında "daha axmaq" olması demək deyil; əksinə, bu, dialoq zamanı böyük həcmdə məlumatı saxlamaq və düzgün şərh etməkdə onların məhdudiyyətlərini göstərir.
Buna baxmayaraq, süni intellekt fərdi sorğulara cavab verərkən hələ də təsirli imkanlar nümayiş etdirir.
Windows Central-ın qeyd etdiyi kimi, uzunmüddətli istifadəçi qarşılıqlı əlaqəsi üçün hazırlanmış məhsullarda çatbotlardan istifadə edərkən bu xüsusiyyətlər nəzərə alınmalıdır.
Potensial səhvlər və halüsinasiyalar istifadəçiləri çaşdıra bilər, xüsusən də istifadəçi dəqiq və kritik məlumat üçün süni intellektdən istifadə edirsə.
Bu gün ChatGPT qlobal çatbot bazarının 80 faizdən çoxunu təşkil edir. Onun ən yaxın rəqibləri Perplexity və Google Gemini-dir ki, onlar birlikdə bütün istifadəçilərin 15 faizini təşkil edirlər.
Əli Babayev