OpenAI süni intellektin real iqtisadiyyata təsirini qiymətləndirmək üçün GDPval adlı yeni göstəricini istifadəyə verib. Ənənəvi testlərdə, məsələn, MMLU-da modellər sadəcə qısa suallara cavab verirdisə, GDPval isə fərqli yanaşma təklif edir: burada süni intellektin pul qazandıran real işləri hansı səviyyədə görə bildiyi yoxlanılır.
Banker.az xəbər verir ki, yeni benchmark 1 320 tapşırıqdan ibarətdir. Onlar ABŞ ÜDM-nin 5 faizdən çoxunu formalaşdıran 9 sahəni və 44 peşəni əhatə edir. Hüquq, maliyyə, mühəndislik və səhiyyə kimi istiqamətlər də buraya daxildir. Tapşırıqların müəllifləri orta hesabla 14 illik təcrübəsi olan mütəxəssislərdir. Şərtlər isə real iş mühitinə maksimum yaxınlaşdırılıb: hüquqşünasdan hüquqi arayış yazmaq, mühəndisdən çertyoju düzəltmək, analitikdən isə cədvəl və ya təqdimat hazırlamaq tələb olunur.
Modellərin cavabları “kor” üsulla qiymətləndirilir. Yəni süni intellektin verdiyi həllər nümunə cavablarla birlikdə ekspertlər tərəfindən yoxlanılır. İlk nəticələr artıq açıqlanıb: Claude Opus 4.1 birinci, GPT-5 isə ikinci yeri tutub. Bu iki model peşəkar həllərə ən yaxın nəticə göstərib.
Mütəxəssislərin sözlərinə görə, GPT-5 dəqiqlikdə, Opus isə üslub və təqdimatda üstünlük nümayiş etdirir. OpenAI hesab edir ki, bəzi tapşırıqlarda süni intellekt insanı onlarla dəfə daha sürətli və daha ucuz əvəz edə bilir.
Gözlənilir ki, GDPval yaxın illərdə həm tərtibatçılar, həm də şirkətlər üçün əsas göstəricilərdən birinə çevriləcək. Bu test, hansı peşələrin və proseslərin ilk növbədə “ağıllı” modellərə həvalə olunacağını göstərməyə imkan verəcək.