A hazánkban 2001 óta jelenlévő országos kompetenciamérés elsődleges célja a 6-, 8-, 10. osztályos diákok logika készségeinek mérése. Ennek eredményeit a későbbiekben összevetik az iskolák, illetve a különböző régiók között is. Mi történik azonban, ha az iskolapadban nem egy gyerek, hanem a mesterséges intelligencia „ül”?
Erre a kérdésre adott választ a PeakX csoport kutatása, amely azt vizsgálta, hogyan is teljesítenek a népszerű AI modellek a diákok által megírt teszteken. Az AI modell teszteléshez a vállalat emberei 70 szövegértési és 70 matematikai feladatot használtak, kiegészítve történelem, természettudomány és digitális kultúra kérdésekkel, amelyeket később egy objektív pontozási rendszerrel értékelték.
Az AI kompetenciáját 4 rendszer (benchmark) alapján vizsgáltuk, vagyis az MMLU – amely 57 különböző tudományterületet ölel fel, köztük a matematikát, filozófiát, jogot és orvostudományokat – HumanEval, illetve a GPQA, és a MATH segítségével
– mondta el Sajtos István, a Peak Innovations Innovációs igazgatója.
A tesztek 3 szempontot vettek figyelembe: a feladatmegoldások gyorsaságát, az erőforrásigényt és költségeket, illetve a pontosságot.
Hogyan is teljesít a diák (AI) az iskolapadban?
A PeakX csapata az alábbi összeállítást készítette az AI modellekről és a teljesítményükről:
- OpenAI o1 - Kiemelkedő általános tudással rendelkezik, erős szövegértési és matematikai képességekkel, viszont lassú és drága.
- Anthropic Sonnet 3.7 - Kiváló szövegértési teljesítményt mutatott, gyors és költséghatékony, azonban komplex matematikai feladatokban gyengébb.
- xAI Grok2 - Rendkívül gyors és olcsó, de a matematikai feladatok terén kifejezetten rosszul teljesített.
- Gemini 2.0 „Flash” - Kiemelkedő szövegértési képességekkel bír, de az összetettebb következtetési feladatokban alulmaradt.
- Mistral Large - Relatív olcsó, de általános tudása korlátozottabb.
- Deepseek - Olcsó és gyors, kiemelkedő következtetési képességekkel, de nem képes vizuális elemzésre, és hajlamos fura hibákat véteni.
Sajtos István a sajtótájékoztatót összegezve elmondta, bár az érvelő modellek lassabbak és drágábbak, minden kategóriában jobb teljesítményt tudtak nyújtani AI társaiknál. Az eredmények alapján le lehet vonni a következtetést, miszerint a nagy nyelvi modellek a problémamegoldó és analitikus készségeket igénylő területeken még nem képesek helyettesíteni az emberi tudást. Ez a lemaradás főként a komplex matematikai készségeket igénylő feladatokban mutatkozik meg.

A legtöbb AI modellnek megvannak a maga korlátai, hiszen nem tudnak determinisztikus válaszokat adni, vagyis az egymás után feltett két ugyanolyan kérdésre adott válaszuk gyakran különbözik. Egy másik nagy akadály még, hogy egyes típusok (például a DeepSeek) nehezen fejti meg a vizuális elemeket, amely azonban a magyar kompetenciamérés szerves részét képezi.
Az Innovációs igazgató elmondta, komoly hátránynak számít még, hogy a különböző modelleknek meggyűlik a baja a magyar nyelv megértésével, így emiatt is előfordulhatnak hibák. A kapott eredmények mindenesetre remek ugródeszkát jelentenek jövőbeli AI fejlesztésekhez. Az viszont már most elmondható, hogy a mesterséges intelligencia kiváló lehetőség a tudás bővítésére, illetve gyors megszerzésére, de fontos kiemelni, hogy az emberi tudást nem képes helyettesíteni.
500 millió évet előre sietett a mesterséges intelligencia
Egy a fehérjék szintetizálására képes MI-modell fejlesztettek ki az EvolutionaryScale és az Arc Institute biológusai. A mesterséges intelligencia ehhez hasonló új generációs alkalmazása lehetővé teszi, hogy programozhatóvá tegyék a biológiai rendszereket.Bővebben>>>
Kövesse az Economx.hu-t!
Értesüljön időben a legfontosabb gazdasági és pénzügyi hírekről! Kövessen minket Facebookon, Instagramon vagy iratkozzon fel Google News és YouTube-csatornánkra!
Gazdasági hírek azonnal,
egy érintéssel
Töltse le az Economx app-ot, hogy mindig időben értesülhessen a gazdasági és pénzügyi világ eseményeiről!
Kérjen értesítést a legfontosabb hírekről!
Legolvasottabb

Indul az összeírás, bármikor kopogtathatnak

A kormány 300 ezer tartalékosa 24 órát nem bírna a munkahelyén

Váratlan fordulat, nem lövik ki a magyar űrhajóst

Hamarosan nem postáz több számlát az MVM

Elromlik az idő hétvégére, és nem is kicsit

Nagyon durván benéztük ezt a repülőrajtot

A műholdképek már a neten, elmarad a kormányinfó – Orbán Viktor ma lép az ügyben

Így égett el 100 milliárd forint az MNB-alapítvány luxuskalandjai során

Hiába a küzdelem: elúszott a pulykapénz és a nyugdíjasok juttatása is a patinás magyar vállalatnál
