Magyarország is bekapcsolódik a digitális nyelvi forradalomba a Mesterséges Intelligencia Nemzeti Laboratórium fejlesztésével

A SZTAKI által koordinált Mesterséges Intelligencia Nemzeti Laboratórium (MILAB) projekt keretében a Szegedi Tudományegyetem kutatói elkészítették, és szabadon hozzáférhetővé tették a HuSpaCy magyar nyelvi elemzőrendszert, amely már az iparban is használható erőforrásigénnyel és integrálhatósággal dolgozik. A rendszer a mesterséges intelligencia és nyelvtechnológia legújabb kutatási eredményeit ötvözi egy magyar szövegeket elemezni képes könnyen használható eszközzé.

Magyarország is bekapcsolódik a digitális nyelvi forradalomba a Mesterséges Intelligencia Nemzeti Laboratórium fejlesztésével

A magyar nyelvű szövegek mesterséges intelligencia alapú elemző algoritmusai körülbelül 2010-ig lépést tartottak a nagy világnyelvek digitális fejlődésében, aztán lemaradtunk: az új módszerek a sokak által beszélt nyelveknek kedveztek. Az elmúlt évtized áttörést hozott a nyelvtechnológiában, nemcsak a kutatásokban, hanem abban is, hogy az akadémiai eredmények eljutottak arra a technológiai érettségi szintre, hogy azok már ipari forgalomban is használhatóak. Ma már olyan – akár kisebb – cégek is képesek szövegelemzési problémák megoldására, amelyek nem rendelkeznek MI-szakértelemmel.

A most elkészült HuSpaCy rendszer ezen a területen tud segíteni: használatával egyszerűbb a magyar nyelvű szövegek nyelvtani és jelentéstani értelmezése.

„A kifejezetten magyar nyelvű szöveges tartalmak, mondatok előfeldolgozási eszközkészletét készítettük el. Erre azért van szükség, mert minden alkalmazás, ami valamilyen szöveggel kapcsolatos problémát akar megoldani, csupán nyers karaktersorozatokból még nem tud működni. Természetes nyelvi szövegeken működő algoritmusok emberek is által értelmezhető nyelvtani szimbólumokra építenek, így a HuSpaCy megfelelő alapul szolgálhat csetbotokhoz vagy akár email értelmező rendszerekhez is” – magyarázza Farkas Richárd, a Szegedi Tudományegyetem kutatója.

MI forradalom a nyelvtechnológiában

Az elmúlt évtizedben forradalom zajlott a mesterséges intelligencia kutatásában: a gépi tanulásos megoldásokon belül előre tört az úgynevezett mélytanulás (deep learning) módszere, ahol mesterséges neurális hálók képesek megtanulni, hogy mit hogy kell értelmezniük.

A ma használatos természetes nyelveket feldolgozó rendszerek nagy része így működik, azaz nem nyelvészek írnak szabályokat, hanem az ún. tanuló algoritmusok képesek mélyebb összefüggések, predikciók elsajátítására. Ilyen ismertebb mélytanulásos módszer például a BERT vagy az OpenAI GPT-3 algoritmusa.

Az ilyen rendszerekkel viszont van egy probléma: alapvetően fekete dobozként viselkednek. Működésük alig megfigyelhető, tehát még ha jó eredményt is adnak, akkor sem tudjuk, hogyan jutottak erre a következtetésre. Ebből következik, hogy nem is jól kontrollálhatók, ezért ipari alkalmazásokban sokszor csak korlátozottan használhatóak. Gondoljunk bele, hogy egy ilyen rendszer dönt arról, kaphatunk-e hitelt vagy sem. Napjaink angol nyelvet támogató célalkalmazásaiban is gyakran csak a szövegek előelemzésére használnak gépi tanulás alapú megoldásokat, hogy aztán ezek alapján az emberi szakértő által írt szabályok hozzák meg a végső döntést. Így egy-egy döntés átláthatóvá válik (pl. könnyen értelmezhető egy gépi hitelbírálat eredménye is), és kérdéses esetben az emberi szakértő akár meg is tudja változtatni a rendszer viselkedését.

A magyar nyelvű szövegelemző szoftverek fejlesztése nem ma kezdődött. A magyar kutatói közösség már a kétezres években elkezdte építeni a szükséges nyelvi adatbázisokat. Ezeket az adatbázisokat használták a HuSpaCy fejlesztői is, mint tanító adatbázis.

A HuSpaCy rendszer generációváltás: ötvözi a mély tanulási módszerek előnyeit a nyelvészeti elemzések interpretálhatóságával és kontrollálhatóságával. A rendszer képes mondatok teljes nyelvi elemzésére (szótő, szófajok, stb.) illetve névelemek (például személynevek, helységek) azonosítására is folyó szövegben. A HuSpaCy napjaink MI-eszközeiből építkezik: tartalmaz neurális nyelvi modelleket, amelyeket a felhasználó akár szövegek hasonlóságának vizsgálatára is használhat, de a fent említett nyelvtani elemző lépések is mind modern algoritmusokra épülnek.

“A HuSpaCy a spaCy keretrendszerbe illeszkedik, ami az elmúlt években kvázi nemzetközi sztenderddé vált Ezt az eszközt használják mind akadémiai és ipari projektekben a világ számos nyelvén és pontján. Így, minden a keretrendszerbe illeszkedő nyelv gyakorlatilag bekapcsolódik a digitális nyelvi forradalomba” - mondja Orosz György, a HuSpaCy projekt vezetője.

A most létrehozott HuSpaCy rendszer alapja lehet hangalapú vagy írásos csetbotoknak is (ilyeneket a Mesterséges Intelligencia Nemzeti Laboratóriumban is fejlesztenek), de hasznos lehet szövegkategorizálásra (például ügyfélszolgálatra beérkező panaszok automatikus leválogatására), információ kinyerésre és szövegek automatikus generálására is.

A rendszer ide kattintva kipróbálható.

A MILAB-ban futó egyéb nyelvtechnológiai projektek:

-    Hangalapú időpont-egyeztető chatbot: Mi lenne ha amikor telefonon felhívjuk a fodrászunkat, egy szerelőt, orvosunkat vagy éppen a nagyon elfoglalt barátunkat, hogy egy időpontot egyeztessünk, akkor egy robottal beszélgetve tudnánk egy mindkettőnknek megfelelő időpontot egyeztetni? A Szegedi Tudományegyetem és a Budapesti Műszaki Egyetem együttműködésben elkészítettük egy ilyen, magyarul beszélő, hangalapú  időpont-egyeztető robot kipróbálható demó változatát.

-    Szövegek érzelmi töltetének azonosítása: nagy mennyiségű szöveges tartalom (például szociális média) automatikus elemzése abból a szempontból, hogy milyen érzelmi töltetet (düh, szomorúság, öröm stb) fejez ki a közlő igen hasznos lehet marketing vagy szociológiai vizsgálatok szempontjából. Az ELKH  Társadalomtudományi Kutatóközpontban elkészültek tanító adatbázisok és elemzők magyar nyelvű szöveges tartalmak érzelmi töltet elemzésére.

-    Szerző- és beszélő azonosítás: A Nemzetbiztonsági Szakszolgálat munkatársainak munkájának támogatására elkészült egy rendszer, ami két szöveg összehasonlító elemzését végzi el, a szerzők nyelvhasználati, stilisztikai, helyesírási stb  szempontokból, ami például névtelen fenyegető levelek esetén támogatja a kriminalisztikai szakértők munkáját. Folyamatban van beszédhang alapján történő beszélő-azonosító rendszer fejlesztése is, ami például névtelen fenyegető betelefonálásoknál segít megállapítani, hogy ugyanaz-e a beszélő.

-    Gépi olvasás szövegértés: az iskolai olvasás szövegértési feladatok során a diákok elolvasnak egy szöveget és ez alapján kell kérdéseket megválaszolniuk. Egy olyan magyar nyelvű  tanító és benchmark adatbázist építettünk, aminek a célja, hogy egy gép mennyire képes ilyen

Utolsó két lovagi címét is megvonta testvérétől a brit uralkodó

Utolsó két lovagi címét is megvonta a brit uralkodó súlyos szexuális botrányokba keveredett öccsétől, Andrástól, akinek így egyetlen királyi titulusa sem maradt.
2025. 12. 02. 01:00
Megosztás:

Donald Trump szerint jó esély van a megállapodásra

Donald Trump szerint jó esély van a megállapodásra, az ukrajnai korrupciós botrány azonban gondot jelent a békefolyamatban. Az amerikai elnök erről vasárnap beszélt, miután lezárult az amerikai és ukrán delegáció közötti egyeztetés Floridában.
2025. 12. 02. 00:30
Megosztás:

Átadták az Üzleti etikai díjat

Huszonhatodik alkalommal átadták az Üzleti etikai díjakat, az elismerést ezúttal is tíz cég kapta meg, amelyekkel együtt már 167 cég tartozik az üzleti életben felelősen, tisztességesen működő, díjazott cégek sorába - tájékoztatták az MTI-t a díj alapítói hétfőn.
2025. 12. 02. 00:05
Megosztás:

Hogyan éljük túl a „7 éve legrosszabb novembert”: A Digitap ($TAP) forgatókönyve

A kriptovaluta piac 2019 óta a leggyengébb novemberét zárta. A Bitcoin közel 16,9%-ot esett ebben a hónapban, ezzel megközelítve a 2019 novemberi 17,3%-os veszteséget. Sokan azonban úgy vélik, ez előkészítheti a terepet egy erős 2026-os évkezdethez, ezért csendben elkezdték visszavásárolni pozícióikat.
2025. 12. 01. 23:00
Megosztás:

Erősödött a forint estére

Erősödött a forint a főbb devizákkal szemben hétfőn kora estére a bankközi devizapiacon reggelhez képest.
2025. 12. 01. 22:00
Megosztás:

Zcash irányítási vita: Vitalik Buterin a „token szavazás sötét keze” ellen emelte fel szavát

Egy rutinszerű újraválasztás körüli vita váratlanul felforrósította a hangulatot a Zcash közösségében – sőt, az ügy odáig fajult, hogy Vitalik Buterin is közbelépett. A kérdés: maradjon-e a bizottsági alapú irányítás, vagy álljon át a projekt a token alapú szavazásra? Az egyik oldal decentralizációt, a másik meggondolatlan döntéshozatalt lát. De mi forog valójában kockán?
2025. 12. 01. 21:30
Megosztás:

Rekordméretű aktivitás az XRP Ledgeren – új intézményi hullám jön?

November végén szokatlanul nagy tranzakciós hullám söpört végig az XRP Ledgeren, amely azonnal felkeltette a kriptoközösség figyelmét. Az AccountSet és AMM Bid típusú műveletek megugrása mögött nem mindennapi mozgások és lehetséges intézményi előkészületek húzódhatnak meg. Vajon új korszak kezdődik az XRP ökoszisztémában?
2025. 12. 01. 21:00
Megosztás:

A „96 óra őrület” fináléja: Miért ad el többet a Digitap ($TAP), mint bármely más kriptós előértékesítés ma?

Elérkeztek a Black Friday előértékesítési roham utolsó órái.
2025. 12. 01. 20:00
Megosztás:

Ezek a legjobb magyarországi munkahelyek

A Novartis Hungária Kft., a HungaroControl Zrt., valamint a Hydro Extrusion Hungary Kft. győzelmével ért véget az Év Gondoskodó Munkahelye 2025 díjért folytatott verseny, ahol a LIDL Magyarország és a BAT Pécsi Dohánygyár Kft. különdíjat érdemelt.
2025. 12. 01. 19:30
Megosztás:

Több mint félmilliárdból korszerűsítették a MATE két kaposvári épületét

Átadták a Magyar Agrár- és Élettudományi Egyetem (MATE) kaposvári kampuszának 517 millió forintból felújított épületeit hétfőn.
2025. 12. 01. 19:00
Megosztás:

Illegális kriptoszolgáltatást számoltak fel Németországban és Svájcban

A svájci és német bűnüldöző szervek felszámolták a Cryptomixer nevű, illegális kriptovaluta-keverő szolgáltatást, és mintegy 25 millió euró értékű bitcoint foglaltak le - közölte hétfőn az EU rendőri együttműködési ügynöksége, a hágai székhelyű Europol.
2025. 12. 01. 18:30
Megosztás:

A bolognai egyetem nemet mondott katonák képzésére

Giorgia Meloni miniszterelnök hétfőn közleményben ítélte el a bolognai tudományegyetem döntését, miszerint az oktatási intézmény nem engedélyezte, hogy kurzusain felsőoktatási tanulmányokat végző katonák is részt vegyenek.
2025. 12. 01. 18:00
Megosztás:

Új tulajdonosi struktúrával erősödik a MiND Klinika

A Mészáros Csoport érdekeltségébe tartozó Talentis Group Zrt. hétfőn sikeres megállapodást követően adásvételi szerződést írt alá, amelynek értelmében többségi tulajdonosa lett a MiND Klinika Zrt.-nek. A szerződő felek szoros üzleti és partneri együttműködésben folytatják tevékenységüket - közölte a társaság hétfőn az MTI-vel.
2025. 12. 01. 17:30
Megosztás:

Novemberben rekordot döntött a jelzáloghitel-piac

A magyarországi ingatlanpiacon novemberben jelentősen csökkent az aktivitás, a lakáscélú jelzáloghitelek szerződéses összege azonban rekordot döntött az Otthon Start Program által generált kereslet miatt - közölte tranzakciószám-becslése alapján a Duna House hétfőn az MTI-vel.
2025. 12. 01. 17:00
Megosztás:

Hosszú idő óta először jeleznek növekedést a brit gyáripar aktivitási mérőszámai

Több mint egy éve először jeleznek növekedést a brit feldolgozószektor aktivitási mérőszámai.
2025. 12. 01. 16:30
Megosztás:

SMS-csalók élnek vissza a Magyar Nemzeti Bank nevével

Csalók élnek vissza a jegybank nevével, SMS-üzenetekben sürgős adategyeztetési kötelezettségre szólítják fel az ügyfeleket, számlájuk felfüggesztésével fenyegetve őket - tájékoztatta a Magyar Nemzeti Bank (MNB) hétfőn az MTI-t. A közleményben felhívták a figyelmet, hogy a kereskedelmi bankok sohasem kérnek rövid szöveges üzenetekben bizalmas banki azonosítókat a fogyasztóktól.
2025. 12. 01. 16:00
Megosztás:

Ismét lakossági madárszámlálás indul a lakosság bevonásával

Immár harmadik alkalommal hívja az érdeklődőket az etetők madarainak számlálására a Magyar Madártani és Természetvédelmi Egyesület (MME).
2025. 12. 01. 15:30
Megosztás:

Hétfőtől újra lehet SZÉP-kártyával hideg élelmiszert vásárolni

A kormány a családok anyagi mozgásterének további bővítése és a rendelkezésre álló összegek hasznosítása érdekében a SZÉP-kártya felhasználási lehetőségeinek átmeneti bővítéséről döntött. Így a kártyabirtokosok 2025. december 1. és 2026. április 30. között a kártyáikon rendelkezésre álló összegeket hideg élelmiszer vásárlására is fordíthatják - hívta fel a figyelmet hétfői közleményében a Nemzetgazdasági Minisztérium (NGM).
2025. 12. 01. 15:00
Megosztás:

Novemberben emelkedett BMI

A beszerzésimenedzser-index (BMI) szezonálisan kiigazított novemberi értéke 53,4. A BMI index nőtt az októberi 51,2 pontos értékhez képest - jelentette hétfőn a Magyar Logisztikai, Beszerzési és Készletezési Társaság (MLBKT) .
2025. 12. 01. 14:30
Megosztás:

Növekedési pályán az ökológiai gazdálkodás, már stabilan 300 ezer hektár fölött az ökoterület nagysága

Tovább nőtt a hazai ökológiai gazdálkodásba bevont területek mérete, amely így stabilan meghaladja a 300 ezer hektárt. A Vetőmag Szövetség Szakmaközi Szervezet és Terméktanács Öko Vetőmag Munkacsoportja szerint a hazai Öko Cselekvési Terv (hivatalosan Nemzeti Cselekvési Terv az Ökológiai Gazdálkodás Fejlesztéséért 2022-2027) megfelelő ösztönző erőt képvisel ahhoz, hogy az évtized végére kétszeresére növekedjen az öko területek részaránya, amely magával húzná az öko vetőmagok iránti keresletet is.
2025. 12. 01. 14:00
Megosztás: