Magyarország is bekapcsolódik a digitális nyelvi forradalomba a Mesterséges Intelligencia Nemzeti Laboratórium fejlesztésével

A SZTAKI által koordinált Mesterséges Intelligencia Nemzeti Laboratórium (MILAB) projekt keretében a Szegedi Tudományegyetem kutatói elkészítették, és szabadon hozzáférhetővé tették a HuSpaCy magyar nyelvi elemzőrendszert, amely már az iparban is használható erőforrásigénnyel és integrálhatósággal dolgozik. A rendszer a mesterséges intelligencia és nyelvtechnológia legújabb kutatási eredményeit ötvözi egy magyar szövegeket elemezni képes könnyen használható eszközzé.

Magyarország is bekapcsolódik a digitális nyelvi forradalomba a Mesterséges Intelligencia Nemzeti Laboratórium fejlesztésével

A magyar nyelvű szövegek mesterséges intelligencia alapú elemző algoritmusai körülbelül 2010-ig lépést tartottak a nagy világnyelvek digitális fejlődésében, aztán lemaradtunk: az új módszerek a sokak által beszélt nyelveknek kedveztek. Az elmúlt évtized áttörést hozott a nyelvtechnológiában, nemcsak a kutatásokban, hanem abban is, hogy az akadémiai eredmények eljutottak arra a technológiai érettségi szintre, hogy azok már ipari forgalomban is használhatóak. Ma már olyan – akár kisebb – cégek is képesek szövegelemzési problémák megoldására, amelyek nem rendelkeznek MI-szakértelemmel.

A most elkészült HuSpaCy rendszer ezen a területen tud segíteni: használatával egyszerűbb a magyar nyelvű szövegek nyelvtani és jelentéstani értelmezése.

„A kifejezetten magyar nyelvű szöveges tartalmak, mondatok előfeldolgozási eszközkészletét készítettük el. Erre azért van szükség, mert minden alkalmazás, ami valamilyen szöveggel kapcsolatos problémát akar megoldani, csupán nyers karaktersorozatokból még nem tud működni. Természetes nyelvi szövegeken működő algoritmusok emberek is által értelmezhető nyelvtani szimbólumokra építenek, így a HuSpaCy megfelelő alapul szolgálhat csetbotokhoz vagy akár email értelmező rendszerekhez is” – magyarázza Farkas Richárd, a Szegedi Tudományegyetem kutatója.

MI forradalom a nyelvtechnológiában

Az elmúlt évtizedben forradalom zajlott a mesterséges intelligencia kutatásában: a gépi tanulásos megoldásokon belül előre tört az úgynevezett mélytanulás (deep learning) módszere, ahol mesterséges neurális hálók képesek megtanulni, hogy mit hogy kell értelmezniük.

A ma használatos természetes nyelveket feldolgozó rendszerek nagy része így működik, azaz nem nyelvészek írnak szabályokat, hanem az ún. tanuló algoritmusok képesek mélyebb összefüggések, predikciók elsajátítására. Ilyen ismertebb mélytanulásos módszer például a BERT vagy az OpenAI GPT-3 algoritmusa.

Az ilyen rendszerekkel viszont van egy probléma: alapvetően fekete dobozként viselkednek. Működésük alig megfigyelhető, tehát még ha jó eredményt is adnak, akkor sem tudjuk, hogyan jutottak erre a következtetésre. Ebből következik, hogy nem is jól kontrollálhatók, ezért ipari alkalmazásokban sokszor csak korlátozottan használhatóak. Gondoljunk bele, hogy egy ilyen rendszer dönt arról, kaphatunk-e hitelt vagy sem. Napjaink angol nyelvet támogató célalkalmazásaiban is gyakran csak a szövegek előelemzésére használnak gépi tanulás alapú megoldásokat, hogy aztán ezek alapján az emberi szakértő által írt szabályok hozzák meg a végső döntést. Így egy-egy döntés átláthatóvá válik (pl. könnyen értelmezhető egy gépi hitelbírálat eredménye is), és kérdéses esetben az emberi szakértő akár meg is tudja változtatni a rendszer viselkedését.

A magyar nyelvű szövegelemző szoftverek fejlesztése nem ma kezdődött. A magyar kutatói közösség már a kétezres években elkezdte építeni a szükséges nyelvi adatbázisokat. Ezeket az adatbázisokat használták a HuSpaCy fejlesztői is, mint tanító adatbázis.

A HuSpaCy rendszer generációváltás: ötvözi a mély tanulási módszerek előnyeit a nyelvészeti elemzések interpretálhatóságával és kontrollálhatóságával. A rendszer képes mondatok teljes nyelvi elemzésére (szótő, szófajok, stb.) illetve névelemek (például személynevek, helységek) azonosítására is folyó szövegben. A HuSpaCy napjaink MI-eszközeiből építkezik: tartalmaz neurális nyelvi modelleket, amelyeket a felhasználó akár szövegek hasonlóságának vizsgálatára is használhat, de a fent említett nyelvtani elemző lépések is mind modern algoritmusokra épülnek.

“A HuSpaCy a spaCy keretrendszerbe illeszkedik, ami az elmúlt években kvázi nemzetközi sztenderddé vált Ezt az eszközt használják mind akadémiai és ipari projektekben a világ számos nyelvén és pontján. Így, minden a keretrendszerbe illeszkedő nyelv gyakorlatilag bekapcsolódik a digitális nyelvi forradalomba” - mondja Orosz György, a HuSpaCy projekt vezetője.

A most létrehozott HuSpaCy rendszer alapja lehet hangalapú vagy írásos csetbotoknak is (ilyeneket a Mesterséges Intelligencia Nemzeti Laboratóriumban is fejlesztenek), de hasznos lehet szövegkategorizálásra (például ügyfélszolgálatra beérkező panaszok automatikus leválogatására), információ kinyerésre és szövegek automatikus generálására is.

A rendszer ide kattintva kipróbálható.

A MILAB-ban futó egyéb nyelvtechnológiai projektek:

-    Hangalapú időpont-egyeztető chatbot: Mi lenne ha amikor telefonon felhívjuk a fodrászunkat, egy szerelőt, orvosunkat vagy éppen a nagyon elfoglalt barátunkat, hogy egy időpontot egyeztessünk, akkor egy robottal beszélgetve tudnánk egy mindkettőnknek megfelelő időpontot egyeztetni? A Szegedi Tudományegyetem és a Budapesti Műszaki Egyetem együttműködésben elkészítettük egy ilyen, magyarul beszélő, hangalapú  időpont-egyeztető robot kipróbálható demó változatát.

-    Szövegek érzelmi töltetének azonosítása: nagy mennyiségű szöveges tartalom (például szociális média) automatikus elemzése abból a szempontból, hogy milyen érzelmi töltetet (düh, szomorúság, öröm stb) fejez ki a közlő igen hasznos lehet marketing vagy szociológiai vizsgálatok szempontjából. Az ELKH  Társadalomtudományi Kutatóközpontban elkészültek tanító adatbázisok és elemzők magyar nyelvű szöveges tartalmak érzelmi töltet elemzésére.

-    Szerző- és beszélő azonosítás: A Nemzetbiztonsági Szakszolgálat munkatársainak munkájának támogatására elkészült egy rendszer, ami két szöveg összehasonlító elemzését végzi el, a szerzők nyelvhasználati, stilisztikai, helyesírási stb  szempontokból, ami például névtelen fenyegető levelek esetén támogatja a kriminalisztikai szakértők munkáját. Folyamatban van beszédhang alapján történő beszélő-azonosító rendszer fejlesztése is, ami például névtelen fenyegető betelefonálásoknál segít megállapítani, hogy ugyanaz-e a beszélő.

-    Gépi olvasás szövegértés: az iskolai olvasás szövegértési feladatok során a diákok elolvasnak egy szöveget és ez alapján kell kérdéseket megválaszolniuk. Egy olyan magyar nyelvű  tanító és benchmark adatbázist építettünk, aminek a célja, hogy egy gép mennyire képes ilyen

Rossz hír a vidéki nyugdíjasoknak - a Budapestiek megúszták!

A vidéken élő nyugdíjasok egy része átlagosan mintegy 100 ezer forinttal kevesebb nyugdíjat kap, mint azok, akik Budapesten élnek.
2025. 08. 04. 02:00
Megosztás:

Megszavazták! Ingyenes készpénz felvétel bankautomatából így lehetséges a jövőben

Hogyan vehetsz fel havonta akár 150 000 forint készpénzt teljesen ingyen? Itt a részletes útmutató!
2025. 08. 04. 01:00
Megosztás:

Az Egyesült Államok meghosszabbíthatja az átmeneti kereskedelmi megállapodás Kínával

Az Egyesült Államok meghosszabbíthatja az átmeneti kereskedelmi megállapodás Kínával - közölte az Egyesült Államok kereskedelmi képviselője vasárnap.
2025. 08. 04. 00:05
Megosztás:

Egyre melegebb idő várható a jövő héten

A hét elején még több helyen lehet felhős az idő, később aztán napos és egyre melegebb időre számíthatunk - derül ki a HungaroMet Zrt. előrejelzéséből, amelyet vasárnap juttattak el az MTI-hez.
2025. 08. 03. 23:00
Megosztás:

A bankok csendes forradalma: 100 milliárd dollárt öntöttek a blokkláncba 2020 óta

Miközben a nyilvánosság figyelme gyakran a kriptopénzek árfolyamára és botrányaira összpontosul, a háttérben forradalmi átalakulás zajlik: a világ legnagyobb bankjai csendben építik be a blokkláncot saját pénzügyi infrastruktúrájukba. Egy friss Ripple-támogatású jelentés szerint a tradicionális pénzintézetek több mint 100 milliárd dollárt fektettek blokklánc technológiákba 2020 óta – és ez még csak a kezdet.
2025. 08. 03. 22:00
Megosztás:

Legjobb kriptotőzsde: a Binance és a Crypto.com összehasonlítása, vélemények

A kriptovaluták világa ma már nem csak a technológiai guruk vagy spekulánsok terepe – egyre több „hétköznapi” ember is érdeklődik a digitális eszközök iránt. A legelső kérdés, amivel a kezdők szembesülnek: „Hol érdemes vásárolni bitcoint vagy más kriptót?” Két népszerű és sokat használt platform a Binance és a Crypto.com. Most összehasonlítjuk őket, laikusoknak is érthetően.
2025. 08. 03. 21:00
Megosztás:

Nem volt telitalálat a hatos lottón ezekkel a számokkal

A Szerencsejáték Zrt. tájékoztatása szerint a 31. héten megtartott hatos lottó számsorsoláson a következő számokat húzták ki:
2025. 08. 03. 18:00
Megosztás:

Ha 5 évvel ezelőtt 1.000 dollárt fektettél volna Solanába, ma ennyi pénzed lenne

A mindössze alig több mint 5 éve indult Solana (SOL) mára a világ hatodik legnagyobb kriptovalutája, piaci értéke pedig 2025. július 30-án már 96 milliárd dollár felett járt.
2025. 08. 03. 17:00
Megosztás:

Újabb nagy erejű földrengés rázta meg a Kamcsatkai-félszigetet

Újabb nagy erejű földrengés rázta meg vasárnap a kelet-oroszországi Kamcsatkai-félszigetet. A 6,8 magnitúdójú földmozgást Petropavlovszki-Kamcsatszkijban is érezni lehetett – közölte a Telegram üzenetküldő alkalmazásban az orosz Egyesült Geofizikai Szolgálat (PAN) kamcsatkai részlege. A földrengés fészke Petropavlovszk-Kamcsatszkijtól 279 kilométerre, 25,9 kilométer mélyen volt.
2025. 08. 03. 16:00
Megosztás:

Többmilliós bírságra számíthat a szabálytalanul működő állateledel-forgalmazó

Többmilliós bírságra számíthat egy szabálytalanul működő állateledel-forgalmazó vállalkozó - tudatta a Nemzeti Adó- és Vámhivatal (NAV) közleményben az MTI-vel vasárnap.
2025. 08. 03. 15:00
Megosztás:

Császár Angela a Gondosóra kilencszázezredik felhasználója

A Gondosóra kilencszázezredik felhasználója Császár Angela színművész - jelentette be Lantos Csaba energiaügyi miniszter a Nyitrai Zsolt miniszterelnöki főtanácsadó Facebook-oldalán közzétett videóban vasárnap.
2025. 08. 03. 14:00
Megosztás:

Nagy István: a minőségi vidéki élethez járul hozzá a Magyar Falu Program

Nekünk a falu nem a múlt, hanem a jövő. Ezért 2019 óta mindent elkövetünk annak érdekében, hogy falvaink a baloldali kormányok vidékromboló tevékenysége után új erőre kapjanak. Ezért indítottuk el 2019-ben a Magyar Falu Programot is – közölte Nagy István agrárminiszter a közösségi oldalán vasárnap.
2025. 08. 03. 13:00
Megosztás:

Júliusban hároméves csúcsra futott a lakáspiaci kereslet, és a kínálat is bővült

Júliusban több mint 284 ezer telefonos érdeklődés érkezett eladó lakások és házak hirdetéseire, ami közel 30 százalékos növekedést jelent júniushoz képest és 6 százalékkal haladja meg az egy évvel korábbi szintet. Egyúttal 2022 óta ez a legmagasabb júliusi érték. A keresletélénkülés hátterében az Otthon Start Program keretében szeptembertől elérhető fix 3 százalékos lakáshitel-program bejelentése, az albérletszezon indulása, valamint az éledező kereslet miatti eladói aktivitás áll - derül ki az ingatlan.com júliusi keresleti és kínálati összesítőjéből.
2025. 08. 03. 12:00
Megosztás:

Mindenben meg kellett hajolnia az EU-nak az Egyesült Államok akarata előtt

Mindenben meg kellett hajolnia az Európai Uniónak az Egyesült Államok akarata előtt a vámmegállapodás megkötésekor - jelentette ki Pásztor Szabolcs, az Oeconomus Gazdaságkutató Alapítvány vezetője a Kossuth rádió Vasárnapi újság című műsorában.
2025. 08. 03. 11:00
Megosztás:

Kriptovaluta hírek: Solana - mi mozgatja most a SOL árfolyamát?

Az alábbi elemzés áttekintést ad arról, milyen főbb fundamentális, technológiai és szabályozási tényezők befolyásolták a Solana (SOL) árfolyamát az elmúlt 3 hónapban, összhangban a mellékelt grafikon mozgásaival.
2025. 08. 03. 10:00
Megosztás:

Hiába jár az évi egymillió: banki díj viheti el az állami lakhatási támogatás egy részét

A közszolgálati dolgozók számára bevezetett, évi egymillió forintos állami lakhatási támogatás valóban fedezheti a teljes éves törlesztőrészletet – különösen a korábban felvett hitelek esetén. Ugyanakkor nem mindegy, hogyan használják fel az összeget: Gergely Péter, a BiztosDöntés.hu pénzügyi szakértője szerint az előtörlesztéshez kapcsolódó banki díj a régebbi hiteleknél arányaiban nagyobb terhet jelent.
2025. 08. 03. 09:00
Megosztás:

Így hangolná össze a kormány a különböző lakástámogatásokat

Társadalmi egyeztetése bocsátották azt a jogszabálytervezetet, amelynek elsődleges célja az Otthon Start Program, a CSOK Plusz, a Falusi CSOK és a Babaváró hitel összehangolása annak érdekében, hogy az érdeklődők maximálisan ki tudják használni együttesen is az egyes támogatási formákat. Nem csak az ingatlanár felső határát változtatnák meg a CSOK Plusznál.
2025. 08. 03. 08:00
Megosztás:

A második negyedévben zsugorodott az európai abroncspiac

Az Európai Gumiabroncs- és Gumigyártók Szövetsége (ETRMA) közzétette tagjainak 2025 második negyedévére és első félévére vonatkozó csereabroncs-eladási adatait. Adam McCarthy, az ETRMA főtitkára ennek kapcsán elmondta: „A második negyedévi fejlemények jól tükrözik a kihívásokkal teli gazdasági és geopolitikai környezetet, amely továbbra is aláássa a piaci bizalmat és a beruházásokat. Egyedül a motorkerékpár/robogó szegmens erősödött.”
2025. 08. 03. 06:00
Megosztás:

Zuhant a turisták száma Las Vegasban – 11 százalékos visszaesést mértek júniusban

A turisták számának jelentékeny csökkenéséről számolt be Las Vegas turisztikai szervezete a nyár első időszakából.
2025. 08. 03. 05:00
Megosztás:

Kevesebb lakás épült, de több ezer budapesti új lakás épülhet 1,5 millió forintos négyzetméteráron

Az idei első félévében 5129 ezer új lakás épült Magyarországon, ami 15 százalékos csökkenést jelent az előző év azonos időszakához képest. A kiadott építési engedélyek és egyszerű bejelentések alapján közel 13 ezer új lakás építése kezdődhet meg a jövőben, ami 43 százalékos emelkedést jelent 2024 első félévéhez képest.
2025. 08. 03. 04:00
Megosztás: