Magyarország is bekapcsolódik a digitális nyelvi forradalomba a Mesterséges Intelligencia Nemzeti Laboratórium fejlesztésével

A SZTAKI által koordinált Mesterséges Intelligencia Nemzeti Laboratórium (MILAB) projekt keretében a Szegedi Tudományegyetem kutatói elkészítették, és szabadon hozzáférhetővé tették a HuSpaCy magyar nyelvi elemzőrendszert, amely már az iparban is használható erőforrásigénnyel és integrálhatósággal dolgozik. A rendszer a mesterséges intelligencia és nyelvtechnológia legújabb kutatási eredményeit ötvözi egy magyar szövegeket elemezni képes könnyen használható eszközzé.

Magyarország is bekapcsolódik a digitális nyelvi forradalomba a Mesterséges Intelligencia Nemzeti Laboratórium fejlesztésével

A magyar nyelvű szövegek mesterséges intelligencia alapú elemző algoritmusai körülbelül 2010-ig lépést tartottak a nagy világnyelvek digitális fejlődésében, aztán lemaradtunk: az új módszerek a sokak által beszélt nyelveknek kedveztek. Az elmúlt évtized áttörést hozott a nyelvtechnológiában, nemcsak a kutatásokban, hanem abban is, hogy az akadémiai eredmények eljutottak arra a technológiai érettségi szintre, hogy azok már ipari forgalomban is használhatóak. Ma már olyan – akár kisebb – cégek is képesek szövegelemzési problémák megoldására, amelyek nem rendelkeznek MI-szakértelemmel.

A most elkészült HuSpaCy rendszer ezen a területen tud segíteni: használatával egyszerűbb a magyar nyelvű szövegek nyelvtani és jelentéstani értelmezése.

„A kifejezetten magyar nyelvű szöveges tartalmak, mondatok előfeldolgozási eszközkészletét készítettük el. Erre azért van szükség, mert minden alkalmazás, ami valamilyen szöveggel kapcsolatos problémát akar megoldani, csupán nyers karaktersorozatokból még nem tud működni. Természetes nyelvi szövegeken működő algoritmusok emberek is által értelmezhető nyelvtani szimbólumokra építenek, így a HuSpaCy megfelelő alapul szolgálhat csetbotokhoz vagy akár email értelmező rendszerekhez is” – magyarázza Farkas Richárd, a Szegedi Tudományegyetem kutatója.

MI forradalom a nyelvtechnológiában

Az elmúlt évtizedben forradalom zajlott a mesterséges intelligencia kutatásában: a gépi tanulásos megoldásokon belül előre tört az úgynevezett mélytanulás (deep learning) módszere, ahol mesterséges neurális hálók képesek megtanulni, hogy mit hogy kell értelmezniük.

A ma használatos természetes nyelveket feldolgozó rendszerek nagy része így működik, azaz nem nyelvészek írnak szabályokat, hanem az ún. tanuló algoritmusok képesek mélyebb összefüggések, predikciók elsajátítására. Ilyen ismertebb mélytanulásos módszer például a BERT vagy az OpenAI GPT-3 algoritmusa.

Az ilyen rendszerekkel viszont van egy probléma: alapvetően fekete dobozként viselkednek. Működésük alig megfigyelhető, tehát még ha jó eredményt is adnak, akkor sem tudjuk, hogyan jutottak erre a következtetésre. Ebből következik, hogy nem is jól kontrollálhatók, ezért ipari alkalmazásokban sokszor csak korlátozottan használhatóak. Gondoljunk bele, hogy egy ilyen rendszer dönt arról, kaphatunk-e hitelt vagy sem. Napjaink angol nyelvet támogató célalkalmazásaiban is gyakran csak a szövegek előelemzésére használnak gépi tanulás alapú megoldásokat, hogy aztán ezek alapján az emberi szakértő által írt szabályok hozzák meg a végső döntést. Így egy-egy döntés átláthatóvá válik (pl. könnyen értelmezhető egy gépi hitelbírálat eredménye is), és kérdéses esetben az emberi szakértő akár meg is tudja változtatni a rendszer viselkedését.

A magyar nyelvű szövegelemző szoftverek fejlesztése nem ma kezdődött. A magyar kutatói közösség már a kétezres években elkezdte építeni a szükséges nyelvi adatbázisokat. Ezeket az adatbázisokat használták a HuSpaCy fejlesztői is, mint tanító adatbázis.

A HuSpaCy rendszer generációváltás: ötvözi a mély tanulási módszerek előnyeit a nyelvészeti elemzések interpretálhatóságával és kontrollálhatóságával. A rendszer képes mondatok teljes nyelvi elemzésére (szótő, szófajok, stb.) illetve névelemek (például személynevek, helységek) azonosítására is folyó szövegben. A HuSpaCy napjaink MI-eszközeiből építkezik: tartalmaz neurális nyelvi modelleket, amelyeket a felhasználó akár szövegek hasonlóságának vizsgálatára is használhat, de a fent említett nyelvtani elemző lépések is mind modern algoritmusokra épülnek.

“A HuSpaCy a spaCy keretrendszerbe illeszkedik, ami az elmúlt években kvázi nemzetközi sztenderddé vált Ezt az eszközt használják mind akadémiai és ipari projektekben a világ számos nyelvén és pontján. Így, minden a keretrendszerbe illeszkedő nyelv gyakorlatilag bekapcsolódik a digitális nyelvi forradalomba” - mondja Orosz György, a HuSpaCy projekt vezetője.

A most létrehozott HuSpaCy rendszer alapja lehet hangalapú vagy írásos csetbotoknak is (ilyeneket a Mesterséges Intelligencia Nemzeti Laboratóriumban is fejlesztenek), de hasznos lehet szövegkategorizálásra (például ügyfélszolgálatra beérkező panaszok automatikus leválogatására), információ kinyerésre és szövegek automatikus generálására is.

A rendszer ide kattintva kipróbálható.

A MILAB-ban futó egyéb nyelvtechnológiai projektek:

-    Hangalapú időpont-egyeztető chatbot: Mi lenne ha amikor telefonon felhívjuk a fodrászunkat, egy szerelőt, orvosunkat vagy éppen a nagyon elfoglalt barátunkat, hogy egy időpontot egyeztessünk, akkor egy robottal beszélgetve tudnánk egy mindkettőnknek megfelelő időpontot egyeztetni? A Szegedi Tudományegyetem és a Budapesti Műszaki Egyetem együttműködésben elkészítettük egy ilyen, magyarul beszélő, hangalapú  időpont-egyeztető robot kipróbálható demó változatát.

-    Szövegek érzelmi töltetének azonosítása: nagy mennyiségű szöveges tartalom (például szociális média) automatikus elemzése abból a szempontból, hogy milyen érzelmi töltetet (düh, szomorúság, öröm stb) fejez ki a közlő igen hasznos lehet marketing vagy szociológiai vizsgálatok szempontjából. Az ELKH  Társadalomtudományi Kutatóközpontban elkészültek tanító adatbázisok és elemzők magyar nyelvű szöveges tartalmak érzelmi töltet elemzésére.

-    Szerző- és beszélő azonosítás: A Nemzetbiztonsági Szakszolgálat munkatársainak munkájának támogatására elkészült egy rendszer, ami két szöveg összehasonlító elemzését végzi el, a szerzők nyelvhasználati, stilisztikai, helyesírási stb  szempontokból, ami például névtelen fenyegető levelek esetén támogatja a kriminalisztikai szakértők munkáját. Folyamatban van beszédhang alapján történő beszélő-azonosító rendszer fejlesztése is, ami például névtelen fenyegető betelefonálásoknál segít megállapítani, hogy ugyanaz-e a beszélő.

-    Gépi olvasás szövegértés: az iskolai olvasás szövegértési feladatok során a diákok elolvasnak egy szöveget és ez alapján kell kérdéseket megválaszolniuk. Egy olyan magyar nyelvű  tanító és benchmark adatbázist építettünk, aminek a célja, hogy egy gép mennyire képes ilyen

A horvát kormány nem szabályozza tovább az üzemanyagok árát

Horvátország kormánya úgy döntött, hogy a kőolajszármazékok legmagasabb kiskereskedelmi árának meghatározásáról szóló rendeletet a továbbiakban nem alkalmazza, amit a globális piaci trendek alapos elemzésének és nyomon követésének eredményével magyarázott.
2025. 07. 14. 22:30
Megosztás:

Fokozná a kiskorúak védelmét az online térben az EB

Az Európai Bizottság iránymutatásokat tett közzé hétfőn a kiskorúak védelmének fokozására az online térben, valamint bemutatott egy életkort ellenőrző alkalmazást annak biztosítására, hogy a gyermekek és a fiatalok továbbra is élvezhessék az online világ kínálta lehetőségeket, például a tanulást és a kommunikációt, miközben csökken a káros tartalmaknak és viselkedésnek való kitettségük kockázata.
2025. 07. 14. 21:30
Megosztás:

Az első fél évben nőtt az ingatlan adásvételek száma

Idén az év első hat hónapjában az ingatlan adásvételek száma országosan 63 390 volt, ami éves összevetésben 2,8 százalékos növekedés, emellett a hitelpiacon is folytatódott az élénkülés: a hitelezés volumene 23 százalékkal nőtt 2024 azonos időszakához képest - közölte a Duna House hétfőn az MTI-vel.
2025. 07. 14. 21:00
Megosztás:

MNB: jóval infláció felett nőtt a tőkepiaci szereplők, pénztárak, biztosítók forgalma 2024-ben

A magyarországi öngondoskodási, biztosítási és tőkepiaci szektor, valamint a közvetítők egyaránt kétszámjegyű, az inflációt jelentősen meghaladó forgalomnövekedést könyvelhettek el 2024-ben - közölte a Magyar Nemzeti Bank (MNB) az MTI-vel hétfőn.
2025. 07. 14. 20:00
Megosztás:

Giorgia Meloni a kereskedelmi háború veszélyeire figyelmeztetett

A kereskedelmi háború mindannyiunkat gyengébbé tenne a közös globális kihívásokkal szemben - figyelmeztetett Giorgia Meloni olasz kormányfő vasárnap este kiadott közleményében az amerikai elnök vámpolitikai bejelentésére reagálva.
2025. 07. 14. 18:30
Megosztás:

Feltörekvő innováció: öt figyelemre méltó biotech start-up Magyarországról

A hazai biotechnológiai szektor évek óta dinamikus átalakuláson megy keresztül. A nemzetközi versenypályára belépő start-upok már nem csupán kutatásban, hanem konkrét diagnosztikai és terápiás alkalmazásokban is nemzetközi színvonalú eredményeket mutatnak.
2025. 07. 14. 18:00
Megosztás:

18 milliárd forintos közvilágítás-korszerűsítési pályázat indul 5000 lakos alatti településeknek

Hétfőtől pályázhatnak az 5000 lakos alatti települések a helyi közvilágítás korszerűsítésére; a Magyar Falu Program keretében, a Jedlik Ányos Energetikai Program forrásaiból összesen 18 milliárd forint áll rendelkezésre - mondta az Energiaügyi Minisztérium (EM) energetikáért felelős államtitkára hétfői budapesti sajtótájékoztatóján.
2025. 07. 14. 17:30
Megosztás:

Indul a nyári szezonális ellenőrzés

Július 15-én, kedden elindul a nyári szezonális ellenőrzés, amelyet az élelmiszerlánc-felügyeletet irányító Tállai András, az Agrárminisztérium (AM) parlamenti államtitkára rendelt el - jelentette be hétfői közleményében a minisztérium.
2025. 07. 14. 17:00
Megosztás:

Folytatódhat a fellendülés a budapesti szállodapiacon

Minden előzetes elemzői várakozást felülmúlt a kelet-közép-európai és ezen belül a budapesti szállodapiac teljesítménye 2024-ben. A szektor növekedése idén is folytatódhat, a nemzetközi vendégéjszakák száma az év végére az eddigi rekordév, 2019 szintjét is meghaladhatja - tájékoztatta a CBRE az MTI-t hétfőn.
2025. 07. 14. 16:30
Megosztás:

Ide 30, oda 27

Szóval nem 20, nem 50, hanem most inkább 30 százalékos általános vámot vetne ki Trump az EU-ra augusztus 1-től (na meg Mexikóra is).
2025. 07. 14. 16:00
Megosztás:

Feltörekvő innováció: öt figyelemre méltó biotech start-up Magyarországról

A hazai biotechnológiai szektor évek óta dinamikus átalakuláson megy keresztül. A nemzetközi versenypályára belépő start-upok már nem csupán kutatásban, hanem konkrét diagnosztikai és terápiás alkalmazásokban is nemzetközi színvonalú eredményeket mutatnak.
2025. 07. 14. 15:30
Megosztás:

Több hibát is találtak a rumok ellenőrzésekor

Rumokat vizsgált a Nemzeti Élelmiszerlánc-biztonsági Hivatal (Nébih), egy terméknél jelölési hibát találtak, egynél pedig élelmiszerminőségi probléma miatt intézkedtek a szakemberek; a hivatal mindkét forgalmazóval szemben eljárást indított és csaknem 700 ezer forint bírságot szabott ki - közölte a Nébih a honlapján hétfőn.
2025. 07. 14. 15:00
Megosztás:

Erőteljesen csökkent a BASF negyedéves nyeresége

A vártnál jelentősebben csökkent a Magyarországon is jelen lévő BASF német vegyipari vállalat nyeresége az idei második negyedévben, miközben rontotta idei eredményelőrejelzését - áll a cég honlapján.
2025. 07. 14. 14:30
Megosztás:

Nőtt az ingatlanadásvételek és a hitelezés volumene 2025 első félévében

A Duna House legfrissebb ingatlanpiaci adatai alapján a hazai lakáspiac a nyári hónapok kezdetén is stabil aktivitást mutatott: 2025 júniusában országosan 9 908 lakóingatlan cserélt tulajdonost, ami 6,3%-kal haladja meg a tavalyi év azonos időszakának értékét.
2025. 07. 14. 14:00
Megosztás:

Ismét féltheti állását a Fed-elnök

Jerome Powell Fed-elnök ismét Trump célkeresztjébe került.
2025. 07. 14. 13:30
Megosztás:

Mennyibe kerül a kötelező biztosítás az e-rollerekre?

Idén átlagosan 6500 forintos éves átlagdíj mellett, alapvetően két biztosító termékei közül választanak az elektromos rollerek tulajdonosai – derül ki az Insura.hu biztosításközvetítő portál mikromobilitási eszközökre fejlesztett kalkulátorának adataiból. Az ellenőrzés nehézségei miatt piaci becslések szerint országos szinten csupán az érintett járművek harmada rendelkezik az előírt biztosítással.
2025. 07. 14. 13:00
Megosztás:

3 stresszmentes kriptobefektetési stratégia, amivel nyugodtan alhatsz éjszaka

A kriptovaluta-befektetés nem a gyenge idegzetűek sportja. Egy Bitcoin 2021. november 10-én 67 000 dollárba került, és 2022-ben 16 000-ig zuhant, mielőtt 2025 júliusára elérte a 109 000 dolláros szintet. Aki ezt az utat végigjárta, 62%-os hozamnak örülhet – ha közben nem dobta el a portfólióját ijedtében. Ha te is belevágnál a digitális eszközök világába, de nem akarsz minden árfolyam-ingadozás miatt álmatlanul forgolódni, ez a három stratégia neked szól.
2025. 07. 14. 12:30
Megosztás:

A Stellar (XLM) váratlan áttörése: Lehagyta az XRP-t, és újra reflektorfénybe került

A kriptoközösséget meglepő fordulat rázta meg a napokban: a Stellar (XLM) nemcsak hogy lehagyta az XRP-t árfolyamteljesítményben, de ezzel megszakított egy hónapok óta tartó szoros árfolyamkorrelációt a két token között. A mozgás nem véletlenszerű, hanem technikai és piaci háttérrel alátámasztott rally, amely újraélesztette az érdeklődést a Stellar iránt – és ezzel új fejezet nyílhat az XLM kontra XRP versenyben.
2025. 07. 14. 12:00
Megosztás:

Emelkedtek a hosszú hozamok a fejlett gazdaságok kötvénypiacain pénteken

Az amerikai 10 éves hozama 4 bp-tal 4,39% körüli szintre emelkedett pénteken, Donald Trump elnök utóbbi napokban bejelentett vámfenyegetései tovább fokozták a piaci feszültséget.
2025. 07. 14. 11:30
Megosztás:

A jövő a tokenizált betéteké, nem a stabilcoinoké a Bank of England szerint

A Bank of England kormányzója, Andrew Bailey határozott üzenetet küldött a brit bankszektornak: ne a privát stabilcoinokkal, hanem a tokenizált bankbetétekkel foglalkozzanak. Az üzenet nemcsak iránymutatás, hanem egy új szabályozási korszak nyitánya is lehet – amely gyökeresen átalakíthatja a pénzügyi rendszer digitális jövőképét az Egyesült Királyságban.
2025. 07. 14. 10:30
Megosztás: