Magyarország is bekapcsolódik a digitális nyelvi forradalomba a Mesterséges Intelligencia Nemzeti Laboratórium fejlesztésével

A SZTAKI által koordinált Mesterséges Intelligencia Nemzeti Laboratórium (MILAB) projekt keretében a Szegedi Tudományegyetem kutatói elkészítették, és szabadon hozzáférhetővé tették a HuSpaCy magyar nyelvi elemzőrendszert, amely már az iparban is használható erőforrásigénnyel és integrálhatósággal dolgozik. A rendszer a mesterséges intelligencia és nyelvtechnológia legújabb kutatási eredményeit ötvözi egy magyar szövegeket elemezni képes könnyen használható eszközzé.

Magyarország is bekapcsolódik a digitális nyelvi forradalomba a Mesterséges Intelligencia Nemzeti Laboratórium fejlesztésével

A magyar nyelvű szövegek mesterséges intelligencia alapú elemző algoritmusai körülbelül 2010-ig lépést tartottak a nagy világnyelvek digitális fejlődésében, aztán lemaradtunk: az új módszerek a sokak által beszélt nyelveknek kedveztek. Az elmúlt évtized áttörést hozott a nyelvtechnológiában, nemcsak a kutatásokban, hanem abban is, hogy az akadémiai eredmények eljutottak arra a technológiai érettségi szintre, hogy azok már ipari forgalomban is használhatóak. Ma már olyan – akár kisebb – cégek is képesek szövegelemzési problémák megoldására, amelyek nem rendelkeznek MI-szakértelemmel.

A most elkészült HuSpaCy rendszer ezen a területen tud segíteni: használatával egyszerűbb a magyar nyelvű szövegek nyelvtani és jelentéstani értelmezése.

„A kifejezetten magyar nyelvű szöveges tartalmak, mondatok előfeldolgozási eszközkészletét készítettük el. Erre azért van szükség, mert minden alkalmazás, ami valamilyen szöveggel kapcsolatos problémát akar megoldani, csupán nyers karaktersorozatokból még nem tud működni. Természetes nyelvi szövegeken működő algoritmusok emberek is által értelmezhető nyelvtani szimbólumokra építenek, így a HuSpaCy megfelelő alapul szolgálhat csetbotokhoz vagy akár email értelmező rendszerekhez is” – magyarázza Farkas Richárd, a Szegedi Tudományegyetem kutatója.

MI forradalom a nyelvtechnológiában

Az elmúlt évtizedben forradalom zajlott a mesterséges intelligencia kutatásában: a gépi tanulásos megoldásokon belül előre tört az úgynevezett mélytanulás (deep learning) módszere, ahol mesterséges neurális hálók képesek megtanulni, hogy mit hogy kell értelmezniük.

A ma használatos természetes nyelveket feldolgozó rendszerek nagy része így működik, azaz nem nyelvészek írnak szabályokat, hanem az ún. tanuló algoritmusok képesek mélyebb összefüggések, predikciók elsajátítására. Ilyen ismertebb mélytanulásos módszer például a BERT vagy az OpenAI GPT-3 algoritmusa.

Az ilyen rendszerekkel viszont van egy probléma: alapvetően fekete dobozként viselkednek. Működésük alig megfigyelhető, tehát még ha jó eredményt is adnak, akkor sem tudjuk, hogyan jutottak erre a következtetésre. Ebből következik, hogy nem is jól kontrollálhatók, ezért ipari alkalmazásokban sokszor csak korlátozottan használhatóak. Gondoljunk bele, hogy egy ilyen rendszer dönt arról, kaphatunk-e hitelt vagy sem. Napjaink angol nyelvet támogató célalkalmazásaiban is gyakran csak a szövegek előelemzésére használnak gépi tanulás alapú megoldásokat, hogy aztán ezek alapján az emberi szakértő által írt szabályok hozzák meg a végső döntést. Így egy-egy döntés átláthatóvá válik (pl. könnyen értelmezhető egy gépi hitelbírálat eredménye is), és kérdéses esetben az emberi szakértő akár meg is tudja változtatni a rendszer viselkedését.

A magyar nyelvű szövegelemző szoftverek fejlesztése nem ma kezdődött. A magyar kutatói közösség már a kétezres években elkezdte építeni a szükséges nyelvi adatbázisokat. Ezeket az adatbázisokat használták a HuSpaCy fejlesztői is, mint tanító adatbázis.

A HuSpaCy rendszer generációváltás: ötvözi a mély tanulási módszerek előnyeit a nyelvészeti elemzések interpretálhatóságával és kontrollálhatóságával. A rendszer képes mondatok teljes nyelvi elemzésére (szótő, szófajok, stb.) illetve névelemek (például személynevek, helységek) azonosítására is folyó szövegben. A HuSpaCy napjaink MI-eszközeiből építkezik: tartalmaz neurális nyelvi modelleket, amelyeket a felhasználó akár szövegek hasonlóságának vizsgálatára is használhat, de a fent említett nyelvtani elemző lépések is mind modern algoritmusokra épülnek.

“A HuSpaCy a spaCy keretrendszerbe illeszkedik, ami az elmúlt években kvázi nemzetközi sztenderddé vált Ezt az eszközt használják mind akadémiai és ipari projektekben a világ számos nyelvén és pontján. Így, minden a keretrendszerbe illeszkedő nyelv gyakorlatilag bekapcsolódik a digitális nyelvi forradalomba” - mondja Orosz György, a HuSpaCy projekt vezetője.

A most létrehozott HuSpaCy rendszer alapja lehet hangalapú vagy írásos csetbotoknak is (ilyeneket a Mesterséges Intelligencia Nemzeti Laboratóriumban is fejlesztenek), de hasznos lehet szövegkategorizálásra (például ügyfélszolgálatra beérkező panaszok automatikus leválogatására), információ kinyerésre és szövegek automatikus generálására is.

A rendszer ide kattintva kipróbálható.

A MILAB-ban futó egyéb nyelvtechnológiai projektek:

-    Hangalapú időpont-egyeztető chatbot: Mi lenne ha amikor telefonon felhívjuk a fodrászunkat, egy szerelőt, orvosunkat vagy éppen a nagyon elfoglalt barátunkat, hogy egy időpontot egyeztessünk, akkor egy robottal beszélgetve tudnánk egy mindkettőnknek megfelelő időpontot egyeztetni? A Szegedi Tudományegyetem és a Budapesti Műszaki Egyetem együttműködésben elkészítettük egy ilyen, magyarul beszélő, hangalapú  időpont-egyeztető robot kipróbálható demó változatát.

-    Szövegek érzelmi töltetének azonosítása: nagy mennyiségű szöveges tartalom (például szociális média) automatikus elemzése abból a szempontból, hogy milyen érzelmi töltetet (düh, szomorúság, öröm stb) fejez ki a közlő igen hasznos lehet marketing vagy szociológiai vizsgálatok szempontjából. Az ELKH  Társadalomtudományi Kutatóközpontban elkészültek tanító adatbázisok és elemzők magyar nyelvű szöveges tartalmak érzelmi töltet elemzésére.

-    Szerző- és beszélő azonosítás: A Nemzetbiztonsági Szakszolgálat munkatársainak munkájának támogatására elkészült egy rendszer, ami két szöveg összehasonlító elemzését végzi el, a szerzők nyelvhasználati, stilisztikai, helyesírási stb  szempontokból, ami például névtelen fenyegető levelek esetén támogatja a kriminalisztikai szakértők munkáját. Folyamatban van beszédhang alapján történő beszélő-azonosító rendszer fejlesztése is, ami például névtelen fenyegető betelefonálásoknál segít megállapítani, hogy ugyanaz-e a beszélő.

-    Gépi olvasás szövegértés: az iskolai olvasás szövegértési feladatok során a diákok elolvasnak egy szöveget és ez alapján kell kérdéseket megválaszolniuk. Egy olyan magyar nyelvű  tanító és benchmark adatbázist építettünk, aminek a célja, hogy egy gép mennyire képes ilyen

Kínában felpörgött a gazdaság

Kínában gyorsult a gazdasági aktivitás növekedése májusban az ország statisztikai hivatalának hétvégén ismertetett adatai szerint.
2025. 06. 02. 12:30
Megosztás:

EURÓ / Forint árfolyam: nem változtatott a Moody’s, pénteken jön a Fitch

A hazai devizapiacon érdemi elmozdulás nélkül zajlott le a pénteki nap, 403-404 között lavírozott a forint az euró ellenében.
2025. 06. 02. 12:00
Megosztás:

Vegyesen zárták a pénteki kereskedést a vezető Wall Street-i indexek

Csökkenéssel indult a kereskedés pénteken az amerikai részvénypiacokon azt követően, hogy Donald Trump a vámmegállapodás megszegésével vádolta Kínát.
2025. 06. 02. 11:30
Megosztás:

2025-ben a Bitcoin az új gazdasági korszak sarokkövévé válik. A Winnermining segít Önnek elérni a jövőt!

Miután új, 112 000 dolláros történelmi csúcsot ért el, a Bitcoin jelenleg enyhén konszolidálódik ez alatt a szint alatt, és továbbra is erősen tartja magát a 106 000 dolláros kulcstámasz fölött. A rövid távú ellenállás ellenére az általános szerkezet továbbra is bikás marad, és az elemzők erőteljes emelkedést várnak, amint a BTC magasabb szinten ismét stabilizálódik.
2025. 06. 02. 11:00
Megosztás:

Az XRP újra reflektorfényben: erőt mutat az árfolyam a piaci esésben, és a szabályozás is kedvezhet neki

Miközben a kriptopiacok többsége lefelé araszol, az XRP váratlanul stabilan tartja magát – és ehhez most nemcsak a technikai, hanem a jogi háttér is kezd kedvezni. Egy friss amerikai törvényjavaslat komoly lendületet adhat az évek óta húzódó XRP–SEC ügynek, és sokak szerint ez a digitális eszköz most ismét a nagy visszatérés küszöbén állhat.
2025. 06. 02. 10:30
Megosztás:

Enyhén csökkentek a főbb európai indexek tegnap

Mérsékelt emelkedéssel zárt pénteken az európai részvénypiacok többsége, a Stoxx600 Europe 0,1%-os emelkedést könyvelhetett el, miközben a DAX 0,3, a FTSE100 0,6%-kal került feljebb, ellenben a francia CAC40 0,4%-ot gyengült.
2025. 06. 02. 10:00
Megosztás:

A Bitcoin árfolyam megállt 105 ezernél, miközben a piac túlhevülés jeleit mutatja

A Bitcoin árfolyama újra rekordközeli magasságba emelkedett, de egyes elemzők szerint a piac már túlságosan felforrósodott. Eközben egy híres trader teljesen lenullázta magát, míg egy brazil fintech cég minden tartalékát BTC-be forgatná – nem túl nagy sikerrel. És New York? Ott a polgármester BitBonddal kísérletezne, de a város pénzügyi főellenőre leállította a tervet. Friss kriptovaluta hírek a ProfitLine-on.
2025. 06. 02. 09:00
Megosztás:

Erősödött a forint hétfő reggelre

Erősödött a forint árfolyama hétfő reggel a főbb devizákkal szemben a péntek esti jegyzéséhez képest a nemzetközi devizakereskedelemben.
2025. 06. 02. 08:30
Megosztás:

Hétfő éjfél a céges bevallások határideje

Hétfő éjfélig kell bevallani a társasági adót (tao), a kisvállalati adót (kiva), az élelmiszerlánc-felügyeleti díjat, valamint a helyi iparűzési adót (hipa) is. Érdemes határidőben benyújtani a bevallásokat, mert a mulasztás akár egymillió forintos bírságot is maga után vonhat - figyelmeztetett hétfőn a Nemzeti Adó- és Vámhivatal (NAV).
2025. 06. 02. 08:00
Megosztás:

Elon Musk lerántotta a leplet az XChat-ről – Bitcoin-szintű titkosítással forradalmasítaná az üzenetküldést

Elon Musk újabb dobása komoly hullámokat vetett a kriptoközösségekben: bemutatta az X új, titkosított üzenetküldő szolgáltatását, az XChat-et. Az új rendszer nemcsak az adatvédelmet helyezi előtérbe, hanem technológiai hátterében is a Bitcoin világa köszön vissza. De mit jelent mindez a decentralizáció, a pénzügyi biztonság és a magánélet védelme szempontjából?
2025. 06. 02. 07:50
Megosztás:

Scott Bessent: küszöbön áll az amerikai és a kínai elnök egyeztetése a két ország jövőbeli viszonyáról

Küszöbön áll az amerikai és a kínai elnök egyeztetése, ami elsősorban a kereskedelmi kapcsolatokat érinti majd - közölte Scott Bessent amerikai pénzügyminiszter vasárnap.
2025. 06. 02. 07:00
Megosztás:

Kinek ajánlott a síkágyas scanner?

A digitalizáció korában egyre nagyobb az igény arra, hogy a papíralapú dokumentumokat gyorsan, egyszerűen és megbízhatóan, elektronikus formában is elérhetővé tegyük. Legyen szó szerződésekről, fényképekről, személyes iratokról vagy céges dokumentumokról, a szkennelés mára a mindennapi irodai és otthoni működés szerves részévé vált. A technológiai fejlődésnek köszönhetően többféle scannerből is válogathatunk, a technológiák pedig nem feltétlenül jobbak vagy rosszabbak egymásnál, de más-más igényeket tudnak kielégíteni.
2025. 06. 02. 04:00
Megosztás:

Több mint 3500 büntetőeljárás kezdődött meg a DELTA Program kezdete óta

A kábítószerrel kapcsolatos bűncselekmények megelőzésére és felderítésére összpontosító DELTA Program első három hónapjának eredményeképpen több mint 3500 büntetőeljárás kezdődött meg - mondta a kábítószer-kereskedelem felszámolásáért felelős kormánybiztos vasárnapi sajtótájékoztatóján Budapesten.
2025. 06. 02. 03:00
Megosztás:

A nyugdíjasoknak nem ajándékra van szükségük!

Kisebb ajándékok helyett tartós méltó nyugdíjakra, korszerű nyugdíjrendszerre és megfelelő egészségügyi ellátásra van szüksége a hazai nyugdíjas társadalomnak - közölte az időseknek tervezett vásárlási utalványok hírére reagálva a Magyar Szakszervezeti Szövetség (MASZSZ) Nyugdíjas Tagozata pénteken az MTI-vel.
2025. 06. 02. 02:00
Megosztás:

Egészséges húskészítményeket fejlesztettek ki Debrecenben

Új, egészségvédő, rostban és fehérjében gazdag, egyedi bioaktív hatóanyagokat tartalmazó húskészítményekből álló termékcsaládot fejlesztett ki a felgyői Gulyás János és Társa Kft. konzorciumi partnerségben a Debreceni Egyetemmel (DE) - ismertették a projektzáró konferencián pénteken az egyetem agrárközpontjában.
2025. 06. 02. 01:00
Megosztás:

Lekörözheti a Solaxy az ETH-t, a SUI-t és a DOGE-t?

A kripto piac jelenlegi értéke meghaladja a 3,3 milliárd dollárt. A piac fellendülésével számos befektető komoly nyereségeket könyvelhetett el az elmúlt hetekben, és sokan már a következő nagy durranás után kutatnak.
2025. 06. 02. 00:01
Megosztás:

Átadták a Petőfi Zenei Díjakat

Átadták a Petőfi Zenei Díjakat: Magashegyi Underground lett az év együttese, Tóth Vera az év női előadója, Ákos pedig második alkalommal kapta meg az év férfi előadója elismerést vasárnap este Budapesten az A38 hajón rendezett díjátadó gálán, amelyet élőben közvetített a Duna, az M2 Petőfi TV és a Petőfi Rádió.
2025. 06. 01. 23:00
Megosztás:

Új országos tisztifőorvos az NNGYK élén

Dr. Müller Cecília 2025. május 31-én, hosszú és eredményes szakmai pályafutását követően nyugdíjba vonul.
2025. 06. 01. 22:00
Megosztás:

Kreml: nem biztos, hogy Putyin és Trump idén találkozik

Nem biztos, hogy Vlagyimir Putyin orosz és Donald Trump amerikai elnök személyes találkozása még ebben az évben megvalósul - jelentette ki Jurij Usakov, az orosz államfő külpolitikai tanácsadója a Rosszija 1 televízió által vasárnap közzétett nyilatkozatában.
2025. 06. 01. 21:00
Megosztás:

Ezekkel a számokkal nyerhettél a hatos lottón!

A Szerencsejáték Zrt. tájékoztatása szerint a 22. héten megtartott hatos lottó számsorsoláson a következő számokat húzták ki:
2025. 06. 01. 20:00
Megosztás: