Magyarország is bekapcsolódik a digitális nyelvi forradalomba a Mesterséges Intelligencia Nemzeti Laboratórium fejlesztésével

A SZTAKI által koordinált Mesterséges Intelligencia Nemzeti Laboratórium (MILAB) projekt keretében a Szegedi Tudományegyetem kutatói elkészítették, és szabadon hozzáférhetővé tették a HuSpaCy magyar nyelvi elemzőrendszert, amely már az iparban is használható erőforrásigénnyel és integrálhatósággal dolgozik. A rendszer a mesterséges intelligencia és nyelvtechnológia legújabb kutatási eredményeit ötvözi egy magyar szövegeket elemezni képes könnyen használható eszközzé.

Magyarország is bekapcsolódik a digitális nyelvi forradalomba a Mesterséges Intelligencia Nemzeti Laboratórium fejlesztésével

A magyar nyelvű szövegek mesterséges intelligencia alapú elemző algoritmusai körülbelül 2010-ig lépést tartottak a nagy világnyelvek digitális fejlődésében, aztán lemaradtunk: az új módszerek a sokak által beszélt nyelveknek kedveztek. Az elmúlt évtized áttörést hozott a nyelvtechnológiában, nemcsak a kutatásokban, hanem abban is, hogy az akadémiai eredmények eljutottak arra a technológiai érettségi szintre, hogy azok már ipari forgalomban is használhatóak. Ma már olyan – akár kisebb – cégek is képesek szövegelemzési problémák megoldására, amelyek nem rendelkeznek MI-szakértelemmel.

A most elkészült HuSpaCy rendszer ezen a területen tud segíteni: használatával egyszerűbb a magyar nyelvű szövegek nyelvtani és jelentéstani értelmezése.

„A kifejezetten magyar nyelvű szöveges tartalmak, mondatok előfeldolgozási eszközkészletét készítettük el. Erre azért van szükség, mert minden alkalmazás, ami valamilyen szöveggel kapcsolatos problémát akar megoldani, csupán nyers karaktersorozatokból még nem tud működni. Természetes nyelvi szövegeken működő algoritmusok emberek is által értelmezhető nyelvtani szimbólumokra építenek, így a HuSpaCy megfelelő alapul szolgálhat csetbotokhoz vagy akár email értelmező rendszerekhez is” – magyarázza Farkas Richárd, a Szegedi Tudományegyetem kutatója.

MI forradalom a nyelvtechnológiában

Az elmúlt évtizedben forradalom zajlott a mesterséges intelligencia kutatásában: a gépi tanulásos megoldásokon belül előre tört az úgynevezett mélytanulás (deep learning) módszere, ahol mesterséges neurális hálók képesek megtanulni, hogy mit hogy kell értelmezniük.

A ma használatos természetes nyelveket feldolgozó rendszerek nagy része így működik, azaz nem nyelvészek írnak szabályokat, hanem az ún. tanuló algoritmusok képesek mélyebb összefüggések, predikciók elsajátítására. Ilyen ismertebb mélytanulásos módszer például a BERT vagy az OpenAI GPT-3 algoritmusa.

Az ilyen rendszerekkel viszont van egy probléma: alapvetően fekete dobozként viselkednek. Működésük alig megfigyelhető, tehát még ha jó eredményt is adnak, akkor sem tudjuk, hogyan jutottak erre a következtetésre. Ebből következik, hogy nem is jól kontrollálhatók, ezért ipari alkalmazásokban sokszor csak korlátozottan használhatóak. Gondoljunk bele, hogy egy ilyen rendszer dönt arról, kaphatunk-e hitelt vagy sem. Napjaink angol nyelvet támogató célalkalmazásaiban is gyakran csak a szövegek előelemzésére használnak gépi tanulás alapú megoldásokat, hogy aztán ezek alapján az emberi szakértő által írt szabályok hozzák meg a végső döntést. Így egy-egy döntés átláthatóvá válik (pl. könnyen értelmezhető egy gépi hitelbírálat eredménye is), és kérdéses esetben az emberi szakértő akár meg is tudja változtatni a rendszer viselkedését.

A magyar nyelvű szövegelemző szoftverek fejlesztése nem ma kezdődött. A magyar kutatói közösség már a kétezres években elkezdte építeni a szükséges nyelvi adatbázisokat. Ezeket az adatbázisokat használták a HuSpaCy fejlesztői is, mint tanító adatbázis.

A HuSpaCy rendszer generációváltás: ötvözi a mély tanulási módszerek előnyeit a nyelvészeti elemzések interpretálhatóságával és kontrollálhatóságával. A rendszer képes mondatok teljes nyelvi elemzésére (szótő, szófajok, stb.) illetve névelemek (például személynevek, helységek) azonosítására is folyó szövegben. A HuSpaCy napjaink MI-eszközeiből építkezik: tartalmaz neurális nyelvi modelleket, amelyeket a felhasználó akár szövegek hasonlóságának vizsgálatára is használhat, de a fent említett nyelvtani elemző lépések is mind modern algoritmusokra épülnek.

“A HuSpaCy a spaCy keretrendszerbe illeszkedik, ami az elmúlt években kvázi nemzetközi sztenderddé vált Ezt az eszközt használják mind akadémiai és ipari projektekben a világ számos nyelvén és pontján. Így, minden a keretrendszerbe illeszkedő nyelv gyakorlatilag bekapcsolódik a digitális nyelvi forradalomba” - mondja Orosz György, a HuSpaCy projekt vezetője.

A most létrehozott HuSpaCy rendszer alapja lehet hangalapú vagy írásos csetbotoknak is (ilyeneket a Mesterséges Intelligencia Nemzeti Laboratóriumban is fejlesztenek), de hasznos lehet szövegkategorizálásra (például ügyfélszolgálatra beérkező panaszok automatikus leválogatására), információ kinyerésre és szövegek automatikus generálására is.

A rendszer ide kattintva kipróbálható.

A MILAB-ban futó egyéb nyelvtechnológiai projektek:

-    Hangalapú időpont-egyeztető chatbot: Mi lenne ha amikor telefonon felhívjuk a fodrászunkat, egy szerelőt, orvosunkat vagy éppen a nagyon elfoglalt barátunkat, hogy egy időpontot egyeztessünk, akkor egy robottal beszélgetve tudnánk egy mindkettőnknek megfelelő időpontot egyeztetni? A Szegedi Tudományegyetem és a Budapesti Műszaki Egyetem együttműködésben elkészítettük egy ilyen, magyarul beszélő, hangalapú  időpont-egyeztető robot kipróbálható demó változatát.

-    Szövegek érzelmi töltetének azonosítása: nagy mennyiségű szöveges tartalom (például szociális média) automatikus elemzése abból a szempontból, hogy milyen érzelmi töltetet (düh, szomorúság, öröm stb) fejez ki a közlő igen hasznos lehet marketing vagy szociológiai vizsgálatok szempontjából. Az ELKH  Társadalomtudományi Kutatóközpontban elkészültek tanító adatbázisok és elemzők magyar nyelvű szöveges tartalmak érzelmi töltet elemzésére.

-    Szerző- és beszélő azonosítás: A Nemzetbiztonsági Szakszolgálat munkatársainak munkájának támogatására elkészült egy rendszer, ami két szöveg összehasonlító elemzését végzi el, a szerzők nyelvhasználati, stilisztikai, helyesírási stb  szempontokból, ami például névtelen fenyegető levelek esetén támogatja a kriminalisztikai szakértők munkáját. Folyamatban van beszédhang alapján történő beszélő-azonosító rendszer fejlesztése is, ami például névtelen fenyegető betelefonálásoknál segít megállapítani, hogy ugyanaz-e a beszélő.

-    Gépi olvasás szövegértés: az iskolai olvasás szövegértési feladatok során a diákok elolvasnak egy szöveget és ez alapján kell kérdéseket megválaszolniuk. Egy olyan magyar nyelvű  tanító és benchmark adatbázist építettünk, aminek a célja, hogy egy gép mennyire képes ilyen

A BTC Bull Token lehet a tuti befektetés a bizonytalanság alatt?

A Bitcoin árfolyamára komoly eladási nyomás nehezedik. A Glassnode adatai szerint azok a befektetők, akik 6-12 hónappal ezelőtt vásároltak Bitcoint, június 16-án 904 millió dolláros nyereséget valósítottak meg, ami az év második legnagyobb egynapos nyeresége volt.
2025. 06. 23. 00:01
Megosztás:

Marco Rubio: az Egyesült Államok nem áll háborúban Iránnal

Az Egyesült Államok nem áll háborúban Iránnal - jelentette ki Marco Rubio amerikai külügyminiszter vasárnap az iráni atomlétesítmények bombázása következtében kialakult helyzetet értékelve.
2025. 06. 22. 23:00
Megosztás:

Spanyolország nem emeli védelmi kiadásait a GDP 5 százalékára

Spanyolország megállapodott a NATO-val, hogy nem emeli védelmi kiadásait a GDP 5 százalékára - jelentette be Pedro Sánchez miniszterelnök rendkívüli televíziós nyilatkozatban vasárnap.
2025. 06. 22. 22:00
Megosztás:

Jön a kánikula

A jövő hét elején kissé visszaesik a hőmérséklet és megnő a zápor, zivatar esélye, de aztán ismét melegedés kezdődik csütörtökig, amikor akár 32-39 Celsius-fok is lehet a legmelegebb órákban. Pénteken már egy hidegfront miatt felhősebb időre kell készülni, a hőmérséklet 6-7 fokkal visszaesik és többfelé lehet zápor, zivatar, de a hét végére visszatér a napos, száraz idő 30 fok körüli maximumokkal. A szél egész héten élénk, olykor erős lesz - derül ki a HungaroMet Zrt. előrejelzéséből, amelyet vasárnap juttattak el az MTI-hez.
2025. 06. 22. 21:00
Megosztás:

Bitcoin zuhanás 100 ezer dollár alá: Meddig tarthat a lejtmenet?

Több mint 4%-os esés egyetlen nap alatt, közel 875 millió dollárnyi likvidáció és globális geopolitikai feszültségek – a Bitcoin legújabb zuhanása új korszak kezdetét is jelentheti. Mi áll a háttérben, és meddig eshet még a piac?
2025. 06. 22. 19:00
Megosztás:

Elítélte Moszkva az iráni nukleáris létesítmények elleni amerikai támadást

Moszkva határozottan elítéli az Irán nukleáris létesítményei elleni amerikai támadásokat, ez a felelőtlen döntés súlyosan sérti az ENSZ Alapokmányát - hangoztatta az orosz külügyminisztérium vasárnap kiadott nyilatkozatában.
2025. 06. 22. 18:30
Megosztás:

A legális játék oldalakra vonatkozó cseh szabályok megértése

Mivel az online játékok népszerűsége Európában egyre nő, Csehország biztosította, hogy a játék oldalakra vonatkozó törvényei megfelelőek és következetesek legyenek. Ahhoz, hogy az országban legálisan működhessenek, akár többjátékos játékokat, stratégiai alkalmazásokat vagy szerencsejátékokat üzemeltetnek, a fejlesztőknek és üzemeltetőknek bizonyos jogi követelményeknek kell megfelelniük.
2025. 06. 22. 17:03
Megosztás:

Izraeli elnök a BBC-nek: komoly csapás érte az iráni nukleáris létesítményeket

Izrael még nem ismeri az iráni nukleáris létesítmények ellen végrehajtott amerikai légitámadások pontos eredményét, de az nyilvánvaló, hogy az iráni nukleáris fejlesztési programot komoly csapás érte - mondta Jichák Hercog izraeli elnök a vasárnap a BBC brit közszolgálati médiatársaságnak. A brit kormány ugyancsak vasárnap bejelentette, hogy megkezdte a térségben tartózkodó brit állampolgárok evakuálásának előkészítését.
2025. 06. 22. 16:00
Megosztás:

Soha nem látott érdeklődés a tanári pálya iránt

A tanári béremelés hatására rekordokat dönt a pedagógusképzésre való jelentkezés, és az iskolaigazgatókhoz is soha nem látott számú önéletrajz érkezik - mondta a pedagógiai innovációk előmozdításáért és a családbarát oktatási környezet erősítéséért felelős miniszterelnöki biztos a Magyar Nemzetnek adott, szombaton megjelent interjújában.
2025. 06. 22. 15:00
Megosztás:

Kamatdöntő ülést tart a monetáris tanács

A jövő héten kamatdöntő ülést tart a jegybank monetáris tanácsa, a Központi Statisztikai Hivatal (KSH) pedig számos újabb statisztikát közöl, közöttük a szálláshelyek forgalmát és a munkaerőpiac májusi adatait.
2025. 06. 22. 14:00
Megosztás:

Növekvő forgalom mellett emelkedett a BUX

A Budapesti Értéktőzsde (BÉT) részvényindexe a múlt pénteki záráshoz képest 3,40 százalékkal emelkedve 98 560,68 ponton fejezte be a hetet.
2025. 06. 22. 13:00
Megosztás:

Alig veszünk már fel készpénzt - minek az a sok buta ATM?

A jegybanki statisztikák szerint a bankkártya forgalom évtizedekkel ezelőtti felfutása óta nem volt példa arra, hogy ne érte volna el a 20 millió darabot az egy negyedév alatt végrehajtott készpénzfelvételi tranzakciók száma, mint most tavasszal. Gergely Péter, a BiztosDöntés.hu pénzügyi szakértője szerint a falvakba helyezett „buta”, egyfunkciós ATM-ek helyett a bankfiókok szolgáltatásának egy részét kiváltani képes okos ATM-ek járásközpontokba telepítésével érdemben lehetne javítani a vidéki lakosság hozzáférését a pénzügyi szolgáltatásokhoz.
2025. 06. 22. 12:00
Megosztás:

Növelheti az egészségpénztárak népszerűségét az önsegélyező szolgáltatásokra vonatkozó jogszabályváltozás

Ösztönözheti a csatlakozást az az egészségpénztárakhoz, hogy módosult az önkéntes szolgáltatásokra vonatkozó jogszabály – közölte az Önkéntes Pénztárak Országos Szövetsége (ÖPOSZ) pénteken az MTI-vel.
2025. 06. 22. 11:00
Megosztás:

Elfogadták az önazonosság védelméről szóló törvényt. Van egy hatalmas meglepetés is a végleges jogszabályba

A falvak, kistelepülések önkormányzatai felléphetnek önazonosságuk, arculatuk védelme és a nem kívánt növekedés ellen. Legalábbis amint július elsején életbe lép az ezt biztosító törvény. A Magyar Közlönyben megjelent jogszabályban azonban láthatunk egy jelentős eltérést a tervezetben szereplőkhöz képest.
2025. 06. 22. 10:00
Megosztás:

Megkezdődik az Ötoldalú Mura-Dráva-Duna Bioszféra-rezervátum zalai területének fejlesztése

Megkezdődik az Ötoldalú Mura-Dráva-Duna Bioszféra-rezervátum zalai területének komplex fejlesztése - tájékoztatta a Balaton-felvidéki Nemzeti Park Igazgatóság az MTI-t.
2025. 06. 22. 09:00
Megosztás:

Európa vizei biztonságosak a nyári fürdőzéshez

Az európai természetes fürdőhelyek túlnyomó többsége biztonságos, több mint 85 százalékuk megfelel az Európai Unió legszigorúbb, kiváló minőségi előírásainak, de 96 százalékuk megfelelt legalább a minimális minőségi előírásoknak - derült ki az Európai Környezetvédelmi Ügynökség (EEA) az Európai Bizottság közösen összeállított és pénteken közzétett értékeléséből.
2025. 06. 22. 08:00
Megosztás:

A 15 legnagyobb webáruház forgalma 12,4%-kal nőtt 2024-ben

A magyar piacon működő, helyi operációval is rendelkező tizenöt legnagyobb e-kereskedő együttes forgalma bruttó 463,1 milliárd forint volt 2024-ben, ami 12,4 százalékos bővülés 2023-hoz képest, miközben a teljes belföldi e-kereskedelmi piac növekedési üteme 9,7 százalék volt a PwC Magyarország Digitális Kereskedelmi Körkép kutatása alapján, amelyet csütörtökön mutattak be Budapesten.
2025. 06. 22. 07:00
Megosztás:

MVM Next: nem létező tartozásra hivatkozva keresik csalók az ügyfeleket

Az MVM Next Energiakereskedelmi Zrt. ügyfelei az utóbbi időszakban ismét adathalász csalók által küldött értesítőket kaptak nem létező tartozásról, ezúttal sms-ben; a vállalat kéri a fogyasztókat, hogy legyenek figyelmesek, a megtévesztő, adathalász üzenetek felismerhetők - hívta fel a figyelmet a társaság pénteki közleményében.
2025. 06. 22. 06:00
Megosztás:

Ezrek ünnepelték Stonehenge ősi köveinél a nyári napfordulót

Ezrek ünnepelték szombaton a nyári napfordulót a délnyugat-angliai Stonehenge ősi köveinél.
2025. 06. 22. 05:00
Megosztás:

Több mint ezer cég érdeklődött a Demján Sándor Tőkeprogram után

Több mint ezer cég érdeklődött a Demján Sándor Tőkeprogram után - hangzott el pénteken a Borsod-Abaúj-Zemplén vármegyei Tarcalon az iconFESZT 2.0 gazdaságpolitikai konferencián.
2025. 06. 22. 04:00
Megosztás: