Magyarország is bekapcsolódik a digitális nyelvi forradalomba a Mesterséges Intelligencia Nemzeti Laboratórium fejlesztésével

A SZTAKI által koordinált Mesterséges Intelligencia Nemzeti Laboratórium (MILAB) projekt keretében a Szegedi Tudományegyetem kutatói elkészítették, és szabadon hozzáférhetővé tették a HuSpaCy magyar nyelvi elemzőrendszert, amely már az iparban is használható erőforrásigénnyel és integrálhatósággal dolgozik. A rendszer a mesterséges intelligencia és nyelvtechnológia legújabb kutatási eredményeit ötvözi egy magyar szövegeket elemezni képes könnyen használható eszközzé.

Magyarország is bekapcsolódik a digitális nyelvi forradalomba a Mesterséges Intelligencia Nemzeti Laboratórium fejlesztésével

A magyar nyelvű szövegek mesterséges intelligencia alapú elemző algoritmusai körülbelül 2010-ig lépést tartottak a nagy világnyelvek digitális fejlődésében, aztán lemaradtunk: az új módszerek a sokak által beszélt nyelveknek kedveztek. Az elmúlt évtized áttörést hozott a nyelvtechnológiában, nemcsak a kutatásokban, hanem abban is, hogy az akadémiai eredmények eljutottak arra a technológiai érettségi szintre, hogy azok már ipari forgalomban is használhatóak. Ma már olyan – akár kisebb – cégek is képesek szövegelemzési problémák megoldására, amelyek nem rendelkeznek MI-szakértelemmel.

A most elkészült HuSpaCy rendszer ezen a területen tud segíteni: használatával egyszerűbb a magyar nyelvű szövegek nyelvtani és jelentéstani értelmezése.

„A kifejezetten magyar nyelvű szöveges tartalmak, mondatok előfeldolgozási eszközkészletét készítettük el. Erre azért van szükség, mert minden alkalmazás, ami valamilyen szöveggel kapcsolatos problémát akar megoldani, csupán nyers karaktersorozatokból még nem tud működni. Természetes nyelvi szövegeken működő algoritmusok emberek is által értelmezhető nyelvtani szimbólumokra építenek, így a HuSpaCy megfelelő alapul szolgálhat csetbotokhoz vagy akár email értelmező rendszerekhez is” – magyarázza Farkas Richárd, a Szegedi Tudományegyetem kutatója.

MI forradalom a nyelvtechnológiában

Az elmúlt évtizedben forradalom zajlott a mesterséges intelligencia kutatásában: a gépi tanulásos megoldásokon belül előre tört az úgynevezett mélytanulás (deep learning) módszere, ahol mesterséges neurális hálók képesek megtanulni, hogy mit hogy kell értelmezniük.

A ma használatos természetes nyelveket feldolgozó rendszerek nagy része így működik, azaz nem nyelvészek írnak szabályokat, hanem az ún. tanuló algoritmusok képesek mélyebb összefüggések, predikciók elsajátítására. Ilyen ismertebb mélytanulásos módszer például a BERT vagy az OpenAI GPT-3 algoritmusa.

Az ilyen rendszerekkel viszont van egy probléma: alapvetően fekete dobozként viselkednek. Működésük alig megfigyelhető, tehát még ha jó eredményt is adnak, akkor sem tudjuk, hogyan jutottak erre a következtetésre. Ebből következik, hogy nem is jól kontrollálhatók, ezért ipari alkalmazásokban sokszor csak korlátozottan használhatóak. Gondoljunk bele, hogy egy ilyen rendszer dönt arról, kaphatunk-e hitelt vagy sem. Napjaink angol nyelvet támogató célalkalmazásaiban is gyakran csak a szövegek előelemzésére használnak gépi tanulás alapú megoldásokat, hogy aztán ezek alapján az emberi szakértő által írt szabályok hozzák meg a végső döntést. Így egy-egy döntés átláthatóvá válik (pl. könnyen értelmezhető egy gépi hitelbírálat eredménye is), és kérdéses esetben az emberi szakértő akár meg is tudja változtatni a rendszer viselkedését.

A magyar nyelvű szövegelemző szoftverek fejlesztése nem ma kezdődött. A magyar kutatói közösség már a kétezres években elkezdte építeni a szükséges nyelvi adatbázisokat. Ezeket az adatbázisokat használták a HuSpaCy fejlesztői is, mint tanító adatbázis.

A HuSpaCy rendszer generációváltás: ötvözi a mély tanulási módszerek előnyeit a nyelvészeti elemzések interpretálhatóságával és kontrollálhatóságával. A rendszer képes mondatok teljes nyelvi elemzésére (szótő, szófajok, stb.) illetve névelemek (például személynevek, helységek) azonosítására is folyó szövegben. A HuSpaCy napjaink MI-eszközeiből építkezik: tartalmaz neurális nyelvi modelleket, amelyeket a felhasználó akár szövegek hasonlóságának vizsgálatára is használhat, de a fent említett nyelvtani elemző lépések is mind modern algoritmusokra épülnek.

“A HuSpaCy a spaCy keretrendszerbe illeszkedik, ami az elmúlt években kvázi nemzetközi sztenderddé vált Ezt az eszközt használják mind akadémiai és ipari projektekben a világ számos nyelvén és pontján. Így, minden a keretrendszerbe illeszkedő nyelv gyakorlatilag bekapcsolódik a digitális nyelvi forradalomba” - mondja Orosz György, a HuSpaCy projekt vezetője.

A most létrehozott HuSpaCy rendszer alapja lehet hangalapú vagy írásos csetbotoknak is (ilyeneket a Mesterséges Intelligencia Nemzeti Laboratóriumban is fejlesztenek), de hasznos lehet szövegkategorizálásra (például ügyfélszolgálatra beérkező panaszok automatikus leválogatására), információ kinyerésre és szövegek automatikus generálására is.

A rendszer ide kattintva kipróbálható.

A MILAB-ban futó egyéb nyelvtechnológiai projektek:

-    Hangalapú időpont-egyeztető chatbot: Mi lenne ha amikor telefonon felhívjuk a fodrászunkat, egy szerelőt, orvosunkat vagy éppen a nagyon elfoglalt barátunkat, hogy egy időpontot egyeztessünk, akkor egy robottal beszélgetve tudnánk egy mindkettőnknek megfelelő időpontot egyeztetni? A Szegedi Tudományegyetem és a Budapesti Műszaki Egyetem együttműködésben elkészítettük egy ilyen, magyarul beszélő, hangalapú  időpont-egyeztető robot kipróbálható demó változatát.

-    Szövegek érzelmi töltetének azonosítása: nagy mennyiségű szöveges tartalom (például szociális média) automatikus elemzése abból a szempontból, hogy milyen érzelmi töltetet (düh, szomorúság, öröm stb) fejez ki a közlő igen hasznos lehet marketing vagy szociológiai vizsgálatok szempontjából. Az ELKH  Társadalomtudományi Kutatóközpontban elkészültek tanító adatbázisok és elemzők magyar nyelvű szöveges tartalmak érzelmi töltet elemzésére.

-    Szerző- és beszélő azonosítás: A Nemzetbiztonsági Szakszolgálat munkatársainak munkájának támogatására elkészült egy rendszer, ami két szöveg összehasonlító elemzését végzi el, a szerzők nyelvhasználati, stilisztikai, helyesírási stb  szempontokból, ami például névtelen fenyegető levelek esetén támogatja a kriminalisztikai szakértők munkáját. Folyamatban van beszédhang alapján történő beszélő-azonosító rendszer fejlesztése is, ami például névtelen fenyegető betelefonálásoknál segít megállapítani, hogy ugyanaz-e a beszélő.

-    Gépi olvasás szövegértés: az iskolai olvasás szövegértési feladatok során a diákok elolvasnak egy szöveget és ez alapján kell kérdéseket megválaszolniuk. Egy olyan magyar nyelvű  tanító és benchmark adatbázist építettünk, aminek a célja, hogy egy gép mennyire képes ilyen

Tovább drágulnak az albérletek: áprilisban 0,9%-os emelkedés országosan

Enyhe emelkedés jellemzi az országos és a budapesti albérletpiacot is: áprilisban országosan 0,9 százalékos, a fővárosban 1,3 százalékos emelkedés történt az előző hónaphoz képest; éves összevetésben országosan 7,6, Budapesten pedig 8,6 százalékkal nőttek a bérleti díjak - derül ki a Központi Statisztikai Hivatal (KSH) és az ingatlan.com lakbérindexéből.
2025. 05. 13. 05:30
Megosztás:

Rekordot döntött Románia első negyedévi külkereskedelmi mérleghiánya

Rekordot döntött Románia első negyedévi külkereskedelmi mérleghiánya - derül ki az Országos Statisztikai Intézet (INS) hétfőn közzétett adataiból.
2025. 05. 13. 05:00
Megosztás:

Az orosz gáz betiltása három és félszeresére növelné a magyar családok fűtési költségeit

Az orosz gáz betiltása három és félszeresére növelné a magyar családok fűtési költségeit a Századvég becslése szerint.
2025. 05. 13. 04:30
Megosztás:

Melyek a leggyakoribb stresszforrások a magyar otthonokban?

A magyarok 42%-a küzd rendszeresen stresszel, legtöbb aggodalmuk pedig a pénzügyekhez és a munkához kötődik, míg a háztartással kapcsolatos félelmek is sokszor komoly feszültséggel járnak – derül ki a VELUX Cégcsoport legfrissebb kutatásából. A nyitva felejtett ablak, a megkésett számlabefizetés vagy a bezáratlan ajtó csak néhány azon stresszforrások közül, melyek sokaknak nyugtalan pillanatokat okoznak.
2025. 05. 13. 04:00
Megosztás:

Önálló alapítványként működik a jövőben a ZalaZONE

Kiválik a jelenleg a Széchenyi István Egyetemért Alapítvány tulajdonában lévő zalaegerszegi Autóipari Próbapálya Zala Kft., és a jövőben új, önálló közfeladatot ellátó közérdekű vagyonkezelő alapítvány jön létre a ZalaZONE járműipari innovációs ökoszisztéma működtetésére ZalaZone Alapítvány névvel - tájékoztatta a zalaegerszegi önkormányzat hétfőn az MTI-t.
2025. 05. 13. 03:30
Megosztás:

Több időt kaptak a cégek az ESG folyamatok kiépítésére

Az Európai Tanács a Stop-the-Clock (STC) irányelv keretében elhalasztotta a fenntarthatósági kötelezettségek teljesítésének kezdetét, ami több időt ad a cégeknek az ESG (környezeti, társadalmi és vállalatirányítási) folyamatok kiépítésére - közölte az EY hétfőn az MTI-vel.
2025. 05. 13. 03:00
Megosztás:

Pisilj okos WC-be! Kielemzi a vizeletedet

A Covid-19 járvány alatt a gyorstesztek berobbanása alapjaiban változtatta meg az egészségügyi önellenőrzés kultúráját. Bár a világjárvány lecsengett, a kérdés adott, vajon tartósan megélénkült-e a gyorstesztek piaca? Jobban ellenőrizzük-e magunkat otthon vagy visszatértünk a Covid előtti életformához?
2025. 05. 13. 02:00
Megosztás:

Ha 1996-2006 között született nő vagy, akkor pénzügyileg rossz hírünk van számodra!

Sok fiatalnak a szűkös anyagi lehetőségek miatt nem jut pénze spórolásra, a K&H ifjúsági index szerint ezért a 19-29 évesek 26 százaléka nem tud félretenni.
2025. 05. 13. 01:00
Megosztás:

Saját képzési központot indított útjára a Ganz

Oktatási központot hozott létre a Ganz Transzformátor- és Villamos Forgógépgyártó Kft. a Ceglédi Szakképzési Centrummal együttműködésben. A tápiószelei gyárban működő Ganz Oktatási Központ Magyarországon is egyedülállónak számító, a transzformátor- és villamos forgógépgyártáshoz kapcsolódó tudásközpontot indít útjára, elősegítve a dinamikusan fejlődő iparvállalat szakember-utánpótlását.
2025. 05. 13. 00:30
Megosztás:

Hamisítják a fogyókúrás szerét a legnagyobb piaci szereplőnek!

A Novo Nordisk idei első negyedéves árbevétele dollárban 16%-kal, üzemi nyeresége pedig 18%-kal növekedett az előző év azonos időszakához képest a Bloomberg adatai szerint.
2025. 05. 13. 00:01
Megosztás:

Elindult a pályázat az állatbetegségek hatékonyabb kezelésére

Megjelent az antimikrobiális rezisztencia elleni küzdelmet szolgáló pályázat, amely jelentős segítség az állattenyésztőknek az állatbetegségek hatékonyabb kezelésében és megelőzésében - jelentette be az Agrárminisztérium (AM) hétfői közleménye szerint Viski József agrár- és vidékfejlesztési támogatásokért felelős államtitkár.
2025. 05. 12. 23:00
Megosztás:

Forgalomlassító tiltakozás kezdődött a Dorohusk-Rava Ruska lengyel-ukrán határátkelőn

Forgalomlassító tiltakozás kezdődött hétfőn a Dorohusk-Rava Ruska lengyel-ukrán határátkelő térségében, a lengyel fuvarozók az ukrán kollégáikhoz hasonló versenyszabályokat követelnek - közölte a Polskie Radio Lublin közszolgálati regionális csatorna.
2025. 05. 12. 22:30
Megosztás:

Melyik közösségi média felület a legnépszerűbb a fiatalok körében?

Az Instagram a favorit a 14-25 éves korosztálynál: innen tájékozódnak leggyakrabban a világ dolgairól, ehhez a platformhoz ragaszkodnának a leginkább, ha csak egyet kellene választaniuk, és 10-ből 8-an naponta használják. A mesterséges intelligenciával is kezdenek összebarátkozni, több mint 80%-uk igénybe vette már a házi feladat elkészítéséhez. És bár a megkérdezett tinik több mint harmada szeretne influenszer lenni, alulbecsülik azt, hogy vajon mennyit kereshet havonta egy már befutott tartalomgyártó.
2025. 05. 12. 22:00
Megosztás:

Gyengült a forint hétfő estére

Gyengült a forint a főbb devizákkal szemben hétfőn kora estére a bankközi devizapiacon reggelhez képest.
2025. 05. 12. 21:00
Megosztás:

MÁV: ezer új autóbusszal válik még korszerűbbé és versenyképesebbé a Volán-flotta

Ezer új autóbusszal válik még korszerűbbé és versenyképesebbé a MÁV-csoport Volán flottája, miután újabb 869 darab autóbusz beszerzésére jelent meg közbeszerzési ajánlati felhívás - közölte a MÁV hétfőn az MTI-vel.
2025. 05. 12. 20:30
Megosztás:

Az építőipar gyengülő teljesítménye miatt csökkent a Leier adózott eredménye 2024-ben

A jelenleg is családi vállalkozásként működő Leier Hungária Építőanyaggyártó Kft. tavaly 1,8 milliárd forint adózott eredménnyel zárt, míg egy évvel korábban a nyeresége 5,05 milliárd forint volt, a cég teljesítménye az építőipar gyengülésével és ezen belül a magas kamatkörnyezettel magyarázható - közölte a fennállásának 40. évfordulóját ünneplő társaság az MTI-vel.
2025. 05. 12. 20:00
Megosztás:

A családok védelme érdekében a kormány minden esetben fellép az indokolatlan áremelésekkel szemben – a biztosítók önként vállalták a lakásbiztosítási díjak korlátozását!

A kormány az élelmiszerek, a háztartási cikkek, a banki számladíjak és a telekommunikációs szolgáltatások díjai esetében is fellépett az igazságtalan áremelésekkel szemben. A cél világos, meg kell védeni és meg kell erősíteni a magyar lakosság, a családok anyagi biztonságát. A kormány minden esetben fellép az indokolatlan áremelésekkel szemben, ezért üdvözli, hogy a bankok és telekommunikációs cégek után a biztosítók is önkéntesen korlátozzák, befagyasztják a lakásbiztosítások díját.
2025. 05. 12. 19:00
Megosztás:

A tervezetnek megfelelően alakulnak a magyar költségvetés bevételei

Áprilisban – az előző év azonos időszakához viszonyítva – a központi alrendszer adó- és járulékbevételei 10,9 százalékkal magasabban alakultak. Ezen belül továbbra is kiemelten teljesültek a fogyasztáshoz kapcsolódó adók: itt az előző év azonos időszakához viszonyított növekmény mintegy 13 százalék.
2025. 05. 12. 18:30
Megosztás:

Zajlanak a tárgyalások, csökkennek a gyógyszerárak?

Ma többet megtudhattunk az amerikai-kínai vámtarifákról. A felek produktívnak ítélték a genfi tárgyalásokat, és ma reggel a kereskedelmi megállapodás részleteit is ismertették. Ennek megörültek az ázsiai és amerikai piacok, ugyanakkor a potenciális amerikai gyógyszerárcsökkentések kapcsán a gyógyszergyártók árfolyama beesett.
2025. 05. 12. 18:00
Megosztás:

Folytatódnak a tárgyalások az USA és Kína között

Miután kiderült, hogy az Egyesült Államok és Kína képviselőinek sikerült megállapodniuk a vámok átmeneti mérsékléséről, az amerikai pénzügyminiszter jelezte, hogy várhatóan a következő hetekben újabb találkozóra kerülhet sor a kereskedelmi tárgyalások folytatása érdekében.
2025. 05. 12. 17:30
Megosztás: