Magyarország is bekapcsolódik a digitális nyelvi forradalomba a Mesterséges Intelligencia Nemzeti Laboratórium fejlesztésével

A SZTAKI által koordinált Mesterséges Intelligencia Nemzeti Laboratórium (MILAB) projekt keretében a Szegedi Tudományegyetem kutatói elkészítették, és szabadon hozzáférhetővé tették a HuSpaCy magyar nyelvi elemzőrendszert, amely már az iparban is használható erőforrásigénnyel és integrálhatósággal dolgozik. A rendszer a mesterséges intelligencia és nyelvtechnológia legújabb kutatási eredményeit ötvözi egy magyar szövegeket elemezni képes könnyen használható eszközzé.

Magyarország is bekapcsolódik a digitális nyelvi forradalomba a Mesterséges Intelligencia Nemzeti Laboratórium fejlesztésével

A magyar nyelvű szövegek mesterséges intelligencia alapú elemző algoritmusai körülbelül 2010-ig lépést tartottak a nagy világnyelvek digitális fejlődésében, aztán lemaradtunk: az új módszerek a sokak által beszélt nyelveknek kedveztek. Az elmúlt évtized áttörést hozott a nyelvtechnológiában, nemcsak a kutatásokban, hanem abban is, hogy az akadémiai eredmények eljutottak arra a technológiai érettségi szintre, hogy azok már ipari forgalomban is használhatóak. Ma már olyan – akár kisebb – cégek is képesek szövegelemzési problémák megoldására, amelyek nem rendelkeznek MI-szakértelemmel.

A most elkészült HuSpaCy rendszer ezen a területen tud segíteni: használatával egyszerűbb a magyar nyelvű szövegek nyelvtani és jelentéstani értelmezése.

„A kifejezetten magyar nyelvű szöveges tartalmak, mondatok előfeldolgozási eszközkészletét készítettük el. Erre azért van szükség, mert minden alkalmazás, ami valamilyen szöveggel kapcsolatos problémát akar megoldani, csupán nyers karaktersorozatokból még nem tud működni. Természetes nyelvi szövegeken működő algoritmusok emberek is által értelmezhető nyelvtani szimbólumokra építenek, így a HuSpaCy megfelelő alapul szolgálhat csetbotokhoz vagy akár email értelmező rendszerekhez is” – magyarázza Farkas Richárd, a Szegedi Tudományegyetem kutatója.

MI forradalom a nyelvtechnológiában

Az elmúlt évtizedben forradalom zajlott a mesterséges intelligencia kutatásában: a gépi tanulásos megoldásokon belül előre tört az úgynevezett mélytanulás (deep learning) módszere, ahol mesterséges neurális hálók képesek megtanulni, hogy mit hogy kell értelmezniük.

A ma használatos természetes nyelveket feldolgozó rendszerek nagy része így működik, azaz nem nyelvészek írnak szabályokat, hanem az ún. tanuló algoritmusok képesek mélyebb összefüggések, predikciók elsajátítására. Ilyen ismertebb mélytanulásos módszer például a BERT vagy az OpenAI GPT-3 algoritmusa.

Az ilyen rendszerekkel viszont van egy probléma: alapvetően fekete dobozként viselkednek. Működésük alig megfigyelhető, tehát még ha jó eredményt is adnak, akkor sem tudjuk, hogyan jutottak erre a következtetésre. Ebből következik, hogy nem is jól kontrollálhatók, ezért ipari alkalmazásokban sokszor csak korlátozottan használhatóak. Gondoljunk bele, hogy egy ilyen rendszer dönt arról, kaphatunk-e hitelt vagy sem. Napjaink angol nyelvet támogató célalkalmazásaiban is gyakran csak a szövegek előelemzésére használnak gépi tanulás alapú megoldásokat, hogy aztán ezek alapján az emberi szakértő által írt szabályok hozzák meg a végső döntést. Így egy-egy döntés átláthatóvá válik (pl. könnyen értelmezhető egy gépi hitelbírálat eredménye is), és kérdéses esetben az emberi szakértő akár meg is tudja változtatni a rendszer viselkedését.

A magyar nyelvű szövegelemző szoftverek fejlesztése nem ma kezdődött. A magyar kutatói közösség már a kétezres években elkezdte építeni a szükséges nyelvi adatbázisokat. Ezeket az adatbázisokat használták a HuSpaCy fejlesztői is, mint tanító adatbázis.

A HuSpaCy rendszer generációváltás: ötvözi a mély tanulási módszerek előnyeit a nyelvészeti elemzések interpretálhatóságával és kontrollálhatóságával. A rendszer képes mondatok teljes nyelvi elemzésére (szótő, szófajok, stb.) illetve névelemek (például személynevek, helységek) azonosítására is folyó szövegben. A HuSpaCy napjaink MI-eszközeiből építkezik: tartalmaz neurális nyelvi modelleket, amelyeket a felhasználó akár szövegek hasonlóságának vizsgálatára is használhat, de a fent említett nyelvtani elemző lépések is mind modern algoritmusokra épülnek.

“A HuSpaCy a spaCy keretrendszerbe illeszkedik, ami az elmúlt években kvázi nemzetközi sztenderddé vált Ezt az eszközt használják mind akadémiai és ipari projektekben a világ számos nyelvén és pontján. Így, minden a keretrendszerbe illeszkedő nyelv gyakorlatilag bekapcsolódik a digitális nyelvi forradalomba” - mondja Orosz György, a HuSpaCy projekt vezetője.

A most létrehozott HuSpaCy rendszer alapja lehet hangalapú vagy írásos csetbotoknak is (ilyeneket a Mesterséges Intelligencia Nemzeti Laboratóriumban is fejlesztenek), de hasznos lehet szövegkategorizálásra (például ügyfélszolgálatra beérkező panaszok automatikus leválogatására), információ kinyerésre és szövegek automatikus generálására is.

A rendszer ide kattintva kipróbálható.

A MILAB-ban futó egyéb nyelvtechnológiai projektek:

-    Hangalapú időpont-egyeztető chatbot: Mi lenne ha amikor telefonon felhívjuk a fodrászunkat, egy szerelőt, orvosunkat vagy éppen a nagyon elfoglalt barátunkat, hogy egy időpontot egyeztessünk, akkor egy robottal beszélgetve tudnánk egy mindkettőnknek megfelelő időpontot egyeztetni? A Szegedi Tudományegyetem és a Budapesti Műszaki Egyetem együttműködésben elkészítettük egy ilyen, magyarul beszélő, hangalapú  időpont-egyeztető robot kipróbálható demó változatát.

-    Szövegek érzelmi töltetének azonosítása: nagy mennyiségű szöveges tartalom (például szociális média) automatikus elemzése abból a szempontból, hogy milyen érzelmi töltetet (düh, szomorúság, öröm stb) fejez ki a közlő igen hasznos lehet marketing vagy szociológiai vizsgálatok szempontjából. Az ELKH  Társadalomtudományi Kutatóközpontban elkészültek tanító adatbázisok és elemzők magyar nyelvű szöveges tartalmak érzelmi töltet elemzésére.

-    Szerző- és beszélő azonosítás: A Nemzetbiztonsági Szakszolgálat munkatársainak munkájának támogatására elkészült egy rendszer, ami két szöveg összehasonlító elemzését végzi el, a szerzők nyelvhasználati, stilisztikai, helyesírási stb  szempontokból, ami például névtelen fenyegető levelek esetén támogatja a kriminalisztikai szakértők munkáját. Folyamatban van beszédhang alapján történő beszélő-azonosító rendszer fejlesztése is, ami például névtelen fenyegető betelefonálásoknál segít megállapítani, hogy ugyanaz-e a beszélő.

-    Gépi olvasás szövegértés: az iskolai olvasás szövegértési feladatok során a diákok elolvasnak egy szöveget és ez alapján kell kérdéseket megválaszolniuk. Egy olyan magyar nyelvű  tanító és benchmark adatbázist építettünk, aminek a célja, hogy egy gép mennyire képes ilyen

A nyugdíjpénzek egyelőre nem árasztják el az ingatlanpiacot - mi történik?

Kevés információ áll rendelkezésre ugyan, de azok alapján a kezdeti nagy érdeklődést nem követte jelentős első havi pénzkivét az önkéntes nyugdíjpénztári megtakarításokból ingatlancélú felhasználásra.
2025. 02. 22. 11:00
Megosztás:

London részleges szabad mozgást javasolna fiataloknak az EU-ban

London a letelepedéshez fűződő szabadságjog részleges helyreállítására készül javaslatot tenni az Európai Uniónak a fiatalok számára - írta kormányforrásokat idézve a The Times.
2025. 02. 22. 10:00
Megosztás:

500 dollár befektetés ebbe a 4 altcoinba vagyont hozhat 2025 harmadik negyedévére

Mi lenne, ha egy 500 dolláros befektetés vagyonra válna 2025 harmadik negyedévére? Ahogy a kriptopiac folyamatosan fejlődik, egyre nagyobb a verseny a következő top 10 altcoin megtalálásáért. Az egyik feltörekvő sztár az FXGuys ($FXG), egy DeFi-projekt, amely a Trade2Earn modelljével, staking jutalmaival és kereskedői finanszírozási programjával kelt feltűnést.
2025. 02. 22. 09:00
Megosztás:

Küszöbön a lakásbiztosítási kampány: idén márciusban is lecserélhetik a lakásbiztosítások több mint 10 százalékát

A második alkalommal sorra kerülő márciusi kampány során a lakásbiztosítási ügyfelek 59 százaléka tervezi összehasonlítani a lakásbiztosítási kínálatot – derül ki az Insura.hu biztosításközvetítő közel 2500 fő megkérdezésével lefolytatott online kutatásából. Az előző év pozitív tapasztalatai nyomán az idei kampányban várhatóan a tavalyinál is több, mintegy 350 ezer lakásbiztosítási szerződést cserélhetnek le az ügyfelek, ami a teljes állomány több mint 10 százalékát teszi ki. Emellett nagyságrendileg ugyanennyi szerződés átdolgozására kerülhet sor kedvezőbb biztosítási feltételek mellett.
2025. 02. 22. 08:00
Megosztás:

Stagnált az euróövezet gazdasági teljesítménye februárban

Februárban stagnált az euróövezet gazdasági teljesítménye a londoni S&P Global Market Intelligence gazdaságkutató intézet és a Hamburg Commercial Bank AG közös, nem végleges beszerzésimenedzser-indexe (BMI) szerint.
2025. 02. 22. 07:00
Megosztás:

Ismét TOP10-ben az Ötöslottó főnyereménye

Minden idők nyolcadik legnagyobb nyereménye várja ezen a héten az Ötöslottó játékosait, a tét 3,64 milliárd forint. Magyarország legismertebb számsorsjátékán 18. hete nem született telitalálatos szelvény.
2025. 02. 22. 06:00
Megosztás:

Normaflore termékek reklámjait vizsgálja a GVH

A Gazdasági Versenyhivatal (GVH) vizsgálatot indított a Normaflore termékcsalád forgalmazójával, az Opella Healthcare Commercial Kft.-vel szemben, a versenyhatóság gyanúja szerint a cég két termékét nem az engedélyezett alkalmazási előírások alapján mutatta be egyes reklámjaiban.
2025. 02. 22. 05:00
Megosztás:

A mémcoin-őrület lecseng — a kereskedők inkább erre a gyorsan növekvő, hasznos kriptóra váltanak

A mémcoin-mánia véget ért, a kereskedők magas növekedési potenciállal rendelkező, valódi hasznosságot nyújtó kriptovalutát keresnek. Bár a Dogecoin ára és a Shiba Inu medvés nyomás alatt áll, a befektetők hosszú távú értéket és hasznosságot keresnek.
2025. 02. 22. 04:00
Megosztás:

Túlcsorduló lefolyók? 7 egyszerű lépés a dugulás megelőzésére a konyhában

A konyhai lefolyók gyakran vannak kitéve a zsír- és ételmaradékoknak, amelyek idővel dugulást okozhatnak. Nemcsak a víz áramlása csökken, hanem a kellemetlen szagok is megjelenhetnek. Hogyan előzhetjük meg a dugulásokat, és biztosíthatjuk, hogy a konyhai lefolyók tiszták maradjanak? Íme 7 egyszerű lépés, amellyel megakadályozhatjuk a zsíros dugulások kialakulását és elkerülhetjük a kellemetlen szagokat.
2025. 02. 22. 03:00
Megosztás:

A Fidesz csak egyetlen módon nyerheti meg a következő választást...

Politikai elemzők az ATV Híradójának elmondták, hogy a héten gyakorlatilag elindult a politikai szezon: a vezető politikusok évértékelő beszédeket tartanak, jövő héten pedig kezdetét veszi a parlament tavaszi ülésszaka. A Fidesz és a DK elsősorban saját törzsszavazóikat igyekszik megszólítani, míg a Tisza Párt az ellenzéki táboron túl is bővítené támogatottságát. De hogyan nyerhet a Fidesz? A szakértő szerint egyetlen módon.
2025. 02. 22. 02:00
Megosztás:

Mennyi lesz a nyugdíja annak aki rokkantsági eljárásban részesült?

Az öregségi nyugdíjkorhatár elérése nemcsak azoknak biztosít lehetőséget a nyugdíj igénylésére, akik korábban folyamatos munkaviszonnyal rendelkeztek. Ez a jogosultság azok számára is elérhetővé válik, akik az adott időpontban egészségi állapotuk miatt rokkantsági ellátásban részesülnek.
2025. 02. 22. 01:00
Megosztás:

Az MNB eltiltotta az olajkutam.com üzemeltetőjét a jegybanki engedélyhez kötött tevékenységektől

A Magyar Nemzeti Bank (MNB) azonnali hatállyal megtiltotta az olajkutam.com oldalt üzemeltető OMR OIL LLC-nek, hogy belföldön pénzügyi felügyeleti engedélyhez vagy bejelentéshez kötött tevékenységet végezzen - közölte a jegybank pénteken az MTI-vel.
2025. 02. 22. 00:05
Megosztás:

Megalakult a Mikromobilitási Munkacsoport

Megalakult a Mikromobilitási Munkacsoport - tájékoztatta az Építési és Közlekedési Minisztérium (ÉKM) pénteken közleményben az MTI-t.
2025. 02. 21. 23:00
Megosztás:

Üzleti titkokkal való visszaélés miatt lett érvénytelen az ügyvezető munkaviszonyának közös megszüntetése

A munkaviszony közös megegyezéssel történő megszüntetése az egyik legbarátságosabb módja egy cégtől való távozásnak. Azonban ennek a látszólag egyszerű jogi procedúrának is lehetnek buktatói, különösen, ha utólag derül fény olyan körülményekre, amelyek a munkáltató döntését befolyásolhatták. A Kúria egy közelmúltban született döntése hívta fel a figyelmet arra, hogy bizonyos esetekben a közös megegyezés érvényteleníthető, és az komoly következményekkel járhat az érvénytelenséget előidéző munkavállaló számára.
2025. 02. 21. 22:00
Megosztás:

100 termékkörre bővülhet az online árfigyelő

A családok védelme, az infláció alacsony szinten tartása és a kiskereskedelmi verseny erősítése érdekében pénteken társadalmi egyeztetés indul az online árfigyelő rendszer 100 termékkategóriára történő bővítéséről - közölte a Nemzetgazdasági Minisztérium (NGM) pénteken az MTI-vel.
2025. 02. 21. 21:00
Megosztás:

Kismértékben nőtt tavaly a Mol működési eredménye

A Mol-csoport tavaly 1121,8 milliárd forint (3,1 milliárd dollár) tisztított, kamat-, adófizetés és amortizáció előtti eredményt (EBITDA) ért el, amely 2,2 százalékos emelkedés az előző évhez képest. A nehéz külső piaci körülmények ellenére a vállalat működése stabil maradt, az EBITDA meghaladta a 2024-re tervezett 3,0 milliárd dolláros éves iránymutatást - tette közzé a társaság a Budapesti Értéktőzsde (BÉT) honlapján pénteken.
2025. 02. 21. 20:00
Megosztás:

Kedvező volt az elmúlt egy hét időjárása a mezőgazdaság számára

A mezőgazdaság számára kedvezően alakult az elmúlt egy hét időjárása: előbb csapadék hullott, majd fagyos időjárás köszöntött be, amire növényvédelmi szempontból van különösen nagy szükség - írta a HungaroMet Zrt. csütörtöki agrometeorológiai elemzésében.
2025. 02. 21. 19:00
Megosztás:

Jelentősen nőtt az Alibaba negyedéves nyeresége

Az Alibaba Group Holding kínai e-kereskedelmi óriás adózott eredménye jelentősen nőtt pénzügyi éve decemberben zárult harmadik negyedében, a korrigált nyeresége és a bevétele is felülmúlta a vártat.
2025. 02. 21. 18:30
Megosztás:

Ennyire emelkedik a bírák átlagjövedelme

A bírák átlagjövedelme az idei januári emeléssel jelenleg 1 millió 780 ezer forint, ez 2027-re 2 millió 250 ezer forintra emelkedik, így a jövedelmük meghaladja az európai uniós átlagot - közölte az Igazságügyi Minisztérium (IM) pénteken az MTI-vel.
2025. 02. 21. 18:00
Megosztás:

Meghosszabbítják a vörös kód riasztást

A HungaroMet előrejelzése alapján Magyarországon sok helyen a következő napokban továbbra is -10 °C alatti éjszakai hőmérséklet várható.
2025. 02. 21. 17:00
Megosztás: