Magyarország is bekapcsolódik a digitális nyelvi forradalomba a Mesterséges Intelligencia Nemzeti Laboratórium fejlesztésével

A SZTAKI által koordinált Mesterséges Intelligencia Nemzeti Laboratórium (MILAB) projekt keretében a Szegedi Tudományegyetem kutatói elkészítették, és szabadon hozzáférhetővé tették a HuSpaCy magyar nyelvi elemzőrendszert, amely már az iparban is használható erőforrásigénnyel és integrálhatósággal dolgozik. A rendszer a mesterséges intelligencia és nyelvtechnológia legújabb kutatási eredményeit ötvözi egy magyar szövegeket elemezni képes könnyen használható eszközzé.

Magyarország is bekapcsolódik a digitális nyelvi forradalomba a Mesterséges Intelligencia Nemzeti Laboratórium fejlesztésével

A magyar nyelvű szövegek mesterséges intelligencia alapú elemző algoritmusai körülbelül 2010-ig lépést tartottak a nagy világnyelvek digitális fejlődésében, aztán lemaradtunk: az új módszerek a sokak által beszélt nyelveknek kedveztek. Az elmúlt évtized áttörést hozott a nyelvtechnológiában, nemcsak a kutatásokban, hanem abban is, hogy az akadémiai eredmények eljutottak arra a technológiai érettségi szintre, hogy azok már ipari forgalomban is használhatóak. Ma már olyan – akár kisebb – cégek is képesek szövegelemzési problémák megoldására, amelyek nem rendelkeznek MI-szakértelemmel.

A most elkészült HuSpaCy rendszer ezen a területen tud segíteni: használatával egyszerűbb a magyar nyelvű szövegek nyelvtani és jelentéstani értelmezése.

„A kifejezetten magyar nyelvű szöveges tartalmak, mondatok előfeldolgozási eszközkészletét készítettük el. Erre azért van szükség, mert minden alkalmazás, ami valamilyen szöveggel kapcsolatos problémát akar megoldani, csupán nyers karaktersorozatokból még nem tud működni. Természetes nyelvi szövegeken működő algoritmusok emberek is által értelmezhető nyelvtani szimbólumokra építenek, így a HuSpaCy megfelelő alapul szolgálhat csetbotokhoz vagy akár email értelmező rendszerekhez is” – magyarázza Farkas Richárd, a Szegedi Tudományegyetem kutatója.

MI forradalom a nyelvtechnológiában

Az elmúlt évtizedben forradalom zajlott a mesterséges intelligencia kutatásában: a gépi tanulásos megoldásokon belül előre tört az úgynevezett mélytanulás (deep learning) módszere, ahol mesterséges neurális hálók képesek megtanulni, hogy mit hogy kell értelmezniük.

A ma használatos természetes nyelveket feldolgozó rendszerek nagy része így működik, azaz nem nyelvészek írnak szabályokat, hanem az ún. tanuló algoritmusok képesek mélyebb összefüggések, predikciók elsajátítására. Ilyen ismertebb mélytanulásos módszer például a BERT vagy az OpenAI GPT-3 algoritmusa.

Az ilyen rendszerekkel viszont van egy probléma: alapvetően fekete dobozként viselkednek. Működésük alig megfigyelhető, tehát még ha jó eredményt is adnak, akkor sem tudjuk, hogyan jutottak erre a következtetésre. Ebből következik, hogy nem is jól kontrollálhatók, ezért ipari alkalmazásokban sokszor csak korlátozottan használhatóak. Gondoljunk bele, hogy egy ilyen rendszer dönt arról, kaphatunk-e hitelt vagy sem. Napjaink angol nyelvet támogató célalkalmazásaiban is gyakran csak a szövegek előelemzésére használnak gépi tanulás alapú megoldásokat, hogy aztán ezek alapján az emberi szakértő által írt szabályok hozzák meg a végső döntést. Így egy-egy döntés átláthatóvá válik (pl. könnyen értelmezhető egy gépi hitelbírálat eredménye is), és kérdéses esetben az emberi szakértő akár meg is tudja változtatni a rendszer viselkedését.

A magyar nyelvű szövegelemző szoftverek fejlesztése nem ma kezdődött. A magyar kutatói közösség már a kétezres években elkezdte építeni a szükséges nyelvi adatbázisokat. Ezeket az adatbázisokat használták a HuSpaCy fejlesztői is, mint tanító adatbázis.

A HuSpaCy rendszer generációváltás: ötvözi a mély tanulási módszerek előnyeit a nyelvészeti elemzések interpretálhatóságával és kontrollálhatóságával. A rendszer képes mondatok teljes nyelvi elemzésére (szótő, szófajok, stb.) illetve névelemek (például személynevek, helységek) azonosítására is folyó szövegben. A HuSpaCy napjaink MI-eszközeiből építkezik: tartalmaz neurális nyelvi modelleket, amelyeket a felhasználó akár szövegek hasonlóságának vizsgálatára is használhat, de a fent említett nyelvtani elemző lépések is mind modern algoritmusokra épülnek.

“A HuSpaCy a spaCy keretrendszerbe illeszkedik, ami az elmúlt években kvázi nemzetközi sztenderddé vált Ezt az eszközt használják mind akadémiai és ipari projektekben a világ számos nyelvén és pontján. Így, minden a keretrendszerbe illeszkedő nyelv gyakorlatilag bekapcsolódik a digitális nyelvi forradalomba” - mondja Orosz György, a HuSpaCy projekt vezetője.

A most létrehozott HuSpaCy rendszer alapja lehet hangalapú vagy írásos csetbotoknak is (ilyeneket a Mesterséges Intelligencia Nemzeti Laboratóriumban is fejlesztenek), de hasznos lehet szövegkategorizálásra (például ügyfélszolgálatra beérkező panaszok automatikus leválogatására), információ kinyerésre és szövegek automatikus generálására is.

A rendszer ide kattintva kipróbálható.

A MILAB-ban futó egyéb nyelvtechnológiai projektek:

-    Hangalapú időpont-egyeztető chatbot: Mi lenne ha amikor telefonon felhívjuk a fodrászunkat, egy szerelőt, orvosunkat vagy éppen a nagyon elfoglalt barátunkat, hogy egy időpontot egyeztessünk, akkor egy robottal beszélgetve tudnánk egy mindkettőnknek megfelelő időpontot egyeztetni? A Szegedi Tudományegyetem és a Budapesti Műszaki Egyetem együttműködésben elkészítettük egy ilyen, magyarul beszélő, hangalapú  időpont-egyeztető robot kipróbálható demó változatát.

-    Szövegek érzelmi töltetének azonosítása: nagy mennyiségű szöveges tartalom (például szociális média) automatikus elemzése abból a szempontból, hogy milyen érzelmi töltetet (düh, szomorúság, öröm stb) fejez ki a közlő igen hasznos lehet marketing vagy szociológiai vizsgálatok szempontjából. Az ELKH  Társadalomtudományi Kutatóközpontban elkészültek tanító adatbázisok és elemzők magyar nyelvű szöveges tartalmak érzelmi töltet elemzésére.

-    Szerző- és beszélő azonosítás: A Nemzetbiztonsági Szakszolgálat munkatársainak munkájának támogatására elkészült egy rendszer, ami két szöveg összehasonlító elemzését végzi el, a szerzők nyelvhasználati, stilisztikai, helyesírási stb  szempontokból, ami például névtelen fenyegető levelek esetén támogatja a kriminalisztikai szakértők munkáját. Folyamatban van beszédhang alapján történő beszélő-azonosító rendszer fejlesztése is, ami például névtelen fenyegető betelefonálásoknál segít megállapítani, hogy ugyanaz-e a beszélő.

-    Gépi olvasás szövegértés: az iskolai olvasás szövegértési feladatok során a diákok elolvasnak egy szöveget és ez alapján kell kérdéseket megválaszolniuk. Egy olyan magyar nyelvű  tanító és benchmark adatbázist építettünk, aminek a célja, hogy egy gép mennyire képes ilyen

Megugrott az első lakást vásárlók aránya a fővárosban

Az ingatlanvásárlók ötöde szerződött 2024. első negyedévében első otthonára a Duna House értékesítési adatai szerint - jelentette keddi elemzésében az ingatlanközvetítő.
2024. 04. 16. 16:30
Megosztás:

Felülmúlta a várakozásokat a lakásbiztosítási kampány

Felülmúlta a várakozásokat a márciusi lakásbiztosítási kampány, az előzetes adatok szerint összesen több mint 461 ezer új lakásbiztosítási szerződést kötöttek, illetve kötöttek újra az ügyfelek - jelentette be a Nemzetgazdasági Minisztérium (NGM) államtitkára hétfőn, a tárca és a Magyar Nemzeti Bank (MNB) közös budapesti sajtótájékoztatóján.
2024. 04. 16. 16:00
Megosztás:

Márciusban emelkedtek a nagykereskedelmi árak Németországban

Németországban a nagykereskedelmi árak havi szinten nőttek, éves összevetésben csökkentek a kedden közölt hivatalos adatok szerint.
2024. 04. 16. 15:30
Megosztás:

Több oldalú támogatást kapnak a 30 év alattiak

A kormány Ifjúsági garancia plusz programja négy pillérre épül: bértámogatásra, lakhatási és utazási támogatásra, valamint átképzésre - ismertette Czomba Sándor, a Nemzetgazdasági Minisztérium (NGM) foglalkoztatáspolitikáért felelős államtitkára a Tv2 Mokka című műsorában kedden reggel.
2024. 04. 16. 15:00
Megosztás:

Rég nem látott mélypontra csökkent a hálózati áramfogyasztás Romániában

Történelmi mélypontra csökkent az áramfogyasztás Romániában - írta az economedia.ro a Transelectrica adatai alapján.
2024. 04. 16. 14:30
Megosztás:

Kínában lelombozó volt a március

Kínában csalódást keltő márciusi kiskereskedelmi és ipari termelési adatok láttak napvilágot kedden, miközben az elemzők által várt szintre csökkent a munkanélküliség a múlt hónapban.
2024. 04. 16. 14:00
Megosztás:

Ingyenes európai vonatbérletre pályázhatnak azok, akik idén lesznek nagykorúak

Azok a fiatal felnőttek, akik ebben a tanévben töltik be a 18. életévüket, és szeretnék bejárni Európát, kedd déltől két hétig újra regisztrálhatnak az ingyenes, Európa 32 országába érvényes Interrail vonatbérletre - tájékoztatta a MÁV-START az MTI-t.
2024. 04. 16. 13:30
Megosztás:

Önerőből vág bele egy komoly fejlesztésbe Gyula

Tíz helyszínen indít közlekedésfejlesztési beruházást saját erőből a gyulai önkormányzat, mintegy negyedmilliárd forint értékben - közölte az önkormányzat az MTI-vel.
2024. 04. 16. 13:00
Megosztás:

A vártnál jobban gyorsult Kína, mégsem felhőtlen a kép

A vártnál gyorsabb gazdasági növekedésről számolt be a kínai statisztikai hivatal. Az ázsiai szuperhatalom első negyedéves GDP-je 5,3 százalékkal haladta meg az egy évvel korábbi azonos időszakét, és felülmúlta a piac 4,8 százalékos várakozását, valamint az 5,2 százalékos negyedik negyedéves ütemet.
2024. 04. 16. 12:00
Megosztás:

Kamatcsökkentés helyett további szigorítás jön Amerikában?

A svájci UBS bank felvettette annak lehetőségét, hogy a beragadó infláció és az erős gazdaság akár további kamatemelésre is sarkallhatja a Fed-et. Erre azonban kicsi az esély, és a bank elemzői szerint jelenleg a két kamatcsökkentés a legvalószínűbb forgatókönyv az idei évre.
2024. 04. 16. 11:30
Megosztás:

Megállapodtak a bérekről az Audinál

Megállapodtak a bérekről az Audi Hungaria Zrt.-nél: a tárgyalódelegációk közötti egyhetes együttműködés után a szakszervezet hétfői bizalmi értekezlete elfogadta a mukaadóval közösen kidolgozott ajánlatot - tudatta az Audi Hungaria az MTI-vel.
2024. 04. 16. 11:00
Megosztás:

Gyengüléssel indítottak a vezető európai tőzsdék

Egy százalékot meghaladó mínuszban kezdték a kereskedést a főbb európai tőzsdék kedden.
2024. 04. 16. 10:30
Megosztás:

A városi költözés útmutatója: Tippek és trükkök a sima költözéshez

A városi költözés egy izgalmas, ugyanakkor kihívásokkal teli lépés az életünkben. Legyen szó új munkahelyről, iskoláról vagy egyszerűen csak egy új kezdetről, a sikeres áttelepülés kulcsa a megfelelő előkészítésben rejlik. Ebben a cikkben átfogó útmutatót nyújtunk arra vonatkozóan, hogyan tervezzük meg és hajtsuk végre zökkenőmentesen a városi költözést.
2024. 04. 16. 10:00
Megosztás:

Gyengülés az ázsiai tőzsdéken

Gyengültek az indexek az ázsiai tőzsdéken kedden.
2024. 04. 16. 09:30
Megosztás:

Alvó Ethereum (ETH) bálna éled fel évek után, 50 ezer dollárt fektet be egy 25X-es árfolyamú tőzsdei tokenbe, a DTX-be

Időnként egy korai szakaszban lévő Ethereum (ETH) befektető tárcája feléled. Történelmileg ezek a tárcák fantasztikus követési lehetőséget biztosítottak, mivel a tulajdonosok előrelátó módon részt vettek az Ethereum (ETH) projektben jóval azelőtt, hogy bárki megértette volna a kriptovalutákban rejlő értéknövekedést.
2024. 04. 16. 09:00
Megosztás:

Csökkenéssel indulhat a kereskedés a magyar tőzsdén is

Csökkenéssel indulhat a keddi kereskedés az Equilor Befektetési Zrt. szenior elemzője szerint. Hétfőn a Budapesti Értéktőzsde részvényindexe, a BUX 118,79 pontos, 0,18 százalékos emelkedéssel, 67 407,86 ponton zárt.
2024. 04. 16. 08:31
Megosztás:

Gyengült a forint reggel

Gyengült a forint árfolyama kedd reggel a hétfő esti jegyzéséhez képest a főbb devizákkal szemben a nemzetközi devizakereskedelemben.
2024. 04. 16. 08:00
Megosztás:

Indul a parkolóépítés Kaposváron

Parkolóépítési programot indít Kaposvár: az önkormányzat 4 milliárd forintból ezer parkolóhelyet alakít ki a somogyi vármegyeszékhelyen - adta hírül a polgármester a Facebook-oldalán.
2024. 04. 16. 07:30
Megosztás:

A 2024-ben robbanásra kész Top 3 kriptodeviza; KangaMoon, Gala és Sui

A kriptodeviza-piacot erős verseny jellemezi az új kriptodevizák részéről, amelyek egyedi jellemzőkkel rendelkeznek. Ezek a tulajdonságok és hatalmas potenciáljuk arra irányulnak, hogy megszerezzék a befektetők bizalmát és befolyásolják a piaci hangulatot. Évről évre egyre több új kriptoprojekt lép be a piacra, így a kriptobefektetőknek mindig nehézséget okoz a nagy potenciállal rendelkező legjobb kriptodevizák kiválasztása. A szakértők elemezték a piacot, és a KangaMoon (KANG), a Gala (GALA) és a Sui (SUI) kriptovalutákat választották ki, amelyek az év folyamán kiemelkedő emelkedésekre lehetnek képesek. Olvass tovább, hogy megtudd, miért ezek a legjobb kriptó befektetések most.
2024. 04. 16. 07:00
Megosztás:

AI-alapokra helyezte a casco-kötést követő járműszemlét az Allianz Hungária

2024 márciusa óta már az új, mesterséges intelligenciával vezérelt digitális gépjárműszemle segíti az Allianz Hungária ügyfeleit a casco-szerződésük megkötésének folyamata során. A casco így gyorsan, kényelmesen, akár teljes egészében az otthonunkból megköthető, míg a biztosítóoldali elbírálási folyamat két napon belül lezárulhat.
2024. 04. 16. 06:30
Megosztás: