Magyarország is bekapcsolódik a digitális nyelvi forradalomba a Mesterséges Intelligencia Nemzeti Laboratórium fejlesztésével

A SZTAKI által koordinált Mesterséges Intelligencia Nemzeti Laboratórium (MILAB) projekt keretében a Szegedi Tudományegyetem kutatói elkészítették, és szabadon hozzáférhetővé tették a HuSpaCy magyar nyelvi elemzőrendszert, amely már az iparban is használható erőforrásigénnyel és integrálhatósággal dolgozik. A rendszer a mesterséges intelligencia és nyelvtechnológia legújabb kutatási eredményeit ötvözi egy magyar szövegeket elemezni képes könnyen használható eszközzé.

Magyarország is bekapcsolódik a digitális nyelvi forradalomba a Mesterséges Intelligencia Nemzeti Laboratórium fejlesztésével

A magyar nyelvű szövegek mesterséges intelligencia alapú elemző algoritmusai körülbelül 2010-ig lépést tartottak a nagy világnyelvek digitális fejlődésében, aztán lemaradtunk: az új módszerek a sokak által beszélt nyelveknek kedveztek. Az elmúlt évtized áttörést hozott a nyelvtechnológiában, nemcsak a kutatásokban, hanem abban is, hogy az akadémiai eredmények eljutottak arra a technológiai érettségi szintre, hogy azok már ipari forgalomban is használhatóak. Ma már olyan – akár kisebb – cégek is képesek szövegelemzési problémák megoldására, amelyek nem rendelkeznek MI-szakértelemmel.

A most elkészült HuSpaCy rendszer ezen a területen tud segíteni: használatával egyszerűbb a magyar nyelvű szövegek nyelvtani és jelentéstani értelmezése.

„A kifejezetten magyar nyelvű szöveges tartalmak, mondatok előfeldolgozási eszközkészletét készítettük el. Erre azért van szükség, mert minden alkalmazás, ami valamilyen szöveggel kapcsolatos problémát akar megoldani, csupán nyers karaktersorozatokból még nem tud működni. Természetes nyelvi szövegeken működő algoritmusok emberek is által értelmezhető nyelvtani szimbólumokra építenek, így a HuSpaCy megfelelő alapul szolgálhat csetbotokhoz vagy akár email értelmező rendszerekhez is” – magyarázza Farkas Richárd, a Szegedi Tudományegyetem kutatója.

MI forradalom a nyelvtechnológiában

Az elmúlt évtizedben forradalom zajlott a mesterséges intelligencia kutatásában: a gépi tanulásos megoldásokon belül előre tört az úgynevezett mélytanulás (deep learning) módszere, ahol mesterséges neurális hálók képesek megtanulni, hogy mit hogy kell értelmezniük.

A ma használatos természetes nyelveket feldolgozó rendszerek nagy része így működik, azaz nem nyelvészek írnak szabályokat, hanem az ún. tanuló algoritmusok képesek mélyebb összefüggések, predikciók elsajátítására. Ilyen ismertebb mélytanulásos módszer például a BERT vagy az OpenAI GPT-3 algoritmusa.

Az ilyen rendszerekkel viszont van egy probléma: alapvetően fekete dobozként viselkednek. Működésük alig megfigyelhető, tehát még ha jó eredményt is adnak, akkor sem tudjuk, hogyan jutottak erre a következtetésre. Ebből következik, hogy nem is jól kontrollálhatók, ezért ipari alkalmazásokban sokszor csak korlátozottan használhatóak. Gondoljunk bele, hogy egy ilyen rendszer dönt arról, kaphatunk-e hitelt vagy sem. Napjaink angol nyelvet támogató célalkalmazásaiban is gyakran csak a szövegek előelemzésére használnak gépi tanulás alapú megoldásokat, hogy aztán ezek alapján az emberi szakértő által írt szabályok hozzák meg a végső döntést. Így egy-egy döntés átláthatóvá válik (pl. könnyen értelmezhető egy gépi hitelbírálat eredménye is), és kérdéses esetben az emberi szakértő akár meg is tudja változtatni a rendszer viselkedését.

A magyar nyelvű szövegelemző szoftverek fejlesztése nem ma kezdődött. A magyar kutatói közösség már a kétezres években elkezdte építeni a szükséges nyelvi adatbázisokat. Ezeket az adatbázisokat használták a HuSpaCy fejlesztői is, mint tanító adatbázis.

A HuSpaCy rendszer generációváltás: ötvözi a mély tanulási módszerek előnyeit a nyelvészeti elemzések interpretálhatóságával és kontrollálhatóságával. A rendszer képes mondatok teljes nyelvi elemzésére (szótő, szófajok, stb.) illetve névelemek (például személynevek, helységek) azonosítására is folyó szövegben. A HuSpaCy napjaink MI-eszközeiből építkezik: tartalmaz neurális nyelvi modelleket, amelyeket a felhasználó akár szövegek hasonlóságának vizsgálatára is használhat, de a fent említett nyelvtani elemző lépések is mind modern algoritmusokra épülnek.

“A HuSpaCy a spaCy keretrendszerbe illeszkedik, ami az elmúlt években kvázi nemzetközi sztenderddé vált Ezt az eszközt használják mind akadémiai és ipari projektekben a világ számos nyelvén és pontján. Így, minden a keretrendszerbe illeszkedő nyelv gyakorlatilag bekapcsolódik a digitális nyelvi forradalomba” - mondja Orosz György, a HuSpaCy projekt vezetője.

A most létrehozott HuSpaCy rendszer alapja lehet hangalapú vagy írásos csetbotoknak is (ilyeneket a Mesterséges Intelligencia Nemzeti Laboratóriumban is fejlesztenek), de hasznos lehet szövegkategorizálásra (például ügyfélszolgálatra beérkező panaszok automatikus leválogatására), információ kinyerésre és szövegek automatikus generálására is.

A rendszer ide kattintva kipróbálható.

A MILAB-ban futó egyéb nyelvtechnológiai projektek:

-    Hangalapú időpont-egyeztető chatbot: Mi lenne ha amikor telefonon felhívjuk a fodrászunkat, egy szerelőt, orvosunkat vagy éppen a nagyon elfoglalt barátunkat, hogy egy időpontot egyeztessünk, akkor egy robottal beszélgetve tudnánk egy mindkettőnknek megfelelő időpontot egyeztetni? A Szegedi Tudományegyetem és a Budapesti Műszaki Egyetem együttműködésben elkészítettük egy ilyen, magyarul beszélő, hangalapú  időpont-egyeztető robot kipróbálható demó változatát.

-    Szövegek érzelmi töltetének azonosítása: nagy mennyiségű szöveges tartalom (például szociális média) automatikus elemzése abból a szempontból, hogy milyen érzelmi töltetet (düh, szomorúság, öröm stb) fejez ki a közlő igen hasznos lehet marketing vagy szociológiai vizsgálatok szempontjából. Az ELKH  Társadalomtudományi Kutatóközpontban elkészültek tanító adatbázisok és elemzők magyar nyelvű szöveges tartalmak érzelmi töltet elemzésére.

-    Szerző- és beszélő azonosítás: A Nemzetbiztonsági Szakszolgálat munkatársainak munkájának támogatására elkészült egy rendszer, ami két szöveg összehasonlító elemzését végzi el, a szerzők nyelvhasználati, stilisztikai, helyesírási stb  szempontokból, ami például névtelen fenyegető levelek esetén támogatja a kriminalisztikai szakértők munkáját. Folyamatban van beszédhang alapján történő beszélő-azonosító rendszer fejlesztése is, ami például névtelen fenyegető betelefonálásoknál segít megállapítani, hogy ugyanaz-e a beszélő.

-    Gépi olvasás szövegértés: az iskolai olvasás szövegértési feladatok során a diákok elolvasnak egy szöveget és ez alapján kell kérdéseket megválaszolniuk. Egy olyan magyar nyelvű  tanító és benchmark adatbázist építettünk, aminek a célja, hogy egy gép mennyire képes ilyen

Budapesten 148-250 ezer forint között mozognak a legkedvezőbb bérleti díjak

A fővárosban 148-250 ezer forint között mozognak a legkedvezőbb havi bérleti díjak, amelyek például a IX., a XI., és a XVII. kerületben találhatóak, a vidéki egyetemvárosok piacán pedig 90 és 195 ezer forint között érhetőek el a legolcsóbb albérletek - közölte saját adatai alapján az ingatlan.com szerdán az MTI-vel.
2024. 07. 27. 02:00
Megosztás:

Minimálbér 2025 - 12%-os emelés után mennyi lesz a minimálbér?

2025 lehet az a fordulópont, ahol a minimálbér átlépheti a 300 ezer forintos lélektani határt.
2024. 07. 27. 01:00
Megosztás:

A legjobb mém érmék, amelyeket mindenképp nézz meg augusztusban

A nap még mindig éget, a mém érmék pedig még mindig dübörögnek. Ahogy közeledik a nyár utolsó hónapja, úgy nő egyre inkább egy esetleges bika futam esélye. A kripto térben mindig találni felkapott tokeneket, a mém érmék pedig különösen jól teljesítenek idén. Hoztunk is négy olyan mém érme előértékesítést, amelyek nagyot mehetnek a közelgő tőzsdei listázás után.
2024. 07. 27. 00:01
Megosztás:

Shiba Inu (SHIB) és Dogwifhat (WIF) lemarad a mémérme versenyben; a Minotaurus ($MTAUR) előértékesítése felpörög

A Shiba Inu (SHIB) és a Dogwifhat (WIF) lemarad a mémérme versenyben ezen a héten. A tokenek forgalomból való kivonása és a legutóbbi eredmények ellenére a Shiba Inu (SHIB) értéke 10%-kal csökkent. A Dogwifhat (WIF) is küzd; át kell törnie az ellenállási szinteket, hogy megállítsa a zuhanást.
2024. 07. 26. 23:20
Megosztás:

A Harro Höfliger GmbH felvásárolta a Manz AG debreceni leányvállalatát

A főként gyógyszeripari és orvostechnológiai gépeket gyártó dél-németországi Harro Höfliger vállalat nyolcmillió euróért megvásárolta a Manz AG magyarországi leányvállalatát, a debreceni Manz Hungary Kft.-t; erről szerdán Debrecenben írták alá a megállapodást a két német cég vezetői.
2024. 07. 26. 22:00
Megosztás:

Több mint ötven fürdőben lesz Strandok éjszakája szombaton

A Magyar Fürdőszövetség kezdeményezésére az idén is megrendezik július 27-én a Strandok éjszakáját, az országos rendezvényhez már 60 fürdő csatlakozott az ország minden részéből.
2024. 07. 26. 21:00
Megosztás:

Nyereséges zárás az európai tőzsdéken

Vegyes kezdésből nyereségbe fordultak zárásra pénteken a főbb európai értékpapírpiacok árfolyamindexei.
2024. 07. 26. 20:00
Megosztás:

Emelkedett a BUX

A Budapesti Értéktőzsde (BÉT) részvényindexe, a BUX 428,81 pontos, 0,59 százalékos emelkedéssel 73 174,10 ponton zárt pénteken.
2024. 07. 26. 18:10
Megosztás:

Csökkent az LVMH nyeresége és bevétele az idei első fél évben

A világ legnagyobb luxuscikk-gyártójának számító LVMH Moet Hennessy Louis Vuitton SA nyeresége 14 százalékkal, a bevétele pedig 1 százalékkal csökkent az idei első fél évben a tavalyi azonos időszakkal összevetve.
2024. 07. 26. 17:00
Megosztás:

Az építőipar megújulásához kell az egyetemek és a szakma fokozottabb együttműködése

Az építőipar megújulásához az ágazat számára mérnökképzést végző egyetemi karok, a kormányzat és az építőipari vállalkozások szorosabb együttműködése is szükséges. Az ÉVOSZ nyolc hazai egyetemmel készít elő koordinált együttműködést az Építési és Közlekedési Minisztérium (ÉKM) és a Kulturális és Innovációs Minisztérium (KIM) támogatásával. Az egyetemek nyitottak az oktatott tananyagok fejlesztésére és a gyakorlati képzés közös megszervezésére - közölte az Építési Vállalkozók Országos Szakszövetsége (ÉVOSZ) szerdán az MTI-vel.
2024. 07. 26. 16:00
Megosztás:

A nukleáris ipar, a napenergia-ipar és az autóipari átállás a növekedés három fő pillére

A nukleáris ipar, a napenergia-ipar és az autóipar átállása a három fő pillére Magyarország hosszútávú gazdasági növekedésének, amelyek mind a kormány azon vállalásából fakadnak, hogy hazánk 2050-re karbonsemlegessé váljon - közölte Szijjártó Péter külgazdasági és külügyminiszter szerdán Bukarestben.
2024. 07. 26. 15:00
Megosztás:

Májusban több mint tíz százalékkal nőttek a reálbérek

A célzott és hatékony kormányzati lépések hatására az infláció töretlenül alacsony, ennek eredményeként 2023. szeptembere óta, tehát már 9 hónapja folyamatosan nőnek a reálbérek, májusban 10,4 százalékkal emelkedett a fizetések vásárlóereje - állapította meg Czomba Sándor, a Nemzetgazdasági Minisztérium (NGM) foglalkoztatáspolitikáért felelős államtitkára szerdán a legfrissebb kereseti adatokat értékelve.
2024. 07. 26. 14:00
Megosztás:

Javult a GfK augusztusra vonatkozó német fogyasztói hangulatindexe

Az elemzők által vártnál erőteljesebben javult a nürnbergi GfK gazdaságkutató intézet augusztusra vonatkozó német fogyasztói hangulatindexe.
2024. 07. 26. 13:00
Megosztás:

Nőtt a bruttó átlagkereset idén májusban az egy évvel korábbihoz képest

Idén májusban a teljes munkaidőben alkalmazásban állók bruttó átlagkeresete 652 000 forint, a kedvezmények figyelembevételével számolt nettó átlagkereset 448 700 forint volt. A bruttó átlagkereset 14,8, a nettó átlagkereset 14,6, a reálkereset pedig 10,4 százalékkal nőtt az egy évvel korábbihoz képest - jelentette szerdán a Központi Statisztikai Hivatal (KSH).
2024. 07. 26. 12:00
Megosztás:

Nagyon durva átverés terjed, száznál több ügyfél nevében félmilliárd forint hitelt vettek fel a csalók

Már több százszor igényeltek gyanútlan banki ügyfelek nevében személyi kölcsönt kiberbűnözők Magyarországon. A pénzintézetek a kísérletek egy részét időben észlelték, de száznál is több ügyfélnek nemcsak a számláját nullázták le a csalók, hanem még átlagosan négymillió forintos adósságba is belevitték őket - írja a Bank360.hu.
2024. 07. 26. 11:00
Megosztás:

Bitcoin ETF jelentése: Mi az a Bitcoin ETF?

A kriptovaluták világában a Bitcoin (BTC) az egyik legismertebb és legfontosabb digitális eszköz. Azonban sokan még mindig nem értik teljesen, hogy mi az a Bitcoin, és még kevésbé, hogy mi az a Bitcoin ETF. Ennek a cikknek a célja, hogy érthetően bemutassa a Bitcoin és a Bitcoin ETF fogalmát, azok működését, valamint a piacon lévő legnagyobb Bitcoin ETF-eket.
2024. 07. 26. 10:30
Megosztás:

Vegyesen nyitottak a vezető nyugat-európai tőzsdék

Vegyesen indítottak a vezető nyugat-európai tőzsdék pénteken. A londoni FTSE100 index 0,47 százalékkal erősödött, a frankfurti DAX-30 index 0,34 százalékkal gyengült, a párizsi CAC-40 index pedig 0,19 százalékkal emelkedett a kereskedés kezdetén.
2024. 07. 26. 10:00
Megosztás:

Iránykereséssel nyithat a tőzsde

Iránykereséssel nyithat pénteken a Budapesti Értéktőzsde (BÉT) az Equilor Befektetési Zrt. szenior elemzője szerint.
2024. 07. 26. 09:00
Megosztás:

Erősödött a forint

Erősödött a forint a főbb devizákkal szemben péntek reggel a csütörtök kora esti jegyzésekhez képest a nemzetközi bankközi devizapiacon.
2024. 07. 26. 08:00
Megosztás:

Romániában indít digitális szolgáltatást a Gránit Bank

Elsőként a román piacra lép be a Gránit Bank, amely várhatóan még a harmadik negyedévétől első magyarországi bankként nyújt majd határon átnyúló, úgynevezett cross border szolgáltatást. A román piacra kifejlesztett, háromnyelvű applikáción keresztül szelfivel nyithatnak majd az ügyfelek lej- és devizaszámlát és válthatnak kedvező árfolyamon devizát - jelentette be az MTI-hez szerdán eljuttatott közleményében a pénzintézet.
2024. 07. 26. 07:00
Megosztás: