Magyarország is bekapcsolódik a digitális nyelvi forradalomba a Mesterséges Intelligencia Nemzeti Laboratórium fejlesztésével

A SZTAKI által koordinált Mesterséges Intelligencia Nemzeti Laboratórium (MILAB) projekt keretében a Szegedi Tudományegyetem kutatói elkészítették, és szabadon hozzáférhetővé tették a HuSpaCy magyar nyelvi elemzőrendszert, amely már az iparban is használható erőforrásigénnyel és integrálhatósággal dolgozik. A rendszer a mesterséges intelligencia és nyelvtechnológia legújabb kutatási eredményeit ötvözi egy magyar szövegeket elemezni képes könnyen használható eszközzé.

Magyarország is bekapcsolódik a digitális nyelvi forradalomba a Mesterséges Intelligencia Nemzeti Laboratórium fejlesztésével

A magyar nyelvű szövegek mesterséges intelligencia alapú elemző algoritmusai körülbelül 2010-ig lépést tartottak a nagy világnyelvek digitális fejlődésében, aztán lemaradtunk: az új módszerek a sokak által beszélt nyelveknek kedveztek. Az elmúlt évtized áttörést hozott a nyelvtechnológiában, nemcsak a kutatásokban, hanem abban is, hogy az akadémiai eredmények eljutottak arra a technológiai érettségi szintre, hogy azok már ipari forgalomban is használhatóak. Ma már olyan – akár kisebb – cégek is képesek szövegelemzési problémák megoldására, amelyek nem rendelkeznek MI-szakértelemmel.

A most elkészült HuSpaCy rendszer ezen a területen tud segíteni: használatával egyszerűbb a magyar nyelvű szövegek nyelvtani és jelentéstani értelmezése.

„A kifejezetten magyar nyelvű szöveges tartalmak, mondatok előfeldolgozási eszközkészletét készítettük el. Erre azért van szükség, mert minden alkalmazás, ami valamilyen szöveggel kapcsolatos problémát akar megoldani, csupán nyers karaktersorozatokból még nem tud működni. Természetes nyelvi szövegeken működő algoritmusok emberek is által értelmezhető nyelvtani szimbólumokra építenek, így a HuSpaCy megfelelő alapul szolgálhat csetbotokhoz vagy akár email értelmező rendszerekhez is” – magyarázza Farkas Richárd, a Szegedi Tudományegyetem kutatója.

MI forradalom a nyelvtechnológiában

Az elmúlt évtizedben forradalom zajlott a mesterséges intelligencia kutatásában: a gépi tanulásos megoldásokon belül előre tört az úgynevezett mélytanulás (deep learning) módszere, ahol mesterséges neurális hálók képesek megtanulni, hogy mit hogy kell értelmezniük.

A ma használatos természetes nyelveket feldolgozó rendszerek nagy része így működik, azaz nem nyelvészek írnak szabályokat, hanem az ún. tanuló algoritmusok képesek mélyebb összefüggések, predikciók elsajátítására. Ilyen ismertebb mélytanulásos módszer például a BERT vagy az OpenAI GPT-3 algoritmusa.

Az ilyen rendszerekkel viszont van egy probléma: alapvetően fekete dobozként viselkednek. Működésük alig megfigyelhető, tehát még ha jó eredményt is adnak, akkor sem tudjuk, hogyan jutottak erre a következtetésre. Ebből következik, hogy nem is jól kontrollálhatók, ezért ipari alkalmazásokban sokszor csak korlátozottan használhatóak. Gondoljunk bele, hogy egy ilyen rendszer dönt arról, kaphatunk-e hitelt vagy sem. Napjaink angol nyelvet támogató célalkalmazásaiban is gyakran csak a szövegek előelemzésére használnak gépi tanulás alapú megoldásokat, hogy aztán ezek alapján az emberi szakértő által írt szabályok hozzák meg a végső döntést. Így egy-egy döntés átláthatóvá válik (pl. könnyen értelmezhető egy gépi hitelbírálat eredménye is), és kérdéses esetben az emberi szakértő akár meg is tudja változtatni a rendszer viselkedését.

A magyar nyelvű szövegelemző szoftverek fejlesztése nem ma kezdődött. A magyar kutatói közösség már a kétezres években elkezdte építeni a szükséges nyelvi adatbázisokat. Ezeket az adatbázisokat használták a HuSpaCy fejlesztői is, mint tanító adatbázis.

A HuSpaCy rendszer generációváltás: ötvözi a mély tanulási módszerek előnyeit a nyelvészeti elemzések interpretálhatóságával és kontrollálhatóságával. A rendszer képes mondatok teljes nyelvi elemzésére (szótő, szófajok, stb.) illetve névelemek (például személynevek, helységek) azonosítására is folyó szövegben. A HuSpaCy napjaink MI-eszközeiből építkezik: tartalmaz neurális nyelvi modelleket, amelyeket a felhasználó akár szövegek hasonlóságának vizsgálatára is használhat, de a fent említett nyelvtani elemző lépések is mind modern algoritmusokra épülnek.

“A HuSpaCy a spaCy keretrendszerbe illeszkedik, ami az elmúlt években kvázi nemzetközi sztenderddé vált Ezt az eszközt használják mind akadémiai és ipari projektekben a világ számos nyelvén és pontján. Így, minden a keretrendszerbe illeszkedő nyelv gyakorlatilag bekapcsolódik a digitális nyelvi forradalomba” - mondja Orosz György, a HuSpaCy projekt vezetője.

A most létrehozott HuSpaCy rendszer alapja lehet hangalapú vagy írásos csetbotoknak is (ilyeneket a Mesterséges Intelligencia Nemzeti Laboratóriumban is fejlesztenek), de hasznos lehet szövegkategorizálásra (például ügyfélszolgálatra beérkező panaszok automatikus leválogatására), információ kinyerésre és szövegek automatikus generálására is.

A rendszer ide kattintva kipróbálható.

A MILAB-ban futó egyéb nyelvtechnológiai projektek:

-    Hangalapú időpont-egyeztető chatbot: Mi lenne ha amikor telefonon felhívjuk a fodrászunkat, egy szerelőt, orvosunkat vagy éppen a nagyon elfoglalt barátunkat, hogy egy időpontot egyeztessünk, akkor egy robottal beszélgetve tudnánk egy mindkettőnknek megfelelő időpontot egyeztetni? A Szegedi Tudományegyetem és a Budapesti Műszaki Egyetem együttműködésben elkészítettük egy ilyen, magyarul beszélő, hangalapú  időpont-egyeztető robot kipróbálható demó változatát.

-    Szövegek érzelmi töltetének azonosítása: nagy mennyiségű szöveges tartalom (például szociális média) automatikus elemzése abból a szempontból, hogy milyen érzelmi töltetet (düh, szomorúság, öröm stb) fejez ki a közlő igen hasznos lehet marketing vagy szociológiai vizsgálatok szempontjából. Az ELKH  Társadalomtudományi Kutatóközpontban elkészültek tanító adatbázisok és elemzők magyar nyelvű szöveges tartalmak érzelmi töltet elemzésére.

-    Szerző- és beszélő azonosítás: A Nemzetbiztonsági Szakszolgálat munkatársainak munkájának támogatására elkészült egy rendszer, ami két szöveg összehasonlító elemzését végzi el, a szerzők nyelvhasználati, stilisztikai, helyesírási stb  szempontokból, ami például névtelen fenyegető levelek esetén támogatja a kriminalisztikai szakértők munkáját. Folyamatban van beszédhang alapján történő beszélő-azonosító rendszer fejlesztése is, ami például névtelen fenyegető betelefonálásoknál segít megállapítani, hogy ugyanaz-e a beszélő.

-    Gépi olvasás szövegértés: az iskolai olvasás szövegértési feladatok során a diákok elolvasnak egy szöveget és ez alapján kell kérdéseket megválaszolniuk. Egy olyan magyar nyelvű  tanító és benchmark adatbázist építettünk, aminek a célja, hogy egy gép mennyire képes ilyen

A Slothana mém érme 15 millió dollárt gyűjtött, még pár napig tart az előértékesítés

A Solana-alapú új és szenzációs, 420-barát mém érme projektje a Slothana (SLOTH), amely egy hónapig tartó előértékesítése alatt összesen 15 millió dollárt gyűjtött össze.
2024. 04. 25. 00:01
Megosztás:

Ismét csúcsra emelkedett a 30 éves jelzáloghitelek kamata az USA-ban

Az Egyesült Államokban november vége óta a legmagasabbra emelkedett a 30 éves jelzáloghitelek kamata az április 19-én záródott héten - ismertette az amerikai jelzáloghitelező bankok szövetsége (Mortgage Bankers Association of America - MBA) szerdán.
2024. 04. 24. 23:30
Megosztás:

Szigorítaná az építési szabályokat az ÉTDR

Az ÉTDR (építésügyi hatósági engedélyeztetési eljárásokat támogató elektronikus dokumentációs rendszer) működését szabályozó jogszabálytervezet az építési szabályok szigorítását szolgálja - közölte az Építési és Közlekedési Minisztérium szerdán az MTI-vel.
2024. 04. 24. 23:00
Megosztás:

Iskolai rosszullét miatt nyomoz a rendőrség

Ismeretlen tettes ellen indított nyomozást a rendőrség a XXIII. kerületi Török Flóris Általános Iskolában szerda reggel történt tömeges rosszullétek miatt, amelyek előtt szúrós szag terjengett az épületben - közölte a Budapesti Rendőr-főkapitányság (BRFK) az MTI megkeresésére szerdán.
2024. 04. 24. 22:30
Megosztás:

Brüsszel továbbra sem korlátozza az ukrán gabonabehozatalt

Az Európai Parlament kedden nagy többséggel megszavazta az ukrán mezőgazdasági termékek vámmentes importjának további egy évvel történő meghosszabbítását, tovább nehezítve ezzel az európai gazdák helyzetét. Ezzel a döntéssel a brüsszeli elit ismét bebizonyította, hogy számára fontosabbak Ukrajna érdekei, mint az európai gazdák boldogulása - hangsúlyozta Nagy István agrárminiszter a szaktárca közleményében, amelyet szerdán juttatott el az MTI-hez.
2024. 04. 24. 22:00
Megosztás:

Figyelmeztetést kapott a repohár-forgalmazó Cup Revolution

Figyelmeztette és megfelelésre kötelezte a Gazdasági Versenyhivatal (GVH) az egyik legnagyobb hazai repohár-forgalmazó vállalkozást, a Cup Revolution Kft.-t, mert a cég megtévesztő módon kommunikált a poharak, illetve a visszaváltási rendszer környezetre gyakorolt hatásairól a fogyasztók számára - közölte a Gazdasági Versenyhivatal Közszolgálati Kommunikációs Iroda szerdán közleményben az MTI-vel.
2024. 04. 24. 21:30
Megosztás:

Februárban nőtt a bruttó átlagkereset

2024. februárban a teljes munkaidőben alkalmazásban állók bruttó átlagkeresete 605 400, a kedvezmények figyelembevételével számolt nettó átlagkereset 417 100 forint volt. A bruttó átlagkereset 14,0, a nettó átlagkereset 13,8, a reálkereset pedig 9,9 százalékkal nőtt az egy évvel korábbihoz képest a fogyasztói árak 3,7 százalékos növekedése mellett - jelentette szerdán a Központi Statisztikai Hivatal (KSH).
2024. 04. 24. 21:00
Megosztás:

Nagyot nőtt a Spar árbevétele tavaly

A Spar Magyarország 1023,2 milliárd forint bruttó árbevételt ért el 2023-ban, 15,8 százalékkal többet az előző évinél, az eladott termékek mennyiségében ugyanakkor éves szinten mintegy 4 százalékos volt a csökkenés tavaly - mondta a vállalat elnök-ügyvezetője szerdán Budapesten, a cég évértékelő sajtótájékoztatóján.
2024. 04. 24. 20:30
Megosztás:

Nem fizet osztalékot az MBH Jelzálogbank

Az MBH Jelzálogbank teljes egészében az eredménytartalékba helyezi a tavalyi 6,66 milliárd forint adózott eredményt - így döntöttek a részvényesek a Budapesti Értéktőzsde Prémium (BÉT) prémium kategóriájában jegyzett hitelintézet szerdai éves rendes közgyűlésén.
2024. 04. 24. 20:00
Megosztás:

Emelkedett a 6 hónapos diszkont kincstárjegy aukciós átlaghozama

Hozamemelkedés mellett értékesített 6 hónapos diszkont kincstárjegyet szerdai aukcióján az Államadósság Kezelő Központ (ÁKK).
2024. 04. 24. 19:30
Megosztás:

Mínuszban zártak a vezető nyugat-európai tőzsdék

Gyengüléssel zárták a kereskedést a vezető nyugat-európai tőzsdék szerdán.
2024. 04. 24. 19:00
Megosztás:

BÉT - A Richter és a Mol húzta a tőzsdét

A Budapesti Értéktőzsde részvényindexe, a BUX 437,29 pontos, 0,66 százalékos emelkedéssel, 66 376,55 ponton zárt szerdán.
2024. 04. 24. 18:30
Megosztás:

Több száz mikro-, kis- és közepes vállalkozás részesül kapacitásbővítő támogatásban

A mikro-, kis- és közepes vállalkozásokat célzó kapacitásbővítő támogatásra 566-an pályáztak sikeresen, az idén januárban indult program keretösszege 6,5 milliárd forint - mondta a Nemzetgazdasági Minisztérium foglalkoztatáspolitikáért felelős államtitkára szerdán Budapesten sajtótájékoztatón.
2024. 04. 24. 18:00
Megosztás:

Bővült a hazai lakáshitel-állomány

A lakáshitel-állomány tavaly az állami támogatású hitelezés hatására bővült. 2023 év végén az államilag támogatott lakáshitelek állománya 7,1, a támogatás nélkülieké 0,3 százalékkal haladta meg az előző év végit - állapította meg legfrissebb elemzésében a Központi Statisztikai Hivatal (KSH).
2024. 04. 24. 17:30
Megosztás:

Letelepszik nálunk a Fiberhome

A kínai Fiberhome Magyarországon hozza létre legnagyobb európai bázisát, ahol optikai kábeleket fog gyártani, a nyolcmilliárd forintos beruházás nagyjából 150 új munkahelyet teremthet - közölte a tárca tájékoztatása szerint Szijjártó Péter külgazdasági és külügyminiszter szerdán Pekingben.
2024. 04. 24. 17:00
Megosztás:

Bírságot kapott az Erste Befektetési Zrt.

A Magyar Nemzeti Bank (MNB) 15 millió forint bírságot szabott ki az Erste Befektetési Zrt.-re az ügyfelek alkalmasságának értékelése, az ügyfélkommunikáció rögzítése, kiszervezések, javadalmazás, IT sérülékenységvizsgálat és a panaszkezelés terén feltárt hiányosságok miatt - közölte a jegybank szerdán az MTI-vel.
2024. 04. 24. 16:30
Megosztás:

Javult az ifo németországi üzleti hangulatindexe áprilisban

Az elemzők által vártnál nagyobb mértékben javult a müncheni egyetem ifo gazdaságkutató intézetének németországi üzleti hangulatindexe áprilisban.
2024. 04. 24. 16:00
Megosztás:

Csúcsot döntöttek a Volvo Cars eladásai az első negyedévben

A kínai többségi tulajdonú Volvo Cars a közös és társult vállalkozásokat nem számítva 6,8 milliárd svéd korona (230,86 milliárd forint) működési bevételre tett szert az idei első negyedévben, ami 8 százalékos növekedés az előző év azonos időszakához képest - derül ki a cég honlapjára szerdán feltöltött adatokból.
2024. 04. 24. 15:30
Megosztás:

Primark az Arena Mall-ban nyitja meg első magyarországi üzletét

Bejelentette első magyarországi üzletének nyitási időpontját a Primark. A nemzetközi divatáruház várva várt üzlete Budapesten, a város egyik legnagyobb bevásárlóközpontjában, az Arena Mallban kap helyet, és május 28-án, kedden 10 órakor nyitja meg kapuit a vásárlók előtt. A nyitás mintegy 180 munkahelyet teremt Magyarországon.
2024. 04. 24. 15:00
Megosztás:

Éves csúcsok közelében a brit gazdaság

Jelentős emelkedéssel csaknem egyévi csúcson járnak a brit gazdaság friss aktivitási mérőszámai, bár ez szinte kizárólag a szolgáltatási ágazat erőteljes teljesítményének eredménye.
2024. 04. 24. 14:30
Megosztás: