Gemini képfelismerés: ezeket tudja, amikre nem számítottam

A Google DeepMind kutatásai szerint a Gemini Ultra modell a vizuális benchmarkok 90%-ában felülmúlja az emberi átlagot, ami alapjaiban írja felül a gépi látásról alkotott eddigi elképzeléseinket. Ez a technológiai ugrás nem csupán a pixelek felismerését jelenti, hanem a kontextuális összefüggések olyan mély szintű értelmezését, amely korábban elképzelhetetlen volt.

Gemini képfelismerés: ezeket tudja, amikre nem számítottam

Hogyan olvassa a Gemini a vizuális káoszt?

Néhány hete egy kaotikus fejlesztői brainstorming után lefotóztam a nyilakkal, félig letörölt kóddal és kusza jegyzetekkel teli fehértáblát. Bár kételkedtem benne, feltöltöttem a Gemini 1.5 Pro-ba, amely másodpercek alatt strukturált dokumentummá rendezte és sorrendbe állította a projekt mérföldköveit.

Ez a folyamat rávilágított arra, hogy a modell képességei messze túlmutatnak az egyszerű alakzatfelismerésen, hiszen a rendszer a következőket hajtotta végre:

- Felismerte a kézzel írt, gyakran elmosódott technikai rövidítéseket és kontextusba helyezte azokat.

- Értelmezte a nyilak irányát, és ebből egy koherens folyamatábrát vázolt fel a szoftveres architektúráról.

- Kiszűrte a táblán maradt irreleváns firkákat, amelyeket a korábbi megbeszélések során hagytunk ott.

- Logikai kapcsolatot teremtett a különböző színekkel írt megjegyzések és a fő folyamatok között.

- Javaslatot tett a vázlatban szereplő hiányzó lépésekre, kiegészítve a fejlesztési terv logikai réseit.

Döbbenetes volt látni, ahogy a neurális hálózat felismeri a kézírásos jegyzeteket és kontextusba helyezi azokat a korábbi szoftverarchitektúráról szóló beszélgetéseinkkel. Ez a szintű vizuális logika messze túlmutat a hagyományos optikai karakterfelismerés keretein, hiszen itt a szemantikai értelmezés dominált a puszta alakzatfelismerés felett. A rendszer nem csupán látott, hanem értett is, ami alapjaiban változtatja meg a napi munkafolyamatokat és az adatrögzítés módszertanát a modern irodai környezetben.

A natív multimodalitás technológiai háttere

A korábbi MI-modellek gyakran külön modulokból álltak, például egy látórendszerből és egy nyelvi modellből. A Google Gemini ezzel szemben natívan multimodális: betanításkor egyszerre dolgoz fel szöveget, képet, videót és hangot, és nem alakítja a képet szöveggé, hanem vizuális tokenekkel dolgozik. Transzformátor-alapja kiterjesztett figyelemmechanizmussal keresztreferenciákat hoz létre a vizuális elemek és a tudás között.

A technológia kifinomultságát jól jelzi, hogy a rendszer milyen módon kezeli a komplexitást:

- A pixeladatokat azonnal matematikai vektorokká alakítja, amelyek hordozzák a tárgyak tulajdonságait.

- Képes párhuzamosan elemezni több ezer képkockát egyetlen videofájlban a kontextus elvesztése nélkül.

- A kereszt-modális tanulás révén a szöveges instrukciókat közvetlenül a vizuális rétegeken hajtja végre.

- A nagy felbontású képek esetében képes a részletekre fókuszálni, miközben megtartja a globális rálátást.

- A modell belső súlyozása prioritást ad a környezeti tényezőknek, például a fényviszonyoknak vagy az árnyékoknak.

A digitális szórakoztatásban a grafikai megoldások elemzése kulcs a jó felhasználói élményhez. A Fiery Play kaszinó felületét vizsgálva az AI pontosan felismerte a kínálatot, játékokat ajánlott a személyes profilom alapján, és elmagyarázta a bónuszokat.

A videók elemzésének új dimenziója

Amikor egy videofájlt töltesz fel, a Gemini nem csupán képkockákat elemez, hanem értelmezi az időbeli eseménysorokat és az ok-okozati összefüggéseket is. Egy teszt során egy tízperces biztonsági kamerafelvételt mutattam neki, és megkértem, hogy keresse meg azt a pillanatot, amikor valaki elejtett egy kulcscsomót. A rendszer megjelölte az időkódot, sőt, még azt is leírta, hogy a tárgy a bal alsó sarokban lévő növény mögé pattant el a becsapódás után. Ez a mélységű elemzés radikálisan új kapukat nyit meg a tartalomgyártás és a biztonságtechnika területén egyaránt.

Kézírás és történelmi dokumentumok

A régi, nehezen olvasható kéziratok feldolgozása mindig is a történészek és levéltárosok számára okozott komoly fejtörést, de a Gemini itt is meglepő eredményeket produkál. Képes felismerni a kurzív írást, sőt, a tintafoltok vagy szakadások okozta hiányzó részeket is logikusan kiegészíti a környező szöveg alapján. Ez a funkció nemcsak a kutatást gyorsítja fel, hanem lehetővé teszi a kulturális örökség digitalizálását olyan hatékonysággal, amely korábban csak manuálisan volt lehetséges.

Teszteld te is a videós elemzést!

Sokan elfelejtik, hogy a képfelismerő képesség a hétköznapi problémamegoldásban is remek partner lehet, például egy elromlott háztartási gép megjavításakor vagy egy szobanövény betegségének azonosításakor. Elég egy rövid videót készítened a készülék belsejéről, miközben a motor furcsa hangot ad ki, és a Gemini képes beazonosítani a rezgő alkatrészt a vizuális minták alapján. Ez a fajta diagnosztikai segítség nem csupán időt takarít meg neked, hanem segít elkerülni a felesleges szervizköltségeket, amelyek gyakran több tízezer forintot is elérhetnek. A rendszer által adott pontos instrukciókkal te magad is elvégezheted az alapvető karbantartási feladatokat, csökkentve a háztartás ökológiai lábnyomát.

Modell verzió

Kontextus ablak

Képfeldolgozási sebesség

Logikai pontosság

Gemini 1.5 Flash

1 millió token

0.4 másodperc / kép

88%

Gemini 1.5 Pro

1 millió token

0.8 másodperc / kép

96%

Gemini 1.0 Ultra

32 ezer token

1.2 másodperc / kép

94%

Használd ki a Pro verzió adta lehetőségeket, ha komplex vizuális feladatok megoldása a célod a munkád során. A fejlesztők számára elérhető API-k segítségével ezek a funkciók beépíthetők saját alkalmazásokba is, ami forradalmasíthatja az e-kereskedelmet vagy az orvosi képalkotó rendszerek használatát. A vizuális bemenet és a szöveges instrukciók kombinálása olyan szinergiát hoz létre, amely korábban csak a sci-fi filmekben létezett.

Meglepő pontosság a geometria és logika területén

Egy bonyolult geometriai tankönyvi oldal fotóján a rendszer nemcsak megoldotta az egyenleteket, hanem lépésről lépésre levezette az ábrán látható összefüggéseket. A kopott jelölések és nem méretarányos rajz ellenére is felismerte a derékszögű háromszögek hasonlóságát, ami azt mutatja, hogy matematikai modelleket épít, nem pusztán mintákat másol.

A professzionális felhasználók számára a legizgalmasabb lehetőségek az alábbi pontokban foglalhatók össze:

- Kódgenerálás vizuális forrásból, például kézzel rajzolt weboldal vázlatok alapján azonnal.

- Bonyolult áramköri rajzok digitalizálása és szimulációs környezetbe való exportálása percek alatt.

- Statisztikai grafikonok adatainak kinyerése és azonnali szerkeszthető formátumba való konvertálása.

- Építészeti tervek elemzése a helyi szabályozásoknak való megfelelőség szempontjából automatizálva.

- Kémiai molekulaszerkezetek azonosítása és azok fizikai tulajdonságainak pontos előrejelzése.

Kezdj el már ma profitálni a Gemini újításaiból!

A tanulság egyértelmű: a vizuális tartalom már nem egy statikus adatpont az algoritmus számára, hanem egy dinamikus információforrás, amelyből logikai láncolatokat épít fel. A jövőben a látás és a gondolkodás közötti határvonal még tovább fog halványulni, és a gépek nemcsak segédeszközök, hanem valódi vizuális partnerek lesznek a mindennapi életben. Aki megtanulja hatékonyan kommunikálni a vizuális bemenetek és a szöveges kérések ötvözetét, az olyan versenyelőnyre tesz szert, amely a munkaerőpiac minden szegmensében felértékelődik majd.


Estek kedden az európai részvények, jelentősen javult a gazdasági hangulat Németországban

Az európai részvénypiacok kedden széles körű mínuszban zártak: a STOXX 600 index 1%-kal csökkent, miután az Egyesült Államok és Irán közötti békemegállapodásba vetett remények halványulása felhajtotta az olajárakat és rontotta a kockázatvállalási hangulatot.
2026. 05. 13. 09:00
Megosztás:

Vegyesen mozgott a forint szerda reggel

Vegyesen alakult a forint árfolyama a főbb devizákkal szemben szerda reggel a kedd esti jegyzéséhez képest a nemzetközi devizakereskedelemben.
2026. 05. 13. 08:30
Megosztás:

Ópusztaszeren lesz szerdán az első kormányülés

Kedd éjfélkor hivatalba lép a Tisza-kormány; szerdán 15 órától Ópusztaszeren tartják az első kormányülést - közölte Magyar Péter miniszterelnök kedd este a Facebook-oldalán.
2026. 05. 13. 08:00
Megosztás:

A Henkel jó organikus árbevétel-növekedést ért el 2026 első negyedévében

2026 első negyedévében a Henkel mintegy 5,0 milliárd euró csoportszintű árbevételt és stabil, 1,7 százalékos organikus növekedést ért el. A növekedéshez mindkét üzletág pozitív volumen- és áralakulással járult hozzá.
2026. 05. 13. 07:30
Megosztás:

A világ infrastrukturális beruházásai 2050-ig meghaladják a 150 billió dollárt

A globális infrastruktúra minden eddiginél intenzívebb beruházási ciklus előtt áll. A PwC Global Infrastructure Outlook elemzése szerint a következő 25 évben a beruházások volumene megduplázódik az elmúlt két évtizedhez képest: az éves kiadások a 2024-es 4,4 billió dollárról 2050-re 6,9 billió dollárra nőnek. Az országok világszerte a mesterséges intelligencia, az elektrifikáció és az urbanizáció igényeihez igazítva modernizálják közlekedési, energetikai és ipari rendszereiket.
2026. 05. 13. 07:00
Megosztás:

Komposztálható elektronikai hordozót fejlesztettek a BME kutatói

Sokkal környezetbarátabb és talán olcsóbb is lesz, mint a mai műanyag alkatrészek. Ha a piac rákap, pár év múlva ilyenekkel készülhetnek a háztartási gépeink.
2026. 05. 13. 06:30
Megosztás:

Újra jó évet zárt a Vatikáni Bank

Rekordévet teljesített tavaly az IOR vatikáni bank, amely 51 millió euróra növelte nyereségét - ismertette a tavalyi évre vonatkozó adatokat az olasz sajtó kedden.
2026. 05. 13. 06:00
Megosztás:

Európában az autópiaci tranzakciók 75%-a már a használt szegmensben történik

Az európai autóipar szerkezete az elmúlt években fokozatosan átalakult: miközben az újautó-szegmens továbbra is az egyik alapvető pillér, a működést egyre inkább a használtautó-szegmens határozza meg. A legfrissebb adatok szerint az autópiaci tranzakciók mintegy 75%-a ebben a szegmensben zajlik, és a háztartások 70–80%-a ezen keresztül jut járműhöz, így a méretében nagyobb és gyorsabban reagáló másodlagos piac ma már meghatározó szerepet játszik az európai autóvásárlási mintázatok alakulásában.
2026. 05. 13. 05:30
Megosztás:

Miért fordul el valaki egy korábban kedvelt márkától?

Bár a hazai vállalatok deklaráltan fontosnak tartják a meglévő ügyfélkört, a gyakorlatban kevés helyen működik tudatos, adatokkal alátámasztott ügyfélmegtartási stratégia. A cégek jelentős részénél hiányzik a mélyebb összefüggések megértése, a rendszerszintű elemzés vagy akár a személyre szabott kommunikációs módszer - derül ki a Nitro kutatásából.
2026. 05. 13. 05:00
Megosztás:

Több mint 2550 jogsértést állapított meg a Roadpol-ellenőrzés

A rendőrség 2552 esetben állapított meg jogsértést a tehergépkocsikra és autóbuszokra kiterjedő múlt heti országos ellenőrzésén - közölte az Országos Rendőr-főkapitányság (ORFK) Kommunikációs Szolgálata kedden a police.hu oldalon.
2026. 05. 13. 04:30
Megosztás:

Több ezer autókár nyáron: a parkoló járművek sincsenek biztonságban

Nyaranta mintegy 7 ezer gépjárműkárt jelentenek be a Groupama Biztosítóhoz, és ezek jelentős része parkolás közben történik. A társaság szerint a jégverés és a viharok miatti sérülések egy része tudatos felkészüléssel megelőzhető, ezért összegyűjtötték, mire érdemes figyelni már a szezon előtt.
2026. 05. 13. 04:00
Megosztás:

Meglepetés a műtárgypiacon: Szobotka Imre és Faragó Endre egy-egy remekműve is aukcióra kerül

Szobotka Imre és Faragó Endre műveinek felbukkanása igazi ritkaságnak számít, mert kevés festményük maradt fenn. Mellettük a XX. század két másik magyar festőlegendája, Aba-Novák Vilmos és Patkó Károly egy-egy tízmilliós képére is licitálhatnak az érdeklődők a Virág Judit Galéria soron következő árverésén. A nagyközönség még pár napig ingyenesen megtekintheti a műveket a galériában.
2026. 05. 13. 03:30
Megosztás:

Az Egis Gyógyszergyár lett a legvonzóbb munkáltató az élettudományok szektorban

A munkavállalók körében legnépszerűbb munkáltatói területek közé egyre erősebben zárkózik fel az élettudományi szektor, az Egis Gyógyszergyár Zrt. pedig a Randstad munkáltatói márkakutatásában az idén kiérdemelte a legvonzóbb munkahelyeknek járó elismerést.
2026. 05. 13. 03:00
Megosztás:

Dobhatod az összes sárga csekket a kukába! Új dolog jött helyette

Évtizedekig természetes volt, hogy a villany-, gáz-, víz-, telefon- vagy közös költség számlája mellé ott lapult a sárga csekk. Aztán jött a sorban állás, a postai nyitvatartás, a papírok gyűjtögetése, a befizetési határidő miatti kapkodás – és sokan csak megszokásból fizettek így tovább.
2026. 05. 13. 02:00
Megosztás:

Kibertámadási hullám sújtja Németországot

Tovább romlott a németországi kiberbiztonsági helyzet a német szövetségi bűnügyi hivatal (BKA) és a belügyminisztérium éves kiberbűnözési helyzetjelentése alapján.
2026. 05. 13. 01:00
Megosztás:

Ukrajna már júniusban megkapja a 90 milliárd eurós hitel első részletét

Ukrajna már júniusban megkapja a 90 milliárd eurós hitel első részletét, a pénzösszeg közvetlenül a drónok gyártásra és beszerzésére fog irányulni, amelyek jelenleg kulcsfontosságú képességet jelentenek az orosz erők visszaszorításában - közölte Kaja Kallas, az Európai Unió külügyi és biztonságpolitikai főképviselője Brüsszelben kedden.
2026. 05. 13. 00:30
Megosztás:

Lengyelország és Románia is szívesen befogadna amerikai katonákat

Lengyelország és Románia is szívesen befogadna még több amerikai katonát, amennyiben az Egyesült Államok valóban csökkentené katonai jelenlétét Németországban - hangoztatta kedd esti közös bukaresti sajtóértekezletén Karol Nawrocki lengyel és Nicusor Dan román államfő.
2026. 05. 13. 00:05
Megosztás:

Éles üzenet Madridból: a hiteles újságírás lehet a média szélsőségeinek ellenszere

A hírügynökségi munkát egyebek között az újságírás szélsőséges formái ellenszerének nevezte az EFE spanyol hírügynökség elnöke kedden Madridban, a III. Károly egyetem hírügynökségi mesterképzésének diplomaosztó ünnepségén.
2026. 05. 12. 23:30
Megosztás:

Történelmi Solana-frissítés éles teszten: elindult az Alpenglow konszenzusátállás

A Solana történetének eddigi legnagyobb konszenzusmechanizmus-frissítése fontos mérföldkőhöz érkezett. Az Alpenglow néven ismert fejlesztés már fut egy közösségi tesztklaszteren, ahol a validátorok valós hálózati környezetben próbálhatják ki az átállást a jelenlegi Proof-of-History és TowerBFT alapú rendszerről egy gyorsabb, modernebb architektúrára.
2026. 05. 12. 23:00
Megosztás:

Ethereum Clear Signing: új biztonsági szabvány védené a felhasználókat a rosszindulatú kriptotranzakcióktól

Az Ethereum Foundation és több vezető kriptotárca-fejlesztő új biztonsági megoldást vezet be, amely érthetőbbé tenné a tranzakciók jóváhagyását. A Clear Signing célja, hogy a felhasználók ne vakon írjanak alá veszélyes műveleteket, hanem pontosan lássák, milyen eszközöket mozgatnak, kinek küldenek pénzt, és milyen jogosultságokat adnak meg.
2026. 05. 12. 22:30
Megosztás: