Gemini képfelismerés: ezeket tudja, amikre nem számítottam

A Google DeepMind kutatásai szerint a Gemini Ultra modell a vizuális benchmarkok 90%-ában felülmúlja az emberi átlagot, ami alapjaiban írja felül a gépi látásról alkotott eddigi elképzeléseinket. Ez a technológiai ugrás nem csupán a pixelek felismerését jelenti, hanem a kontextuális összefüggések olyan mély szintű értelmezését, amely korábban elképzelhetetlen volt.

Gemini képfelismerés: ezeket tudja, amikre nem számítottam

Hogyan olvassa a Gemini a vizuális káoszt?

Néhány hete egy kaotikus fejlesztői brainstorming után lefotóztam a nyilakkal, félig letörölt kóddal és kusza jegyzetekkel teli fehértáblát. Bár kételkedtem benne, feltöltöttem a Gemini 1.5 Pro-ba, amely másodpercek alatt strukturált dokumentummá rendezte és sorrendbe állította a projekt mérföldköveit.

Ez a folyamat rávilágított arra, hogy a modell képességei messze túlmutatnak az egyszerű alakzatfelismerésen, hiszen a rendszer a következőket hajtotta végre:

- Felismerte a kézzel írt, gyakran elmosódott technikai rövidítéseket és kontextusba helyezte azokat.

- Értelmezte a nyilak irányát, és ebből egy koherens folyamatábrát vázolt fel a szoftveres architektúráról.

- Kiszűrte a táblán maradt irreleváns firkákat, amelyeket a korábbi megbeszélések során hagytunk ott.

- Logikai kapcsolatot teremtett a különböző színekkel írt megjegyzések és a fő folyamatok között.

- Javaslatot tett a vázlatban szereplő hiányzó lépésekre, kiegészítve a fejlesztési terv logikai réseit.

Döbbenetes volt látni, ahogy a neurális hálózat felismeri a kézírásos jegyzeteket és kontextusba helyezi azokat a korábbi szoftverarchitektúráról szóló beszélgetéseinkkel. Ez a szintű vizuális logika messze túlmutat a hagyományos optikai karakterfelismerés keretein, hiszen itt a szemantikai értelmezés dominált a puszta alakzatfelismerés felett. A rendszer nem csupán látott, hanem értett is, ami alapjaiban változtatja meg a napi munkafolyamatokat és az adatrögzítés módszertanát a modern irodai környezetben.

A natív multimodalitás technológiai háttere

A korábbi MI-modellek gyakran külön modulokból álltak, például egy látórendszerből és egy nyelvi modellből. A Google Gemini ezzel szemben natívan multimodális: betanításkor egyszerre dolgoz fel szöveget, képet, videót és hangot, és nem alakítja a képet szöveggé, hanem vizuális tokenekkel dolgozik. Transzformátor-alapja kiterjesztett figyelemmechanizmussal keresztreferenciákat hoz létre a vizuális elemek és a tudás között.

A technológia kifinomultságát jól jelzi, hogy a rendszer milyen módon kezeli a komplexitást:

- A pixeladatokat azonnal matematikai vektorokká alakítja, amelyek hordozzák a tárgyak tulajdonságait.

- Képes párhuzamosan elemezni több ezer képkockát egyetlen videofájlban a kontextus elvesztése nélkül.

- A kereszt-modális tanulás révén a szöveges instrukciókat közvetlenül a vizuális rétegeken hajtja végre.

- A nagy felbontású képek esetében képes a részletekre fókuszálni, miközben megtartja a globális rálátást.

- A modell belső súlyozása prioritást ad a környezeti tényezőknek, például a fényviszonyoknak vagy az árnyékoknak.

A digitális szórakoztatásban a grafikai megoldások elemzése kulcs a jó felhasználói élményhez. A Fiery Play kaszinó felületét vizsgálva az AI pontosan felismerte a kínálatot, játékokat ajánlott a személyes profilom alapján, és elmagyarázta a bónuszokat.

A videók elemzésének új dimenziója

Amikor egy videofájlt töltesz fel, a Gemini nem csupán képkockákat elemez, hanem értelmezi az időbeli eseménysorokat és az ok-okozati összefüggéseket is. Egy teszt során egy tízperces biztonsági kamerafelvételt mutattam neki, és megkértem, hogy keresse meg azt a pillanatot, amikor valaki elejtett egy kulcscsomót. A rendszer megjelölte az időkódot, sőt, még azt is leírta, hogy a tárgy a bal alsó sarokban lévő növény mögé pattant el a becsapódás után. Ez a mélységű elemzés radikálisan új kapukat nyit meg a tartalomgyártás és a biztonságtechnika területén egyaránt.

Kézírás és történelmi dokumentumok

A régi, nehezen olvasható kéziratok feldolgozása mindig is a történészek és levéltárosok számára okozott komoly fejtörést, de a Gemini itt is meglepő eredményeket produkál. Képes felismerni a kurzív írást, sőt, a tintafoltok vagy szakadások okozta hiányzó részeket is logikusan kiegészíti a környező szöveg alapján. Ez a funkció nemcsak a kutatást gyorsítja fel, hanem lehetővé teszi a kulturális örökség digitalizálását olyan hatékonysággal, amely korábban csak manuálisan volt lehetséges.

Teszteld te is a videós elemzést!

Sokan elfelejtik, hogy a képfelismerő képesség a hétköznapi problémamegoldásban is remek partner lehet, például egy elromlott háztartási gép megjavításakor vagy egy szobanövény betegségének azonosításakor. Elég egy rövid videót készítened a készülék belsejéről, miközben a motor furcsa hangot ad ki, és a Gemini képes beazonosítani a rezgő alkatrészt a vizuális minták alapján. Ez a fajta diagnosztikai segítség nem csupán időt takarít meg neked, hanem segít elkerülni a felesleges szervizköltségeket, amelyek gyakran több tízezer forintot is elérhetnek. A rendszer által adott pontos instrukciókkal te magad is elvégezheted az alapvető karbantartási feladatokat, csökkentve a háztartás ökológiai lábnyomát.

Modell verzió

Kontextus ablak

Képfeldolgozási sebesség

Logikai pontosság

Gemini 1.5 Flash

1 millió token

0.4 másodperc / kép

88%

Gemini 1.5 Pro

1 millió token

0.8 másodperc / kép

96%

Gemini 1.0 Ultra

32 ezer token

1.2 másodperc / kép

94%

Használd ki a Pro verzió adta lehetőségeket, ha komplex vizuális feladatok megoldása a célod a munkád során. A fejlesztők számára elérhető API-k segítségével ezek a funkciók beépíthetők saját alkalmazásokba is, ami forradalmasíthatja az e-kereskedelmet vagy az orvosi képalkotó rendszerek használatát. A vizuális bemenet és a szöveges instrukciók kombinálása olyan szinergiát hoz létre, amely korábban csak a sci-fi filmekben létezett.

Meglepő pontosság a geometria és logika területén

Egy bonyolult geometriai tankönyvi oldal fotóján a rendszer nemcsak megoldotta az egyenleteket, hanem lépésről lépésre levezette az ábrán látható összefüggéseket. A kopott jelölések és nem méretarányos rajz ellenére is felismerte a derékszögű háromszögek hasonlóságát, ami azt mutatja, hogy matematikai modelleket épít, nem pusztán mintákat másol.

A professzionális felhasználók számára a legizgalmasabb lehetőségek az alábbi pontokban foglalhatók össze:

- Kódgenerálás vizuális forrásból, például kézzel rajzolt weboldal vázlatok alapján azonnal.

- Bonyolult áramköri rajzok digitalizálása és szimulációs környezetbe való exportálása percek alatt.

- Statisztikai grafikonok adatainak kinyerése és azonnali szerkeszthető formátumba való konvertálása.

- Építészeti tervek elemzése a helyi szabályozásoknak való megfelelőség szempontjából automatizálva.

- Kémiai molekulaszerkezetek azonosítása és azok fizikai tulajdonságainak pontos előrejelzése.

Kezdj el már ma profitálni a Gemini újításaiból!

A tanulság egyértelmű: a vizuális tartalom már nem egy statikus adatpont az algoritmus számára, hanem egy dinamikus információforrás, amelyből logikai láncolatokat épít fel. A jövőben a látás és a gondolkodás közötti határvonal még tovább fog halványulni, és a gépek nemcsak segédeszközök, hanem valódi vizuális partnerek lesznek a mindennapi életben. Aki megtanulja hatékonyan kommunikálni a vizuális bemenetek és a szöveges kérések ötvözetét, az olyan versenyelőnyre tesz szert, amely a munkaerőpiac minden szegmensében felértékelődik majd.


Ezekkel a számokkal nyerhettél a hatos lottón!

A Szerencsejáték Zrt. tájékoztatása szerint a 24. héten megtartott hatos lottó számsorsoláson a következő számokat húzták ki:
2026. 06. 14. 18:00
Megosztás:

Megérkezik a nyár első hőhulláma a jövő héten

A jövő héten a túlnyomóan napos, derült időben fokozatosan emelkedik a nappali csúcshőmérséklet és beköszönt az év első hőhulláma: vasárnap délután már 32 és 37 Celsius-fok között alakulnak a maximumok. A napos időben néhol záporok, zivatarok kialakulhatnak - derül ki a HungaroMet Zrt. előrejelzéséből, amelyet vasárnap juttattak el az MTI-hez.
2026. 06. 14. 17:00
Megosztás:

Az alkohol és a drog okozza a legsúlyosabb balesetek jelentős részét Szlovéniában

Szlovéniában továbbra is a legsúlyosabb közúti balesetek jelentős részét okozzák az ittasan vagy kábítószer hatása alatt vezető sofőrök - közölte a szlovén közlekedésbiztonsági ügynökség.
2026. 06. 14. 15:00
Megosztás:

Januárig leállítja az orosz olajból más országokban készült repülőgép-üzemanyag és a gázolaj importját a brit kormány

Legkésőbb januárig leállítja az orosz olajból más országokban készült repülőgép-üzemanyag és gázolaj importját a brit kormány.
2026. 06. 14. 13:00
Megosztás:

Ahol a stabilcoinok tényleg működnek: a kereskedői elszámolás lehet a kriptó csendes áttörése

A kriptovilág korai éveiben sokan még azt várták, hogy a bitcoin és a decentralizált pénzügyek teljesen felforgatják a hagyományos pénzügyi rendszert. Ma viszont egyre inkább úgy tűnik, hogy a valódi áttörés nem a látványos szlogenekben, hanem a háttérben zajló, sokkal prózaibb folyamatokban érkezik meg. Ilyen terület a kereskedői elszámolás, ahol a stabilcoinok gyorsabb, olcsóbb és rugalmasabb alternatívát kínálhatnak a banki átutalásokkal szemben.
2026. 06. 14. 12:00
Megosztás:

Trump szerint vasárnap aláírják a megállapodást Iránnal

Donald Trump amerikai elnök szerint vasárnapra tervezik az Egyesült Államok és Irán közötti megállapodás aláírását. Irán ezt egyelőre nem erősítette meg.
2026. 06. 14. 11:00
Megosztás:

A Solana stabilcoin-bázisa 16 milliárd dollár fölé nőtt: elég lehet ez a SOL árfolyamfordulatához?

A Solana ökoszisztémája 2026-ban új likviditási szintre lépett: a hálózaton lévő stabilcoin-állomány 16 milliárd dollár fölé emelkedett, miközben a Circle egyetlen napon 500 millió dollárnyi USDC-t bocsátott ki Solanán. A kérdés most az, hogy ez a dollárbőség valódi fizetési és elszámolási keresletet jelez-e, vagy csak újabb spekulatív hullámot készít elő a SOL piacán.
2026. 06. 14. 10:00
Megosztás:

Rendkívül veszélyesek Magyarországon az elhagyott horgászeszközök

Magyarországon legalább 64 állatfajt fenyeget a járulékos fogásnak nevezett jelenség, amikor olyan állatból lesz zsákmány, amely nem célpontja a horgászatnak: az elhagyott horgászeszközök elsősorban a madarakat és hüllőket veszélyeztetik amellett, hogy szennyezik az édesvizeket – hívja fel a figyelmet a HUN-REN Magyar Kutatási Hálózat az MTI-hez eljuttatott közleményében.
2026. 06. 14. 09:00
Megosztás:

Átadták a felújított városházát Esztergomban

Átadták a felújított városházát szombaton Esztergomban, az épület 1723 óta tölti be a városháza szerepét - közölte az önkormányzat az MTI-vel.
2026. 06. 14. 07:00
Megosztás:

Hegedűs Zsolt: a védőnők szerepe felbecsülhetetlen

A védőnők szerepe napjainkban is felbecsülhetetlen, mind egészségügyi, mind szociális téren, hiszen segítik a magzatok és a gyermekek egészséges fejlődését, meghatározó szerepet töltenek be a betegségek megelőzésében, a korai felismerésben és nem utolsósorban az egészségfejlesztésben, az egészségtudatos gondolkodásmód formálásában - írta az egészségügyi miniszter a Magyar Védőnők emléknapja alkalmából a Facebook-oldalán megjelent bejegyzésében szombaton.
2026. 06. 14. 06:00
Megosztás:

Újraindul a nemzetközi charterforgalom Hévízről: az ITAKA elindította az első antalyai járatot a Hévíz–Balaton Airportról

Hosszú idő után ismét kiutazó charterjárat indul a Hévíz–Balaton Airportról: az ITAKA antalyai járata új fejezetet nyithat a nyugat-magyarországi régió légi közlekedésében. A közvetlen indulás nemcsak kényelmesebb és gyorsabb utazási lehetőséget kínál a térség lakóinak, hanem a helyi gazdaság, a turizmus és a régió nemzetközi elérhetősége szempontjából is fontos mérföldkő.
2026. 06. 14. 05:00
Megosztás:

Íme a világ első 1 billió dolláros vagyonnal rendelkező embere!

Elon Musk neve eddig is egyet jelentett a kockázattal, a technológiai forradalommal és a brutális vagyonfelhalmozással, most azonban olyan pénzügyi határt léphetett át, amelyet előtte még senki: a megadott beszámoló szerint ő lett a világ első 1 billió dolláros embere. A történelmi fordulatot a SpaceX tőzsdei debütálása hozta el, amely papíron szinte felfoghatatlan értékre emelte Musk részesedését.
2026. 06. 14. 03:00
Megosztás:

Így kaphat valaki pénzt özvegyi járadékként az államtól

Sokan hallottak már az özvegyi nyugdíjról, de jóval kevesebben tudják, hogy létezik egy különlegesebb ellátási forma is: az özvegyi járadék.
2026. 06. 14. 02:00
Megosztás:

A rendeletet elfogadták! 63-97 éves nyugdíjasok készüljetek!

A nyugdíjak rendszeres emelésének törvénybe iktatott célja, hogy az ellátások értéke ne csökkenjen az árak emelkedése miatt. Ezért a már korábban megállapított társadalombiztosítási nyugellátásokat minden évben felül kell vizsgálni, és januárban emelni kell.
2026. 06. 14. 01:00
Megosztás:

Ezekkel a számokkal nyerhettél az ötös lottón!

A Szerencsejáték Zrt. tájékoztatása szerint a 24. héten megtartott ötös lottó és Joker számsorsoláson a következő számokat húzták ki:
2026. 06. 14. 00:05
Megosztás:

Monero árfolyamrobbanás: 120 millió dolláros USDT-nyom rázta meg az XMR piacát

A Monero látványos emelkedése (ami azóta komolyabb korrekciót is maga után hozott) ismét ráirányította a figyelmet a privacy coinokra, a stablecoin-mozgások nyomon követhetőségére és a kriptopiaci likviditás törékenységére. Egy 120 millió dolláros USDT-tranzakciósorozat nemcsak a blokklánc-elemzők radarján jelent meg, hanem az XMR árfolyamában is azonnal nyomot hagyott.
2026. 06. 13. 22:00
Megosztás:

Stabilcoinok, betéti tokenek és tokenizált pénzpiaci alapok: összeolvad az on-chain készpénzkezelés

A kriptopiacon a stabilcoinok adták meg először a gyors, programozható digitális dollár élményét. Most azonban a banki betétek és a pénzpiaci alapok is blokkláncra kerülnek, ami teljesen új korszakot nyithat az intézményi treasury-kezelésben. A Sygnum multi-cash rail tézise szerint a jövő nem egyetlen fizetési sínről szól, hanem a stabilcoinok, betéti tokenek és tokenizált pénzpiaci alapok összehangolt használatáról.
2026. 06. 13. 21:00
Megosztás:

Drónnal dolgozik a vállalkozása? Egyetlen baleset milliós kárt is okozhat

A drónok már nem a jövőt jelentik – a jelen gazdaságának fontos eszközei.
2026. 06. 13. 20:00
Megosztás:

K&H: már több mint 30 milliárd forint munkáshitel került kihelyezésre, az átlagos hitelösszeg eléri a 3,9 millió forintot

Több mint 30 milliárd forint értékben helyezett ki munkáshitelt a K&H a konstrukció 2025-ös indulása óta. A pénzintézet tapasztalatai szerint a fiatalok elsősorban autóvásárlásra fordítják a legfeljebb 4 millió forintos, kamatmentes forrást, míg a második leggyakoribb felhasználási cél az ingatlancélú költés. Az egy szerződésre jutó átlagos hitelösszeg megközelíti a 3,9 millió forintot, ami arra utal, hogy az ügyfelek többsége közel a maximálisan elérhető összeget veszi igénybe.
2026. 06. 13. 19:00
Megosztás:

Kamatstop vége: ennyivel nőhet a lakáshitelesek törlesztőrészlete októbertől

Csaknem öt év után megszűnhet a több százezer lakáshiteles törlesztőrészletének meredek emelkedését megakadályozó kamatstop. A BiztosDöntés.hu kiszámolta, milyen havi többletkiadás jelent ez egy átlagos adós számára szeptember 30-át követően. Az érintett adósok számára jó hír, hogy a legdurvább időknél már sokkal alacsonyabban vannak a szerződések alapján alkalmazható kamatok, és a fizetések emelkedése miatt sem lesz akkora ez a tehernövekedés, mintha három-négy éve szüntették volna meg a kamatstopot.
2026. 06. 13. 18:00
Megosztás: