Die KI-Assistenten dieser Welt werden immer smarter, und Google setzt mit Project Astra neue Maßstäbe. Was früher reine Science-Fiction war, wird jetzt Realität: Eine KI, die nicht nur hört und spricht, sondern auch sieht. Noch in diesem Monat erhält die Gemini-App eine Funktion, die es ermöglicht, sich in Echtzeit mit der KI über das zu unterhalten, was man gerade sieht – egal, ob durch die Kamera des Smartphones oder direkt auf dem Bildschirm.
Gemini Live
Mit dem neuesten Update bekommt Gemini Live eine Frischzellenkur. Die neue Version basiert auf Gemini 2.0 Flash, einem Modell, das speziell für schnelle mobile Interaktionen optimiert ist. Dabei kann die KI nicht nur 45 Sprachen verstehen und sprechen, sondern auch fließend zwischen ihnen wechseln – ohne dass man umständlich in den Einstellungen herumfummeln muss. Einfach losreden, die Sprache ändern, und Gemini zieht mit.
Sehen, Verstehen, Antworten
Ein echtes Highlight ist die Live-Videoeingabe. Das bedeutet, dass man der KI in Echtzeit zeigen kann, was sich vor der eigenen Kamera befindet – und sich mit ihr darüber unterhalten kann. Wie ein smarter Begleiter erkennt Gemini Objekte, analysiert Situationen und merkt sich sogar, was bereits besprochen wurde.
Das Feature stammt aus Googles Forschungsprojekt Project Astra, das auf der Google I/O vorgestellt wurde. Dort demonstrierte Google eine smarte Brille, mit der man sich in natürlicher Sprache über die Umgebung austauschen konnte. Zwar bleibt diese Brille vorerst ein Prototyp, doch die Technologie dahinter zieht jetzt erstmal ins Smartphone ein.
Dein Display wird interaktiv
Neben der Videoeingabe gibt es noch ein weiteres visuelles Feature: Bildschirmfreigabe mit KI-Interaktion. Stell dir vor, du surfst gerade online nach einer neuen Jeans – statt mühsam Rezensionen zu lesen oder Preise zu vergleichen, fragst du einfach Gemini. Der Assistent kann den Bildschirm analysieren, dir Empfehlungen geben und vielleicht sogar direkt einen Kaufvorschlag machen.
Google vs. OpenAI vs. Meta
Google ist nicht allein im Rennen um die Zukunft der KI-Assistenten. OpenAI arbeitet an einer ähnlichen Technologie für seinen Operator, hat aber die visuelle Unterstützung noch nicht veröffentlicht. Meta hingegen setzt auf Ray-Ban Meta Glasses, die KI-gestützte Echtzeitinformationen liefern – allerdings nicht in der EU.
Google geht mit Project Astra nun in die Offensive und bringt visuelle KI auf Millionen von Smartphones. Wer ein Pixel- oder Samsung-Gerät besitzt, darf sich als Erstes über die neuen Features freuen.
Die Zukunft der KI
Mit Project Astra wird KI nicht mehr nur ein Sprachassistent, sondern ein echter visueller Begleiter. Ob beim Einkaufen, beim Erkunden neuer Orte oder einfach im Alltag – die Grenzen zwischen digitaler und physischer Welt verschwimmen immer mehr.
© stock.adobe.com, Ralf