IO26: Gemini: Von Hassabis zu Omni (5):

Die Gemini-Story: Wie Demis Hassabis und Googles Omni-Chips das Internet neu erfinden:

Wer die Entwicklung von künstlicher Intelligenz verstehen will, muss den Blick von den Software-Apps wegbewegen und tief in die Rechenzentren schauen. Was als einfaches Sprachmodell begann, gipfelte auf der jüngsten Google I/O in einer technologischen Revolution: der Ära von Gemini Omni. Es ist die Geschichte einer radikalen Vision, die von Grund auf neu gedacht wurde.

Der strategische Kopf: Demis Hassabis und die Vision von AGI

Hinter Googles rasanter Aufholjagd steht (nicht zuletzt) ein Name: Demis Hassabis, der Chef von Google DeepMind in London. Er gilt als ein besonderer strategisch-theoretischer Kopf von Google. Während andere Unternehmen KI (zu Anfang) als reines Text-Werkzeug sahen, verfolgte Hassabis von Anfang an ein viel größeres Ziel: AGI (Artificial General Intelligence) – eine künstliche Intelligenz, die flexibel und universell wie das menschliche Gehirn agieren kann.

Der Schlüssel dazu sind sogenannte „World Models“ (Weltmodelle). Eine KI soll die physikalischen Gesetze unserer Realität, Bewegungen und visuelle Logik tiefgreifend verstehen, anstatt bloß Wörter aneinanderzureihen.

Native Multimodalität: Beliebiger Output aus beliebigem Input

Dieses Weltmodell gipfelt nun in Gemini Omni. Um dorthin zu gelangen, ging Google einen schwierigeren, aber wegweisenden Pfad: Native Multimodalität von Grund auf („from scratch“).

Ältere Systeme koppelten verschiedene KI-Modelle mühsam aneinander (Text wurde in Bild übersetzt, Bild in Ton). Gemini Omni hingegen wurde von Tag eins an so trainiert, dass es immer mehr Datentypen gleichzeitig versteht. Demis Hassabis’ klares Versprechen für die Zukunft lautet: Omni wird im Laufe der Zeit (in a few years) in der Lage sein, aus absolut jedem erdenklichen Input jeden gewünschten Output zu generieren.

Die erste Auskopplung dieser Familie, Gemini Omni Flash, beweist genau das bereits live in Apps wie YouTube Shorts, indem sie komplexe Videobearbeitungen und Live-Generierungen in Echtzeit umsetzt.

Das KI-Ökosystem: Veo, Nano Banana und Genie verschmelzen.

Gemini Omni ist kein isoliertes Modell, sondern die mächtige Fusion von Googles bisherigen Spezial-KIs:

  • Veo: Googles High-End-Videogenerator.
  • Nano Banana: Das extrem erfolgreiche und blitzschnelle Bilderstellungsmodell.
  • Genie: Das faszinierende „World-Building“-Modell, das aus einfachen Skizzen spielbare, interaktive 2D-Welten erschaffen kann.

All diese Technologien fließen in das Omni-System ein. So entsteht eine KI, die nicht nur Medien konsumiert, sondern funktionale Welten simuliert.

Die Hardware-Macht: Über 1 Million TPUs und Google Axion (s. den zuvorigen Blog-Beitrag).

Fazit: Die Schnittstelle zur Realität

Unter der Führung von Demis Hassabis (und anderen) hat sich Google vom reinen Suchmaschinen-Konzern zu einem Infrastruktur-Giganten gewandelt. Durch die Verbindung aus eigener ARM-Hardware (Axion), brachialen TPUs und der bahnbrechenden Omni-Architektur ist AGI kein ferner Science-Fiction-Traum mehr, sondern das Betriebssystem von morgen.


P.S. HzK: 1. Ähnlich wie beim vorherigen KI-Modus-generierten Beitrag habe ich gewisse Stichworte vorgegeben. Sie werden leicht bemerken können, dass die Fokussierung auf eine Person (Hassabis) natürlich übertrieben ist. Die kreativen Köpfe bei Google sind natürlich viele. Ich habe an mehreren Stellen versucht, das schnell etwas runterzukorrigieren, ohne dass der errungene Zeitvorteil wieder flöten geht. Beim nächsten Mal werde ich versuchen, durch die Wahl meiner vorgegebenen Stichworte ein solches Ergebnis zu vermeiden. 2. Die KI hat Teile des vorigen Beitrags hier erneut untergebracht. Das habe ich fast alles einfach weggelöscht (und auf den Beitrag kurz verwiesen). 3. Hassabis spricht auf der IO26 das 1. Mal ab 16.00 (Introduction).

(27.5.26)


Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert