KI in der Hosentasche: Zwei Wochen mit Gemma 4 lokal auf dem Pixel 9a

duotone: Smartphone aufrecht auf einem Holzschreibtisch, Display zeigt einen laufenden Chat mit sichtbarem „thinking"-Block, daneben ein offenes Notizbuch mit Füller, eine Lesebrille und eine dampfende Espressotasse, im Hintergrund alte Hardcover-Bücher und eine kleine Zimmerpflanze

Dies ist die Langfassung einer kleinen Bluesky-Serie, die ich Mitte April begonnen habe. Sieben kurze Posts über zwei Wochen, in denen ich Googles AI Edge Gallery auf meinem Pixel 9a wirklich im Alltag benutzt habe – nicht als Demo, sondern als Werkzeug. Hier ziehe ich den roten Faden zusammen.

Es gibt zwei Sätze, die ich in den vergangenen drei Jahren gefühlt hundertmal gehört habe. Der erste lautet: „KI auf dem Handy? Geht doch alles in der Cloud, ist doch egal.” Der zweite, von Leuten, die es ein bisschen genauer wissen: „Lokale KI ist toll, aber das ist Bastelkram. Spielzeug. Kein Werkzeug.”

Beides stimmte für eine ganze Weile. Beides stimmt seit etwa Mitte April nicht mehr – jedenfalls nicht für mich. Seit zwei Wochen läuft auf meinem Pixel 9a ein Gemma-4-Modell vollständig offline: kein Cloud-Aufruf, kein Login, kein Account, keine Telemetrie. Die App heißt Google AI Edge Gallery, ist Open Source unter Apache 2.0, und sie ist überraschend brauchbar.

Was folgt, ist kein Tutorial. Es ist ein Erfahrungsbericht – eines Normalnutzers, nicht eines Entwicklers. Was geht, was nicht, und warum die Sache größer ist, als sie auf den ersten Blick aussieht.

Warum überhaupt lokal?

Die ehrliche Antwort: Cloud-Müdigkeit.

Wer in der Bahn schon einmal mit Gemini oder ChatGPT diskutieren wollte und feststellen musste, dass das WLAN-Symbol blinkt, das Modell aber lieber träumt, kennt das Gefühl. Wer beim Flug versucht hat, mit dem Bordnetz auch nur eine Mail zu schicken, weiß, was Latenz bedeutet. Und wer in den letzten Jahren beobachtet hat, wie viele Anbieter ihre Modelle schweigend umtrainiert, gekürzt, hinter Paywalls verschoben oder schlicht abgeschaltet haben, fängt an zu denken: Eigentlich hätte ich das gerne auf einem Gerät, das mir gehört.

Das ist die nüchterne Seite. Die paranoidere ist: Ich gebe einem Cloud-Modell jeden Tag eine ziemlich genaue Karte meines Denkens. Welche Texte ich gerade verstehe, welche nicht. Welche Personen ich erwähne. Welche Sorgen ich habe. Diese Karte liegt dann auf einem Server, der nicht mir gehört, in einem Land, dessen Datenschutz ich nicht selbst gewählt habe, in einer Firma, die in fünf Jahren vielleicht eine andere ist. Das ist kein abstraktes Risiko. Das ist die normale Geschichte des Internets.

Lokale KI löst nicht alles. Aber sie löst genau diesen Punkt: Was auf dem Gerät bleibt, bleibt auf dem Gerät.

Was ist AI Edge eigentlich?

Die Google AI Edge Gallery ist eine Android-App, die Open-Source-Modelle vollständig lokal auf dem Smartphone ausführt. Apache 2.0, Quellcode auf GitHub, keine versteckten Cloud-Fallbacks. Aktuell unterstützt sie verschiedene offene Modellfamilien; das interessanteste ist im April 2026 Gemma 4, Googles neue offene Modellgeneration.

Gemma 4 gibt es in vier Größen:

Variante	RAM (quantisiert)	Kontext	Wofür
E2B	~250 MB	128 K	Smartphones, schnell, multimodal
E4B	~1,5 GB	128 K	Smartphones mit etwas Reserve, deutlich klüger
26B MoE	~8–12 GB	256 K	Desktop / kleine Server
31B Dense	~16 GB	256 K	Volle Qualität, derzeit Top-3 auf der Arena-Leaderboard

Auf dem Pixel 9a laufen die ersten beiden – E2B problemlos, E4B mit spürbar mehr Akku-Hunger. Beide sind multimodal: Text, Bilder, Audio. Beide antworten zwischen 10 und 25 Tokens pro Sekunde, was sich angenehmer liest, als es klingt – ein normaler Antwort-Absatz steht nach drei bis fünf Sekunden.

Erster Eindruck

Das Erste, was nach der Installation auffällt, ist, was nicht passiert. Kein Login-Screen. Kein „Erstellen Sie ein Konto”. Keine Datenschutz-Tröpfelei mit zweiundzwanzig Schiebereglern. Die App startet, fragt einmal, welches Modell man laden will, lädt die ~1,5 GB für E4B – und das war’s. Ab diesem Moment kann man das Flugmodus-Symbol einschalten. Es funktioniert weiter.

Das ist eine ungewöhnliche Erfahrung. Ich habe lange überlegt, warum es sich so deutlich anders anfühlt als der Wechsel zwischen ChatGPT-Apps oder Claude-Clients. Ich glaube, es liegt daran, dass kein Vertrauensvorschuss nötig ist. Bei Cloud-KI muss ich annehmen, dass das, was die Privacy Policy verspricht, auch eingehalten wird. Hier muss ich gar nichts annehmen. Ich kann den Quellcode lesen. Ich kann den Netzwerkverkehr beobachten. Ich kann das Gerät offline schalten und schauen, ob die KI weiter antwortet. Sie tut es.

Datenschutz – überraschend gut, mit zwei Sternchen

Für eine Google-App ist die Privacy-Architektur erstaunlich konsequent:

Vollständig offline nach dem initialen Modell-Download.
Kein Account, kein Google-Login.
Keine Telemetrie in der Default-Konfiguration.
Open Source, einsehbar auf GitHub.
Apache 2.0 – sowohl App als auch Modell.

Die zwei Sternchen, ehrlich:

Die App kommt aus dem Play Store. Theoretisch könnte Google ein Update mit Telemetrie nachliefern. Wer das wirklich ausschließen will, baut die APK aus dem Quellcode selbst – möglich, aber für die meisten Menschen nicht realistisch.
Beim Modell-Download geht eine Verbindung zu Googles Servern raus (Kaggle/HuggingFace). Danach offline – aber den initialen Bezug muss man wollen.

Beides ändert nichts daran, dass die Architektur in einer anderen Liga spielt als Cloud-KI. Das ist Privacy by Design, nicht Privacy by Promise. Vergleichbar in der Logik mit Ollama auf dem Desktop. Nur eben in der Hosentasche.

Was es im Alltag tut

Vier Funktionen kommen mit der App, und ich habe alle vier wirklich benutzt – nicht nur ausprobiert.

Chat mit sichtbarem Reasoning. Gemma 4 hat einen Thinking Mode, in dem das Modell vor der eigentlichen Antwort einen Zwischen-Block produziert, in dem es seinen Argumentationsweg skizziert. Das wirkt zunächst wie Spielerei. Es ist aber gerade bei kleinen Modellen sehr nützlich: Man sieht, wo es falsch abgebogen ist, und kann gezielter nachfragen. Bei einem Cloud-Modell mit Halluzination weiß man nur, dass die Antwort falsch ist. Hier sieht man, warum.

Bilder beschreiben lassen. Foto schießen, in den Chat ziehen, fragen. „Was steht da auf der Speisekarte?” funktioniert auch ohne Netz, was im Urlaub oder im Krankenhaus überraschend praktisch sein kann. „Was ist das für eine Pflanze?” funktioniert, mit der Einschränkung, dass das Modell nicht alles wissen kann, was z. B. PlantNet weiß. Es bleibt ein Generalist.

Audio transkribieren. Sprachmemo aufnehmen, ins Eingabefeld reinziehen, transkribieren lassen. Auf Deutsch. Offline. Ich habe das bisher mit whisper.cpp lokal auf dem Laptop gemacht – jetzt geht es direkt am Telefon, ohne Datei-Hin- und Hergeschiebe.

Prompt Lab. Eine Spielwiese für Prompt-Templates. Ehrlich gesagt der Teil, den ich am wenigsten benutze. Für jemanden, der seine eigenen Prompts systematisch testen will, ist es eine ordentliche kleine Werkbank.

Was alle vier gemeinsam haben: kein Upload, keine Latenz aus der Funkverbindung, keine „dieses Bild wird zur Verbesserung unserer Modelle verwendet”-Klausel.

E2B oder E4B – die Pixel-9a-Frage

Das Pixel 9a ist nicht das stärkste Pixel, aber ein gutes Mittelfeld-Gerät. Beide Modelle laufen, aber sie fühlen sich ziemlich anders an.

E2B ist die schnelle Variante. ~250 MB RAM, antwortet in zwei bis drei Sekunden, bleibt auch unter Druck reaktiv. Ich nutze es für kurze Sachen: Fragen aus der Bahn, Übersetzungs-Schnellschüsse, „erklär mir das in einem Satz”. Es kann nicht alles, aber es kann schnell genug nicht alles, dass es sich nicht in den Weg stellt.

E4B ist die kluge Variante. ~1,5 GB RAM, deutlich besser im Argumentieren, in mehrsprachigen Aufgaben, in längerem Zusammenfassen. Dafür spürbar langsamer, und der Akku merkt’s. Ich nutze es, wenn es sitzen muss: Texte zusammenfassen, knifflige Übersetzungen, Code-Schnipsel erklären lassen.

In der Praxis pendle ich. E2B als Default, E4B als „jetzt mal genau”. Beide komplett offline. Das Wechseln dauert in der App weniger als 30 Sekunden.

Das Memory-Problem – und Agent Skills

Hier wird die Geschichte interessant.

Lokale KI hat ein systematisches Problem: kein Gedächtnis. Jeder Chat fängt bei Null an. Das fällt in der Cloud weniger auf, weil ChatGPT, Gemini und Claude mittlerweile alle eine Form von Cross-Session-Memory haben. Bei Gemma 4 lokal: nichts. Schließe den Chat, eröffne den nächsten – das Modell weiß nicht mal mehr, dass du existierst.

An genau dieser Stelle setzt das eigentlich Spannende an dieser ganzen Plattform an: Agent Skills. Das ist eine offene Spezifikation für modulare Erweiterungen. Ein Skill ist, in seiner einfachsten Form, ein Ordner mit einer SKILL.md-Datei: YAML-Frontmatter, Markdown-Anweisungen, optional Skripte. Das Modell bekommt die Anweisung beim Laden, und plötzlich kann es Dinge, die es vorher nicht konnte.

Für das Memory-Problem habe ich Lethe installiert – einen Community-Skill von Peter Bournakas, der Gemma 4 ein persistentes lokales Gedächtnis gibt. Daten landen im localStorage des versteckten WebViews, in dem die Skills laufen. Komplett auf dem Gerät. Kein Cloud-Backend.

Der Workflow ist absurd einfach: „Merk dir, dass ich am liebsten Espresso trinke, schwarz.” Lethe legt einen Eintrag an. Beim nächsten Chat lade ich den Skill, und das Modell hat den Kontext wieder. „Was weißt du über mich?” listet alles auf. „Vergiss das mit dem Espresso.” löscht es.

Es gibt zwei Einschränkungen. Erstens muss der Skill am Anfang jeder Session manuell geladen werden – kein Auto-Start. Zweitens hat localStorage typischerweise 5–10 MB Limit, das reicht für hunderte Erinnerungen, aber nicht für unbegrenzt viel. Für meinen Alltag völlig ausreichend.

Was hier viel wichtiger ist als Lethe selbst: Die Plattform ist offen. Wer einen Skill schreiben will, der irgendetwas spezialisiertes tut – Mails formatieren, Mensa-Pläne lesen, mit dem Tageskalender interagieren – kann das tun. Der Quellcode anderer Skills lebt offen auf GitHub, und das Verzeichnis dieser Skills steht auf awesomeskills.dev. Das ist die Sorte Ökosystem, die Apple bei seinem App Store nicht haben will und Google sich für die Cloud-Modelle nicht trauen wird.

Wo es nicht reicht

Damit das nicht klingt wie ein Werbetext, der ehrliche Teil:

Kein Web, kein aktuelles Wissen. Was nach dem Trainings-Cutoff passiert ist, weiß das Modell nicht, und ohne Internetzugang kann es nicht nachschauen. Für „was war heute in den Nachrichten?” ist es das falsche Werkzeug.
Tiefe Recherche bleibt Cloud. Wenn ich einen 60-Seiten-PDF zerlegen, mit fünf Quellen abgleichen und einen Aufsatz daraus formen will, ist Claude Sonnet oder Opus eine Klasse besser. Dafür ist Gemma 4 schlicht zu klein – und das ist kein Bug, das sind Naturgesetze der Modellgröße.
Akku. E4B in einer langen Session frisst hörbar. Halbe Stunde dauerhaftes Chatten mit dem 4B-Modell sieht man auf der Akkuanzeige. Auf einem Pixel 9a, bei einer Tagesfahrt, lieber E2B.
Lethe-Memory ist klein. 5–10 MB localStorage sind viel für Faktenkrümel, aber nicht für jahrelange Konversationen. Wer ein „echtes” Langzeitgedächtnis will, muss zu Skills wie Second Brain v3.3 greifen, die deutlich komplexer sind und eigenes Tooling brauchen.
Multimodal heißt nicht omniscient. Bilder mit komplexen Diagrammen, handschriftliche Notizen in schlechter Beleuchtung, sehr fachspezifische Inhalte – da steigt die Trefferquote spürbar.

Kurz: Für Alltag reicht es. Für Tiefe nicht.

Für wen lohnt es sich?

Nach zwei Wochen ist mein Bild ziemlich klar.

Gemma 4 lokal lohnt sich, wenn du

Datenschutz ernst nimmst und ein Werkzeug willst, das nicht jede Frage als Trainingsmaterial behandelt;
offline arbeitest – Bahn, Flug, Berghütte, Krankenhaus, abgelegene Wohnung;
KI verstehen, nicht nur nutzen willst – das Thinking-Mode-Feature und die Skills geben dir mehr Einblick als jede Cloud-API;
keine Cloud-Abos willst und auch keine Monats-Limits, die plötzlich kosten oder schrumpfen.

Es lohnt sich nicht, wenn du

ein GPT-5-Ersatz suchst – das ist ein anderes Gewicht;
viel mit aktuellen Daten arbeitest, wo Echtzeit-Web zwingend ist;
ein schlankes Smartphone ohne Reserven hast – 1,5 GB Modell plus Android plus alles andere ist nicht für jedes Mittelklasse-Gerät bequem.

Ein Schritt zurück zur Kontrolle

Was sich nach zwei Wochen am stärksten festgesetzt hat, ist nicht eine bestimmte Funktion. Es ist ein Gefühl: dass ich bestimme, ob mein Telefon mit dem Internet redet, wenn ich es etwas frage. Das mag nach einer Banalität klingen. In einem Jahrzehnt, in dem fast jede App, die ich öffne, nach Hause telefoniert, ehe ich sie überhaupt benutze, ist es das nicht.

Lokale KI ist kein Cloud-Killer. Sie kann es nicht sein – die ganz großen Modelle leben aus Gründen in Rechenzentren, und dort werden sie auch noch eine Weile bleiben. Aber dass für 80 Prozent meiner alltäglichen KI-Fragen ein 1,5-GB-Modell auf einem Mittelklasse-Pixel reicht, hat eine Konsequenz, die mich überrascht hat: Ich nutze die Cloud-KI auf einmal bewusster. Wenn ich Claude öffne, dann, weil die Aufgabe es wirklich verlangt. Nicht aus Reflex.

Vielleicht ist das die eigentliche Lektion dieser zwei Wochen. Lokal heißt nicht, dass die Cloud verschwindet. Lokal heißt, dass die Cloud nicht mehr die Default-Antwort auf jede Frage ist.

Quellen & Weiterlesen

Offizielles

Google Blog: Gemma 4 Ankündigung
Google Developers Blog: Bring State-of-the-Art Agentic Skills to the Edge with Gemma 4
GitHub: google-ai-edge/gallery – Quellcode der App
Google DeepMind: Gemma 4

Skills & Ökosystem

agentskills.io – Skill-Spezifikation
awesomeskills.dev – Verzeichnis verfügbarer Skills
Lethe – Persistentes lokales Gedächtnis für AI Edge (von pbrns)
Skill-Diskussionen im AI-Edge-Repo

Hintergrund & Tests

MindStudio: E2B vs E4B Vergleich – Edge-Modelle für das Telefon
Android Authority: AI Edge Gallery im Test
Digital Watch: Privacy-Bewertung der App

Jochens Blog

Explorer

Über

Inhaltsverzeichnis