- Google führt eine KI-gestützte Untertitelfunktion für Android ein, die auch Tonfälle und Nicht-Sprach-Elemente berücksichtigt. Die expressive Untertitelfunktion ist eine Erweiterung der bestehenden Live Caption-Funktion von Google, die auf verschiedenen Medien angezeigt werden kann. Die neue Funktion läuft direkt auf dem Gerät, nicht in der Cloud, und funktioniert in Echtzeit auch im Flugmodus. Google nutzt das fortschrittliche Gemini 1.5 Pro Sprachmodell, um verbesserte Bildbeschreibungen und weitere Funktionen zu bieten. Exklusive Pixel-Phone-Features wie “Identity Check” und verbesserte Bildscans erhöhen die Nutzerfreundlichkeit und Sicherheit.
Wenn Sie jemals einen Film mit Untertiteln gesehen haben, ist Ihnen sicherlich aufgefallen, dass Begriffe wie [APPLAUS] oder [dramatische Musik] erscheinen, um Menschen, die gehörlos oder schwerhörig sind, die Audioelemente zu verdeutlichen. Google bringt eine ähnliche Fähigkeit auf das Android-Betriebssystem, und natürlich wird diese durch künstliche Intelligenz angetrieben. Diese Neuerung ist ein Teil von zahlreichen Funktionen, die jetzt eingeführt werden.
Ausdrucksstarke Untertitel
Die expressive Untertitelfunktion ist eine Erweiterung von Googles bestehender Live Caption-Funktion, die es ermöglicht, Untertitel auf fast jedem Medium anzuzeigen, das auf Ihrem Telefon abgespielt wird, unabhängig von der verwendeten App. Diese können sogar in verschiedene Sprachen übersetzt werden, wenn auch mit unterschiedlicher Qualität. Die neue Funktion erweitert den Umfang, indem sie auch Tonfal len und Nicht-Sprach-Elemente untertitelt. Wenn jemand in einem Video schreit, wie ein Sportkommentator bei einem Tor, werden die Untertitel nun in Großbuchstaben angezeigt, um die Aufregung zu betonen. Ebenso werden Geräusche wie Seufzen oder Keuchen als [seufzt] oder [keucht] untertitelt. Andere Umgebungsgeräusche wie Applaus und Jubel werden ebenfalls einbezogen.
Digitale Unabhängigkeit
Diese Untertitel werden von einer KI-Software erzeugt, die direkt auf dem Gerät läuft, nicht in der Cloud. Google betont, dass Live Captions in Android integriert und somit “on device” arbeitet. Diese Funktionalitäten werden überall, wo Sie sie verwenden, einschließlich Videoanrufen, in Echtzeit funktionieren – auch wenn Ihr Telefon im Flugmodus ist. Die neue Funktion wird schrittweise für Android-Telefone mit Android 14 eingeführt. KI-gestützte Transkriptionsfunktionen sind schnell auf Smartphones verbreitet – viele neue Geräte verwenden große Sprachmodelle, um Sprache in Text zu schreiben. Diese Technologie ist jedoch nicht auf das einfache Transkribieren beschränkt; sie wird auch im Hintergrund arbeiten, um den Nutzern optimal zu unterstützen.
Android-Updates mit mehr Möglichkeiten
Die Einführung dieser Funktion ist nur der Anfang. Google hat eine Reihe weiterer neuer Funktionen angekündigt, die Menschen mit Sehbehinderungen zusätzliche Unterstützung bieten sollen. Die Image Q&A-Funktion innerhalb der App wurde verbessert. Damit können Nutzer ein Bild hochladen oder aufnehmen und eine KI-generierte Beschreibung erhalten. Dieses Feature nutzt nun das fortschrittlichere Gemini 1.5 Pro Sprachmodell von Google. Spotify-Integration, Fotoverwaltung und vieles mehr runden die vielfältigen Möglichkeiten ab.
Diese innovativen Funktionen zeigen deutlich, wie sehr sich die Technologie weiterentwickelt, um den Alltag zu erleichtern und inklusiver zu gestalten. Solche Verbesserungen ermöglichen es jedem, unabhängig von spezifischen Einschränkungen, die bestmöglichen digitalen Erlebnisse zu erleben. Die Nutzerfreundlichkeit von Android ist damit um ein Vielfaches gestiegen, und durch den Einsatz künstlicher Intelligenz wird die Personalisierung weiter optimiert.
Pixel Phone Updates
Für Besitzer eines Pixel-Telefons gibt es zudem exklusive neue Funktionalitäten. Ein bemerkenswertes Feature nennt sich “Identity Check”, welches durch biometrische Authentifizierung zusätzlich Schutz bietet, falls das Gerät in falsche Hände gerät. Andere Qualitätsverbesserungen betreffen Bildscans, die nun durch erhöhte Kontrast- und Weißabgleichswerte brillanter wirken. Antworten auf Telefongespräche können jetzt über vordefinierte Antwortmöglichkeiten geschehen, was die Interaktion während eingehender Anrufe erheblich erleichtert.
Diese Entwicklungen fügen sich nahtlos in Google’s Vision einer nachhaltigen Optimierung und Individualisierung seiner Produkte ein und bieten Nutzern ein nie dagewesenes Maß an Benutzererlebnis. Funktionen wie das “Clear Voice” in der Google Recorder App, welche störende Geräusche minimieren, sind ein weiteres Beispiel, wie KI unsere täglichen Interaktionen verbessern kann.
Nutzern wird somit eine Plattform geboten, die Mithilfe moderner Technik alltägliche Herausforderungen meistert und eine Brücke zu barrierefreiem Zugang schlägt. Technik wird nicht nur effizienter, sondern auch zugänglicher – ein Schritt in Richtung einer integrativen digitalen Zukunft.