Jede Menge künstliche Intelligenz:
Das war die Google Entwicklerkonferenz Google I/O im Mai 2024
Am Abend des 14. Mai 2024 fand die jüngste Google-Keynote statt. Auf der Entwicklerkonferenz Google I/O hat das US-amerikanische Technologieunternehmen aus dem kalifornischen Mountain View seine Pläne für die nahe Zukunft vorgestellt. Vor allem der Themenbereich künstliche Intelligenz (AI) spielte dabei eine große Rolle. So wurden mehrere neue Werkzeuge und Verbesserungen - beispielsweise beim Gemini-Tool - präsentiert und ein (vorsichtiger) Blick auf Veränderungen im mobilen Betriebssystem Android geworfen. Worum es auf der Google Keynote im Mai 2024 genau ging, was Freunde (und Skeptiker) von Google in den kommenden Monaten erwarten dürfen und wie sich ein Selbstversuch des AI-Werkzeugs Gemini schnell und einfach durchführen lässt, erfahren Sie in diesem Blogbeitrag.
Deutlich mehr Leistungsstärke in der Google-AI
Einer der wohl am häufigsten auf der Keynote am 14. Mai gehörten Namen war „Gemini“. Nannte das Unternehmen seinen AI-Chatbot früher „Bard“, heißt es jetzt Gemini. Mit Gemini 1.5 Pro erhalten die Nutzer des Tools jetzt uneingeschränkten Zugriff auf die neueste Version des Werkzeugs, welches nunmehr in stolzen 35 Sprachen verfügbar ist. Neu ist dabei vor allem die fulminante Kapazität des Gemini-Systems, welches mit Hilfe von 1 Million Token (so werden die kleinsten Dateneinheiten genannt, die von den AI-Systemen für die Textverarbeitung und -generierung verwendet werden) umfangreiche Antworten auch auf herausfordernde Fragen liefern soll. Dass dies aber längst nicht das Ende der Leistungsfähigkeit bedeutet, hat Google bereits angekündigt und bekannt gegeben, dass die Kapazität auf bis zu 2 Millionen Token erhöht werden soll. Gemini wird zudem auch in Apps wie Gmail, Documents, Spreadsheets, Presentations und Drive integriert, so der Unternehmenssprecher. Beispielhaft wurde im Rahmen der Präsentation gezeigt, wie Gmail schon bald in der Lage sein wird, mehrere gleichzeitige E-Mail-Threads zu verstehen und zu verfolgen. So können unter anderem die Angebote mehrerer verschiedener Absender zusammengefasst werden, wobei das System sogar appübergreifend funktionieren soll, so dass beispielsweise Belege aus E-Mails automatisch in einem Ordner auf Drive gespeichert und dann über eine weitere App auch noch kategorisiert werden können.
Neue Funktionen des „Bard“-Nachfolgers vorgestellt
Als das Unternehmen Open AI unlängst den KI-Dienst „Chat GPT“ startete, war Google wohl ebenso überrascht wie entsetzt. Denn der sich immer als überaus jovial gebende und nach seinem Selbstverständnis stets zukunftsorientiert agierende Technologieriese hatte seinerzeit nichts Vergleichbares zu bieten. Erst mit der Schaffung von „Bard“ brachte Google einige Monate später einen AI-Dienst auf den Markt, der sich anfangs mehr schlecht als recht schlug. Nun aber haben sich die Entwickler des einst von Larry Page und Sergey Brin gegründeten Unternehmens Google ordentlich ins Zeug gelegt und nachgebessert. Aus „Bard“ wurde „Gemini“ - ein AI-System, welches sowohl neue Texte schreiben kann (seien es Geburtstagsgrüße oder Weihnachtsgedichte), E-Mail-Newsletter zu verfassen vermag und auf Wunsch des Nutzers Übersetzungen in verschiedene Sprachen vornimmt. Auch eine Rechtschreib- und Grammatikprüfung nebst Korrekturvorschlägen ist integriert. Gemini, welches optisch durchaus an Chat GPT erinnert und den Anwender im Regelfall mit einem Dialogbildschirm nebst Texteingabefeld am unteren Rand begrüßt, bot eine Zeit lang neben den genannten Funktionen auch Hilfe bei der Erstellung von Bildern und Logos, die auf dem Inhalt bestimmter Textpassagen basierten. Diese Funktion wurde zwar kürzlich wieder aus dem Angebot genommen, angesichts der Verlautbarungen auf der Google-Keynote I/O darf jedoch mit an Sicherheit grenzender Wahrscheinlichkeit davon ausgegangen werden, dass eine neue, verbesserte Version dieses Werkzeugs in Kürze an den Start geht.
Android-KI war erst der Anfang
Das mobile Betriebssystem Android 15 befindet sich derzeit noch im Beta-Test, dennoch konnte dank der Bemerkungen auf der Keynote am 14. Mai mit etwas Fantasie herausgehört werden, dass viele clevere neue Funktionen zu erwarten sind. Nachdem Android mit dem Beginn des Jahres 2024 KI-Funktionen für die intelligente Suche erhalten hat, soll es schon bald eine noch bessere AI als Basis geben. So wird „Gemini Nano“ unter anderem die Möglichkeit bieten, Texte, Töne und Bilder sowohl als Eingabedaten als auch als Ausgabedaten zu verwenden. Vermutlich könnte dies schon zum Ende des Sommers im Pixel 9 zur Verfügung stehen. Während des Keynote-Events wurde ferner vorgeführt, wie „Circle to Search“ jetzt physikalische Probleme lösen und obendrein sogar Begründungen liefern kann. Auch muss es künftig kein Wunschtraum mehr bleiben, vor betrügerischen Telefonanrufen automatisch gewarnt zu werden. Neben alldem werden auch die Internet-Dienste von Google intelligenter. Die weltbekannte und täglich milliardenfach genutzte Suche soll dann dazu in der Lage sein, Echtzeitinformationen zu nutzen, mehrstufige Überlegungen zu verstehen und Antworten aus vielen verschiedenen Quellen zusammenzufassen. Mit einem Beispiel wurde auf der Keynote gezeigt, wie Google auf die Bitte „Finde die besten Yoga-Studios im Umkreis von 10 Minuten von meinem Zuhause und zeige mir, welche Einführungsangebote es gibt" antwortet. Google-Fotos wird überdies um die Funktion erweitert, den Kontext der Abbildungen zu erkennen und zu verarbeiten.
Neue KI-Tools zur Multimedia-Generierung
Ein weiteres Thema auf der jüngsten Google-Keynote I/O waren die neuen Versionen von Tools zur Multimedia-Generierung. Mit dem allerneusten Werkzeug namens „Veo“ lassen sich Videos erzeugen, die eine fast schon beängstigende virtuelle Realität schaffen. Beim „Project Astra“ können in Echtzeit Fragen zu dem gestellt werden, was die Kamera gerade zeigt. Und mit dem Text-to-Image-Tool „Imagen 3“ kommt eine imponierende Form des detaillierten Verständnisses von Beschreibungen auf den Markt - Probleme bei der Generierung von Texten sollten damit endlich weniger werden. Schließlich wurde auf der Entwicklerkonferenz I/O dann noch vorgeführt, wie Googles Music-AI-Toolbox Musikproduzenden beim kreativen Prozess unterstützen kann.
Der Einstieg in Google Gemini wird zunehmend interessant
Wer die Entwicklerkonferenz Google I/O aufmerksam verfolgt hat, könnte möglicherweise Lust bekommen haben, selbst einen Versuch mit dem AI-Tool „Gemini“ zu starten. Und warum auch nicht, schließlich ist der Einstieg denkbar simpel: Zunächst muss gemini.google.com in der Adresszeile des Browsers eingegebenen werden und eine Anmeldung am eigenen Google-Konto (z. B. mittels persönlicher Gmail-Adresse) erfolgen. Möglich ist es an dieser Stelle natürlich auch, ein neues Konto zu erstellen, sollte noch keines vorhanden sein. In jedem Fall ist eine Anmeldung/Registrierung erforderlich, um Gemini nutzen zu können. Nach dem erfolgreichen Log-In öffnet sich dann das Dialogfenster, in welches Fragen (z. B. „Wie viele Menschen lebten 1950 in Hamburg?“) oder Befehle (z. B. „Schreibe mir einen Text, mit dem ich zu einer Hochzeit gratulieren kann") eingegeben werden können. Selbstverständlich - und wie von anderen Google-Werkzeugen lange bekannt - können die Fragen bzw. Befehle auch gesprochen werden. Hierzu wird einfach auf das Mikrofonsymbol auf der rechten Seite getippt (gegebenenfalls muss noch kurz die Zulassung dieser Funktion bestätigt werden). Die von Gemini gegebenen Antworten können auf Wunsch auch vorgelesen werden - hierzu muss rechts oben auf das Lautsprechersymbol geklickt werden. Wer mit der - zugegeben manchmal wirklich noch etwas holperigen - Antwort oder dem Ergebnis der Text-Erstellung von Gemini nicht zufrieden sein sollte, der kann sich weitere Vorschläge anzeigen oder den Stil der Antwort ändern lassen. Glaubt man den Beteuerungen der Google-Leute auf der Keynote im Mai 2024, sollte sich die Qualität der Ergebnisse von Gemini jedoch bald weiter verbessern.
Fazit: Viele Verbesserungen an Qualität und Quantität
Auf der jüngsten Google-Keynote im Mai 2024 wurden eine Menge neue AI-Tools und deren zum Teil wirklich imponierende Möglichkeiten vorgeführt. Die Nutzung von Gemini kann vielleicht schon bald zu einer echten Alternative von Chat GPT werden und eventuell manchen Anwender zu einem Wechsel bewegen. Gekoppelt mit den Internet-Diensten von Google und dem mobilen Betriebssystem Android vermag das Unternehmen jedenfalls den Blick fest in Richtung Zukunft gerichtet haben. Ob der Markt die hohen Erwartungen von CEO Sundar Pichai und seinen Kollegen erfüllt, bleibt indes abzuwarten.