Apps | Artificial Intelligence

Talk to the App — iOS Spracherkennung

Ein Beitrag von Sebastijan Draksler

18. Mai 2017

spracherkennung

Eine App für dich Dinge erledigen zu lassen ist ziemlich produktiv und ziemlich cool – weil du damit zum Beispiel die Produktivität deines Unternehmens ankurbeln, Geld sparen oder auch einfach nur Spaß haben kannst. Wenn du dabei auch noch die neue iOS 10 Spracherkennungs-API nutzt, machst du noch dazu einen gewaltigen Schritt in die Zukunft.

Ich bin mir relativ sicher, dass jeder, der ein neueres iPhone Modell besitzt, schon einmal probiert hat mit Siri zu sprechen. Entweder um ihr Aufgaben zu geben oder sie etwas zu fragen. Viele nutzen auch die Diktierfunktion in den einzelnen Messenger Apps um in Windeseile Nachrichten zu verfassen.

Letztes Jahr, hat Apple außerdem sein Spracherkennungs-Framework für Entwickler zur Verfügung gestellt, sodass du eine solche Funktion jetzt auch in deine eigene App einbauen kannst. Momentan gibt es also zwei Wege um das Stück Metall in deiner Hand zum Zuhören zu bewegen – SiriKit zur Erkennung außerhalb einer bestimmten App und Spracherkennung innerhalb. Beide nutzen dasselbe intelligente System um gesprochene in geschriebene Sprache zu übersetzen.

Wo liegen also die Unterschiede zwischen den beiden?

Spracherkennung

Grundsätzlich ist die Spracherkennung ein System, das Sprache in Text übersetzt – und zwar in allen auf dem Gerät bzw. im System verfügbaren Sprachen. Bis zu iOS 10, blieb den Entwicklern nichts anderes übrig, als die Spracherkennung bzw. Diktierfunktion zu nutzen. Die ist allerdings mit einigen Einschränkungen verbunden. Es ist beispielsweise unumgänglich eine Bildschirmtastatur einzublenden und die Spracherkennung funktioniert dann auch nur in der Sprache ebendieses Tastatur. Zudem gibt es auch kaum individuelle Konfigurationsmöglichkeiten.

Glücklicherweise ist das jetzt anders und du kannst deinen Nutzern ein gutes und vor allem schnelles Erlebnis bei der Spracheingabe bieten. Und mit der Spracherkennungs-API hast du da noch dazu (fast) völlig freie Hand. An ein paar Grundregeln musst du dich allerdings halten:

die Nutzer muss darauf hingewiesen werden, dass sie aufgezeichnet werden
Passwörter und andere sensible Daten dürfen nicht durch Spracheingabe erhoben werden
der erkannte Text muss dem Nutzer gezeigt werden, bevor eine Aktion erfolgt

Mit diesen Richtlinien im Hinterkopf kannst du nun also eine großartige User-Experience aufbauen wie du möchtest. Dabei kannst du entweder live-Sprachaufnahmen oder voraufgenommene Audiodateien nutzen. Das System ist wirklich äußerst genau, schnell und adaptiv.

Die Nutzer müssen nur auf den ‘Aufnahme’ Knopf tippen und schon hört ihnen die App zu – und macht im besten Fall wozu sie aufgefordert wird oder fragt ansonsten noch einmal nach, falls der Befehl unklar ist. Es ist also ganz einfach und die Möglichkeiten unbegrenzt.

SiriKit, was kannst du alles?

Wie passt SiriKit nun in diese ganze Geschichte? SiriKit ist dazu da, um Siri’s „Gehör“ zu aktivieren und somit die richtigen Antworten zu liefern oder Befehle auszuführen. Das passiert, indem vom Siri Menü aus eine sogenannte App Extension aufgerufen wird. Diese App Extension besteht aus einem individualisierbaren Menü innerhalb deiner App, welches Siri als Suchresultat findet. Anders gesagt, kann Siri Nutzerfragen durch Aufrufen relevanter Informationen in anderen Apps beantworten. Dazu gibt es auch noch die Möglichkeit, MapKit in eine Suchanfrage zu integrieren um von Siri bestimmte Informationen zu erhalten.

All das verleiht der Sprachsteuerung auf Mobilgeräten natürlich eine ganz neue Dimension. Allerdings gibt es immer noch einige Einschränkungen was die Funktionalität und damit die potentiellen Anwendungen von SiriKit betrifft. Momentan gibt es „nur“ 9 verschiedene „Domains“, die mit SiriKit funktionieren – zukünftig werden es aber definitiv mehr werden. Aktuell kann SiriKit jedenfalls mit dem Folgenden umgehen:

VoIP Anrufe
Textnachrichten
Zahlungen
Fotos
Workouts
Buchungen
Befehle im Auto
CarPlay (nur verfügbar für Automobilhersteller)
Tischreservierungen (benötigt zusätzlichen Support von Apple)

Darüber hinaus liefert Apple noch eine Lernfunktion für den User – du kannst jederzeit fragen: “Siri, was kannst du tun?” und Siri liefert dir eine vollständige Liste der von ihr verstandenen Befehle.

Zu guter letzt sei noch eines angemerkt: Für alles was du zu deinem iPhone sagst, wird eine Internetverbindung benötigt um die Audiodateien für die Verarbeitung zu versenden. Damit ist klar, dass für die Ausführung Siri relativ viele Ressourcen benötigt werden. Natürlich sind Spracherkennung und künstliche Intelligenz noch nicht perfekt, aber ich bin mir sicher, dass sie in Zukunft noch viel intelligenter und benutzbarer werden. Jede neue iOS Version bringt in dieser Hinsicht Verbesserungen und gibt Siri ein noch besseres Kontextverständnis. In gewisser Weise lernt sie dich einfach immer besser kennen – vergiss also nicht, dass du in Wirklichkeit einen kleinen Stalker-Freund mit dir herumträgst. Laut Apple respektiert dieser Stalker allerdings deine Privatsphäre und teilt keine Informationen mit anderen…

Lust auf mehr? Melde dich jetzt für unseren Newsletter an!

CodeFlügel Sebastijan Draksler

Über den Autor

Sebastijan Draksler

Sebastijan braucht ständig neue Technologien in seinem Leben, arbeitet aber hauptsächlich mit iOS. In seiner Freizeit spielt er gerne Gitarre oder hört Musik. Außerdem liebt er den Geruch von italienischem Essen und vintage Verstärker.

Das könnte dich
ebenfalls interessieren

header ux blog

Let's talk about UX, baby!

openapi

OpenAPI 3.0 – Blaupause für REST APIs

datein app

Umstieg auf die Dateien-App

app security

App Security, die Zweite

smartwatch

Die 4 wichtigsten Smartwatch Plattformen 2019 aus Entwicklersicht

Gamification

Warum ist Gamification so effektiv und welche Anwendungsgebiete gibt es?

home assistant

DIY Home Automation mit Home Assistant

MLKit

Kein Smartphone ohne Smart-App – Ein Blick auf MLKit

künstliche Intelligenz

Mensch gegen Maschine – Wie menschlich ist künstliche Intelligenz?

User Experience

iOS Apps mit den Freuden einer modernen User Experience

gamification

Was ist Gamification und wie hilft es meinem Unternehmen?

chatbot

Chatbot zum Mitnehmen, mit extra smart

unity performance report

Unity Performance Reports

spracherkennung

Talk to the App — iOS Spracherkennung

vala

Verwenden von Vala für nativen Android Code

crash reporting

Crash Reporting in Android

smartwatch apps

Die Zukunft der Smartwatch Apps mit Android Wear 2.0

3d modelle

3D Modelloptimierung für mobile Endgeräte

app Sicherheit

Wie sicher ist meine App?

Zurück zur Übersicht