Apps | Artificial Intelligence

Talk to the App — iOS Spracherkennung

Ein Beitrag von Sebastijan Draksler
18. Mai 2017
spracherkennung
Eine App für dich Dinge erledigen zu lassen ist ziemlich produktiv und ziemlich cool – weil du damit zum Beispiel die Produktivität deines Unternehmens ankurbeln, Geld sparen oder auch einfach nur Spaß haben kannst. Wenn du dabei auch noch die neue iOS 10 Spracherkennungs-API nutzt, machst du noch dazu einen gewaltigen Schritt in die Zukunft.

Ich bin mir relativ sicher, dass jeder, der ein neueres iPhone Modell besitzt, schon einmal probiert hat mit Siri zu sprechen. Entweder um ihr Aufgaben zu geben oder sie etwas zu fragen. Viele nutzen auch die Diktierfunktion in den einzelnen Messenger Apps um in Windeseile Nachrichten zu verfassen.

 

Letztes Jahr, hat Apple außerdem sein Spracherkennungs-Framework für Entwickler zur Verfügung gestellt, sodass du eine solche Funktion jetzt auch in deine eigene App einbauen kannst. Momentan gibt es also zwei Wege um das Stück Metall in deiner Hand zum Zuhören  zu bewegen – SiriKit zur Erkennung außerhalb einer bestimmten App und Spracherkennung innerhalb. Beide nutzen dasselbe intelligente System um gesprochene in geschriebene Sprache zu übersetzen.

 

Wo liegen also die Unterschiede zwischen den beiden?

 

Spracherkennung

Grundsätzlich ist die Spracherkennung ein System, das Sprache in Text übersetzt – und zwar in allen auf dem Gerät bzw. im System verfügbaren Sprachen. Bis zu iOS 10, blieb den Entwicklern nichts anderes übrig, als die Spracherkennung bzw. Diktierfunktion zu nutzen. Die ist allerdings mit einigen Einschränkungen verbunden. Es ist beispielsweise unumgänglich eine Bildschirmtastatur einzublenden und die Spracherkennung funktioniert dann auch nur in der Sprache ebendieses Tastatur. Zudem gibt es auch kaum individuelle Konfigurationsmöglichkeiten.

 

 

Glücklicherweise ist das jetzt anders und du kannst deinen Nutzern ein gutes und vor allem schnelles Erlebnis bei der Spracheingabe bieten. Und mit der Spracherkennungs-API hast du da noch dazu (fast) völlig freie Hand. An ein paar Grundregeln musst du dich allerdings halten:

  • die Nutzer muss darauf hingewiesen werden, dass sie aufgezeichnet werden

  • Passwörter und andere sensible Daten dürfen nicht durch Spracheingabe erhoben werden

  • der erkannte Text muss dem Nutzer gezeigt werden, bevor eine Aktion erfolgt

Mit diesen Richtlinien im Hinterkopf kannst du nun also eine großartige User-Experience aufbauen wie du möchtest. Dabei kannst du entweder live-Sprachaufnahmen oder voraufgenommene Audiodateien nutzen. Das System ist wirklich äußerst genau, schnell und adaptiv.

 

 

Die Nutzer müssen nur auf den ‘Aufnahme’ Knopf tippen und schon hört ihnen die App zu – und macht im besten Fall wozu sie aufgefordert wird oder fragt ansonsten noch einmal nach, falls der Befehl unklar ist. Es ist also ganz einfach und die Möglichkeiten unbegrenzt.

spracherkennung

SiriKit, was kannst du alles?

Wie passt SiriKit nun in diese ganze Geschichte? SiriKit ist dazu da, um Siri’s „Gehör“ zu aktivieren und somit die richtigen Antworten zu liefern oder Befehle auszuführen. Das passiert, indem vom Siri Menü aus eine sogenannte App Extension aufgerufen wird. Diese App Extension besteht aus einem individualisierbaren Menü innerhalb deiner App, welches Siri als Suchresultat findet. Anders gesagt, kann Siri Nutzerfragen durch Aufrufen relevanter Informationen in anderen Apps beantworten. Dazu gibt es auch noch die Möglichkeit, MapKit in eine Suchanfrage zu integrieren um von Siri bestimmte Informationen zu erhalten.

 

 

All das verleiht der Sprachsteuerung auf Mobilgeräten natürlich eine ganz neue Dimension. Allerdings gibt es immer noch einige Einschränkungen was die Funktionalität und damit die potentiellen Anwendungen von SiriKit betrifft. Momentan gibt es „nur“ 9 verschiedene „Domains“, die mit SiriKit funktionieren – zukünftig werden es aber definitiv mehr werden. Aktuell kann SiriKit jedenfalls mit dem Folgenden umgehen:

  • VoIP Anrufe

  • Textnachrichten

  • Zahlungen

  • Fotos

  • Workouts

  • Buchungen

  • Befehle im Auto

  • CarPlay (nur verfügbar für Automobilhersteller)

  • Tischreservierungen (benötigt zusätzlichen Support von Apple)

Darüber hinaus liefert Apple noch eine Lernfunktion für den User – du kannst jederzeit fragen: “Siri, was kannst du tun?” und Siri liefert dir eine vollständige Liste der von ihr verstandenen Befehle.

 

Zu guter letzt sei noch eines angemerkt: Für alles was du zu deinem iPhone sagst, wird eine Internetverbindung benötigt um die Audiodateien für die Verarbeitung zu versenden. Damit ist klar, dass für die Ausführung Siri relativ viele Ressourcen benötigt werden. Natürlich sind Spracherkennung und künstliche Intelligenz noch nicht perfekt, aber ich bin mir sicher, dass sie in Zukunft noch viel intelligenter und benutzbarer werden. Jede neue iOS Version bringt in dieser Hinsicht Verbesserungen und gibt Siri ein noch besseres Kontextverständnis. In gewisser Weise lernt sie dich einfach immer besser kennen – vergiss also nicht, dass du in Wirklichkeit einen kleinen Stalker-Freund mit dir herumträgst. Laut Apple respektiert dieser Stalker allerdings deine Privatsphäre und teilt keine Informationen mit anderen…

 

Lust auf mehr? Melde dich jetzt für unseren Newsletter an!

CodeFlügel Sebastijan Draksler

Über den Autor

Sebastijan Draksler

Sebastijan braucht ständig neue Technologien in seinem Leben, arbeitet aber hauptsächlich mit iOS. In seiner Freizeit spielt er gerne Gitarre oder hört Musik. Außerdem liebt er den Geruch von italienischem Essen und vintage Verstärker.