
Das Bild vom digitalen Assistenten als Lautsprecher (plus Mikro) ist sehr unscharf, denn dabei handelt es sich im Grunde nur um die Benutzerschnittstelle. Das eigentliche Assistenzsystem befindet sich in der Cloud der großen Player und greift dort auf alle wichtigen Ressourcen zu. Dazu zählen insbesondere Spracherkennung (Speech-to-Text, STT) und Sprachausgabe (Text-to-Speech, TTS) sowie eine künstliche Intelligenz (KI), die die Absicht des Sprechers ermitteln soll.
Während der Ressourcenbedarf für die ersten beiden Disziplinen sich inzwischen in Grenzen hält, benötigt die KI so viel Rechenleistung und Daten, wie sie nur gerade bekommen kann. Darüber hinaus braucht sie einen Kontext sowie Schnittstellen zu anderen Anwendungen. Die Frage nach der Abfahrtszeit der nächsten S-Bahn lässt sich ohne das Wissen um den momentanen Standort und die übliche Fahrtrichtung nicht sinnvoll beantworten. Ebenso ergibt ein„setze Milch auf die Einkaufsliste“ ohne Zugriff auf eine Einkaufs-App keinerlei Sinn. Die Vorstellung, digitale Assistenten könnten auf magische Weise den Alltag erleichtern, ist