Sie sind auf Seite 1von 20

Enhancing

Audiovisual Experience with


Haptic Feedback: Eine Umfrage zum
HAV(E)

Zusammenfassung - Haptik wurde in einer Vielzahl von Anwendungen eingesetzt, die von
Teleoperation und medizinischer Simulation bis zu Kunst und Design reichen, einschließlich
Unterhaltung, Flugzeugsimulation und virtueller Realität. Gegenwärtig wächst auch die
Aufmerksamkeit der Forschungsgemeinschaft, wie haptisches Feedback mit Gewinn in
audiovisuelle Systeme integriert werden kann. Das Ziel dieses Papiers ist es, die Techniken,
Formalismen und Schlüsselergebnisse zur Verbesserung der audiovisuellen Erfahrung mit
haptischem Feedback zu präsentieren. Wir betrachten zunächst die drei Hauptschritte in der
Pipeline: (i) Erzeugung haptischer Effekte, (ii) Verteilung haptischer Effekte und (iii) Erzielung
haptischer Effekte. Wir betonen in diesem Zusammenhang die Notwendigkeit von
Bewertungstechniken und diskutieren die wichtigsten Herausforderungen in diesem Bereich.
Wenn wir auf Technologie und Ergebnissen aus der virtuellen Realität aufbauen und die
spezifischen Herausforderungen bei der Verbesserung der audiovisuellen Erfahrung mit
Haptik angehen, sind wir der Ansicht, dass das Feld aufregende Forschungsperspektiven
bietet, für die finanzielle und gesellschaftliche Interessen von Bedeutung sind.
Indexbegriffe - haptische Schnittstellen, Multimedia, audiovisuelle Medien und
Benutzererfahrung

1. EINLEITUNG

1962 führte Heilig [1] Sensorama ein, ein System, mit dem man einen 3D-Film anschauen,
Vibrationen wahrnehmen, Wind fühlen und Gerüche wahrnehmen kann. Diese Pionierarbeit
ebnete den Weg für die Erforschung der virtuellen Realität und bot hochentwickelte
Schnittstellen mit Echtzeitsimulationen und Interaktionen über mehrere sensorische Kanäle
[2]. In diesem Zusammenhang sind Interaktionen, die auf den Tastsinn (Haptik) angewiesen
sind, von zentraler Bedeutung. Der Einsatz haptischer Technologien erstreckt sich weit über
das einzige Feld der virtuellen Realität hinaus, da zahlreiche Anwendungen in der Medizin,
Robotik und im künstlerischen Bereich zu finden sind. Die virtuelle Realität hat jedoch die
Entwicklung und Bewertung zahlreicher haptischer Schnittstellen ausgelöst, um komplexe
physikalische Interaktionen mit virtuellen Objekten zu ermöglichen und zu verstehen [3] [4].
Im Gegensatz dazu konzentrieren sich Forschungs- und Technologieentwicklungen für
audiovisuelle Unterhaltung im Wesentlichen auf die Verbesserung von Bild und Ton. Obwohl
der Einsatz und die potenziellen Auswirkungen auf die Industrie sehr bedeutend zu sein
scheinen, bleibt das haptische Feedback in einem multimedialen Kontext, d. H. Das haptische
Feedback in Kombination mit einem oder mehreren Medien wie Audio, Video und Text,
unzureichend. Nur wenige Systeme, die als „4D-Kinos“ bekannt sind, nutzen diese
Technologie. Die Anzahl der Beiträge, die das Potenzial haptischer Rückmeldungen für
Multimedia untersuchen, nimmt jedoch zu. Parallel dazu haben Beiträge in der virtuellen
Realität wie Reiner [5] gezeigt, dass haptisches Feedback ein entscheidender Faktor für das

1
Eintauchen von Benutzern ist, was für Anwendungen in der Unterhaltung von großem
Interesse ist.
(Quelle
Neueste Arbeiten verteidigen diese Ansicht. O'Modhrain et al. [6] 19)
haben in der Tat gezeigt, dass die Vorteile von haptischem Feedback, die in der virtuellen
Realität beobachtet werden, auch für Multimedia-Anwendungen zutreffen. Darüber hinaus
beobachteten die Forscher, dass haptisches Feedback neue Möglichkeiten für das Erleben
audiovisueller Inhalte eröffnen kann: Die Beziehung zwischen Benutzern und audiovisuellen
Inhalten ist nicht auf einen passiven Kontext beschränkt, in dem der Benutzer nur zuhört und
Uhren beobachtet, sondern könnte die physische Implikation für ein immersiveres Erlebnis
(52) ermöglichen [7]. Neben dem physischen Erleben der audiovisuellen Inhalte kann der Benutzer
erwarten, eine ergänzende Information zu erhalten oder durch haptische Interaktion eine
Emotion zu spüren, ein Schritt hinter der Immersion. Daher ist die Haptik ein vollständiges
Medium, und die Kombination von Haptik und audiovisuellem Inhalt wird zu einem haptisch-
(53)
audiovisuellen (HAV [8]) Inhalt. Daher ist das Thema haptisches Feedback zur Verbesserung
der audiovisuellen Erfahrung nicht unbedingt Teil des Bereichs der virtuellen Realität, sondern
steht mit seinen spezifischen Anforderungen und wissenschaftlichen Herausforderungen für
sich.
Daher werden in diesem jungen Studiengebiet viele Fragen gestellt. Wie kann haptische
Technologie im audiovisuellen Bereich eingesetzt werden? Inwiefern können Haptiken die
Wahrnehmung und das Verständnis der audiovisuellen Inhalte durch den Benutzer
beeinflussen und wie können Haptiken effizient in Verbindung mit Bild und Ton eingesetzt
werden? Wie ist die Akzeptanz komplexer haptischer Schnittstellen für Benutzer? Wie
beurteilen Sie die Qualität der Benutzererfahrung? Inwieweit kann in verschiedenen
Betrachtungsszenarien (mobiles Fernsehen, Kino oder Wohnraum für Benutzer,
möglicherweise geteilt) mit möglicherweise unterschiedlichen Geräten ein gleicher haptischer
Effekt auftreten?
Ziel dieser Umfrage ist es, die Ergebnisse dieses jungen Forschungsfeldes zu sammeln und zu
klassifizieren, indem die wichtigsten Herausforderungen ermittelt werden. Wir werden dann
auf diesen Herausforderungen aufbauen, um zukünftige Forschungspfade für unsere
Hauptfragen vorzuschlagen.
Das Papier ist wie folgt organisiert. Wir werden zunächst einen allgemeinen Arbeitsablauf für
das Hinzufügen von haptischen Effekten zu audiovisuellen Inhalten vorschlagen und
beschreiben und auf diesen Arbeitsablauf aufbauen, um seine drei Hauptstufen detailliert
darzustellen: (i) Produktion von haptischen Effekten, (ii) Verteilung von haptischen Effekten
und (iii) ) Rendern haptischer Effekte. Anschließend werden Techniken zur Bewertung der
Erlebnisqualität der Benutzer (QoE) in solchen Systemen hervorgehoben und diskutiert.
Abschließend werden wir die steigenden Forschungsperspektiven auf diesem Gebiet
diskutieren.






2
2. EIN WORKFLOW ZUM HINZUFÜGEN VON HAPTIC FEEDBACK ZU
AUDIOVISUELLEN INHALTEN

In dieser Umfrage schlagen wir vor, wissenschaftliche und technische Beiträge entlang des
typischen Arbeitsablaufs für Video-Streaming zu organisieren, der drei Stufen umfasst: (i)
Produktion, (ii) Vertrieb und (iii) Rendering (siehe Abbildung 1). Wir werden den Begriff HAV
verwenden, um sich auf haptische audiovisuelle Medien zu beziehen, die Eigenschaft eines
Systems, das audiovisuelle Inhalte umfasst, die durch eine haptische Erfahrung (wie von [8]
eingeführt) erweitert wurden, und wir werden den Begriff „haptischer Effekt“ zur
Bezeichnung nennen die Verwendung eines haptischen Feedbacks in audiovisuellen Inhalten
(eine Verallgemeinerung des Begriffs, der im spezifischen Kontext der Videobetrachtung
verwendet wird [6] [9] [10]).
Die erste Phase des Workflows befasst sich mit der Produktion des Inhalts, d. H. Wie haptische
Effekte in Synchronisation mit den audiovisuellen Inhalten erzeugt oder erzeugt werden
können. Typischerweise ergeben sich drei Techniken aus der Literatur: die Erfassung und
Verarbeitung von Daten, die von Sensoren erfasst wurden, die automatische Extraktion einer
audiovisuellen Komponente (Bild, Audio oder Anmerkungen) aus einer Komponente und
schließlich die manuelle Erstellung von haptischen Effekten. Diese Produktionstechniken und
Werkzeuge werden in Abschnitt 3 besprochen.
Die zweite Stufe des Workflows befasst sich mit der Verteilung von haptischen Effekten.
Angesichts der Tatsache, dass derzeitige Technologien eine massive Verbreitung von Medien
über die Netzwerke ermöglichen, besteht eine starke Anforderung an die Verteilung
haptischer Effekte mit dem Inhalt, was wiederum Fragen zur Formalisierung haptischer
Effekte aufwirft. Als haptischer Rundfunk bezeichnet (ein Begriff, der von Cha et al. Eingeführt
wurde [11]), definiert der Begriff die synchronisierte Übertragung haptischer Effekte über
Netzwerke, für die Modelle, Formalisierungen und Techniken in Abschnitt 4 behandelt
werden.
Die letzte Stufe bezieht sich schließlich auf das Rendern des Inhalts, genauer gesagt, wie ein
kodierter haptischer Effekt auf einem bestimmten haptischen Gerät dargestellt und vom
Benutzer erlebt werden kann. In der Literatur wurde eine Reihe von Techniken und Geräten
vorgeschlagen, und Abschnitt 5 bietet einen breiten Überblick über die Beiträge nach
Gerätetyp (tragbar, tragbar, Schreibtisch oder Stuhl).
Übergreifend für Produktion, Vertrieb und Rendering ist die Bewertung der
Benutzererfahrung. Während die Ansätze sich stark auf die technischen Aspekte dieser drei
Stufen konzentrierten, ist es eindeutig notwendig, die Qualität der mit Haptik verbesserten
audiovisuellen Erfahrungen zu messen und gemeinsame Instrumente und Metriken für solche
Bewertungen bereitzustellen. Wir beziehen uns auf den Begriff Qualität von
Erfahrung (QoE siehe [12]) und einen Überblick in Abschnitt 6.










3

3. PRODUKTION

Die Produktion hat die Aufgabe, haptische Effekte zu erzeugen, um einen audiovisuellen Inhalt
zu verbessern. In der Literatur wurden drei Methoden beschrieben: (i) Erfassen von
haptischen Effekten aus der realen Welt mithilfe von physischen Sensoren, (ii) Erzeugen von
haptischen Effekten durch eine automatisierte Analyse von Audio- und / oder visuellen
Inhalten und (iii) manuelles Synthetisieren von Haptik Effekte von Grund auf oder durch
Bearbeiten der mit den vorherigen Methoden erzielten Effekte. Bevor alle drei Methoden
detailliert beschrieben werden, wird in dieser Umfrage eine Klassifizierung der haptischen
Effekte anhand ihrer Wahrnehmungsmerkmale (taktile, kinästhetische und
propriozeptionelle) vorgeschlagen.

3.1 Haptische Effekte für audiovisuelle Inhalte
In einigen Beiträgen wurde bereits über Klassifizierungen haptischer Effekte berichtet, von
denen Waltl die umfassendsten vorschlägt [13]. Der Autor beschrieb einige sensorische
Effekte wie Geschmack, Geruch und Haptik. Die berichteten haptischen Effekte waren
Temperatur, Wind, Ganzkörpervibration, Wasserspritze, passive kinästhetische Bewegung
und Kraft (der Benutzer hält einfach ein Kraftrückkopplungsgerät), aktive Kinästhetik (der
Benutzer kann den Inhalt dank einer Kraftrückmeldung aktiv untersuchen Gerät), taktile und
starre Körperbewegung (der gesamte Körper des Benutzers wird wie in
Bewegungssimulatoren bewegt). Diese Klassifizierung wurde so aufgebaut, dass jeder Effekt
direkt mit einem bestimmten Gerät verknüpft war.
Im Gegensatz dazu basiert die von uns vorgeschlagene Klassifizierung auf haptischen
Wahrnehmungsfähigkeiten. In der haptischen Gemeinschaft wird haptisches Feedback häufig
in zwei Kategorien unterteilt: taktiles und kinästhetisches Feedback. In der Literatur werden
drei Arten von taktilen Reizen beschrieben: Wahrnehmung von Schwingungen, Druck [14] und
Temperatur [15]. Auf ähnliche Weise können zwei Arten kinästhetischer Reize definiert
werden [16]: Wahrnehmung von Bewegungen (und Positionen der Gliedmaßen der Benutzer)
und Wahrnehmung von Kräften. Eine letzte Art haptischer Wahrnehmung kann diejenige sein,
die sich aus der Bewegung des eigenen Körpers des Benutzers ergibt [17]. Sowohl das
vestibuläre System als auch das haptische System (Bewegung der Gliedmaßen und der inneren
Organe, d. H. Der Propriozeption) tragen zur Wahrnehmung bei.
Wir bauen auf dieser Klassifikation auf und schlagen eine Tabelle vor, in der die haptischen
Effekte 1 in HAV-Systemen zusammengefasst werden, in denen jede Kategorie auf Beiträge
aus der Literatur abgebildet ist (die jeweils in diesem Dokument erörtert werden). Der Leser
kann sich auch mit Gewinn auf die Richtlinien der haptischen Community beziehen, um
vibrotaktile Effekte [18] oder haptisches Feedback in multimodalen Umgebungen [19] zu
entwerfen. Offensichtlich können diese einheitlichen Effekte kombiniert werden, um
komplexere Effekte zu erzeugen (der haptische Effekt einer Explosion kann durch die
Kombination von Temperatur und Vibrationen definiert werden).
Interessanterweise werden haptische Effekte meistens verwendet, um physikalische
Ereignisse darzustellen, die in der Szene auftreten (vgl. Tabelle 1). Der Benutzer nimmt Reize
wahr, die in direktem Zusammenhang mit dem audiovisuellen Inhalt stehen (z. B.
Unebenheiten beim Fahren im Gelände), wodurch das körperliche Ereignis verstärkt und das
Gefühl „physisch anwesend“ verstärkt wird. Andere Aspekte eines audiovisuellen Inhalts
können jedoch verbessert werden, beispielsweise das Ambiente (siehe Kim et al. [20]).

4
Tatsächlich kann man die Parallele zwischen der Rolle von haptischen Effekten in
audiovisuellen Inhalten und der von Audio in Filmen ziehen: Audio wird zur Steigerung des
Realismus (Soundeffekte) sowie zur Schaffung von Ambiente (Musik) verwendet. In Filmen
wird eine klare Trennung zwischen Diegetic-Sounds (ein Sound, für den die Quelle auf dem
Bildschirm sichtbar ist) und nicht-Diegetic-Sounds (ein Sound, für den die Quelle weder
sichtbar noch in der Aktion enthalten ist, normalerweise ein Sprecher) Kommentar oder
Stimmungsmusik). Nichtdiagetische haptische Effekte bieten daher ein großes Potenzial,
nicht-visuelle Inhalte zu erhöhen, indem sie dazu beitragen, die vom Benutzer
wahrgenommenen Informationen, die Umgebung oder die Emotionen zu verbessern.
Die Verbesserung von Informationen, Ambiente oder Emotionen mit haptischen Effekten ist
nicht einfach. In Bezug auf die emotionalen Aspekte eines Videos untersucht der Designer für
haptische Effekte möglicherweise Ergebnisse aus der Erforschung affektiver Haptik: Neuere
Arbeiten versuchen, Affekt mit haptischem Feedback zu kommunizieren [21], während andere
mit Hilfe haptischer Muster die Emotionen des Benutzers auslösen [22] [23] ].

Abbildung 1. Arbeitsablauf zum Hinzufügen von haptischen Effekten zu audiovisuellen Inhalten In dieser Umfrage schlagen
wir vor, haptische Effekte als Bestandteil eines Multimediainhalts zu betrachten. Effekte werden in der Regel parallel zum
audiovisuellen Inhalt im Wohnraum des Nutzers produziert, verteilt und wiedergegeben.


3.2 Erfassung haptischer Effekte aus der realen Welt
Ein erster Ansatz zum Erstellen haptischer Effekte besteht darin, haptische Effekte zu erfassen,
die sich auf ein Objekt oder einen Schauspieler einer Szene beziehen. Piezoelektrische
Sensoren können auch verwendet werden, um Kräfte [6] oder Vibrationen zu erfassen,
Beschleunigungsmesser werden jedoch meistens verwendet, um Beschleunigungen zu
erfassen und auf das Zielobjekt einwirkende Kräfte abzuleiten. Brady et al. [36] ausgerüstet
mit einem ferngesteuerten Auto, um Beschleunigungen auf den X-, Y- und Z-Achsen zu
erfassen. Diese aufgezeichneten Daten wurden dann direkt an das Steuergerät des Benutzers
übertragen. Aufgezeichnete Beschleunigungen auf den X- und Y-Achsen steuern ein
eingebettetes 2DoF-Force-Feedback-Gerät und die Beschleunigung auf der Z-Achse treibt ein
Vibrationsgerät an. In ähnlicher Weise haben Danieau et al. [35] platzierte eine Kamera
zusammen mit einem Beschleunigungssensor auf der Brust eines Schauspielers, um ein Point-
of-View-Video der ersten Person und die damit verbundene Bewegung aufzunehmen.
Verschiedene Szenarien wurden verwendet, um verschiedene Arten von Bewegungen zu
erfassen: Fahrrad fahren, Reiten, Bremsen oder Wenden im Auto, und die Videos wurden mit
haptischen Krafteffekten abgespielt, die durch die aufgezeichneten Beschleunigungen erzeugt
wurden. Kuchenbecker et al. [37] folgte einem datenbankgesteuerten Ansatz, indem
haptische Ereignisse in einer Datenbank aufgezeichnet wurden, um später Teile
wiederzugeben. Die Autoren verzeichneten Beschleunigungen, die sich aus dem Einfluss eines

5
Stiftes auf verschiedene Materialien (Holz, Schaum) ergeben. Diese Beschleunigungen werden
in Kräfte umgewandelt und durch ein Force-Feedback-Gerät wiedergegeben, wenn der
Benutzer virtuelle Materialien berührt.
Der zweite Ansatz besteht darin, haptische Effekte zu erfassen, die sich auf die gesamte Szene
beziehen. In Lösungen wurde der Einsatz von Tiefenkameras (oder 2.5D-Kameras) zum
Erstellen von berührbaren Bildern untersucht [10]. Mit 3D-Trackern [38] könnte ein genaueres
Ergebnis erzielt werden, diese Geräte sind jedoch teurer und die Analyse der Szene wäre
länger. Das Problem der Erfassung haptischer Effekte bleibt durch die verfügbare Hardware
for adding haptic effects to audiovisual content. In this survey, we propose to consider haptic
stark eingeschränkt. Im Vergleich zu Video und Ton gibt es eine begrenzte Anzahl von Geräten,
ent of a multimedia content. Effects are typically produced, distributed and rendered in the user
hauptsächlich Beschleunigungssensoren und 3D-Kameras mit erheblichen Schwankungen in
el to the audiovisual content.
Bezug auf Präzision und Kosten.
Haptic Perception Haptic Effect Ref.
erceives stimuli which are directly re- Temperature [24] [25]
sual content (e.g. bumps when driv- Vibration [26] [27] [23] [13]
Tactile
ore augmenting the physical event [28] [20] [25]
Pressure [29] [25] [30] [31]
sense of “being physically present”. Movement [32] [33]
ects of an audiovisual content can Kinesthetic
Force [34] [9] [10] [33]
as ambiance (see Kim etal. [20]). [35]
draw the parallel between the role Proprioception Body Motion D-Box9
Mediamation10
audiovisual contents and the one of
dio is used for increasing the realism Table 1
ell as for creating ambiances (music). List of potential Haptic Effects for audiovisual content.
eparation is drawn between diegetic Unitary effects can be combined to create complex
r which the source is visible on the effects.

getic sounds (a sound for which the

nor implied in the action, typically
omment or mood 3.3 Automatische Extraktion von haptischen Effekten aus automatischen Inhalten
music). Therefore,
feedback device and acceleration on the Z-axis drives
Haptische
tential in non-diagetic hapticEffekte
effects können auch automatisch durch Extraktion erzeugt werden. Die
contributing to en- a vibration device. Similarly, Danieau et al. [35] placed
sual content by Schlüsselidee ist, haptische Effekte zu erzeugen, die mit den Medieninhalten übereinstimmen,
n perceived by the user, ambiance or a camera together with an accelerometer on an actor’s
um bestimmte Aspekte hervorzuheben. Beispielsweise kann eine Szene, die eine Explosion
chest to capture a first-person point-of-view video and
mation, ambiance or emotion with the Rückkopplungen
zeigt, durch haptische associated motion. wie Different scenariosund
Vibrationen wereHitze
used verbessert
to werden. In
capture different kinds of movements: riding a bike,
ot straightforward. diesem Fall kann die Video- und Tonanalyse verwendet werden, um Explosionen zu erkennen
With regard to
f a video, the haptic effect designer riding a horse, being in a car braking or turning, and the
und automatisch haptische Effekte hinzuzufügen.
from research on affective haptics: videos were replayed with haptic effects of force gener-
Die automatische Extraktion kann in der Produktionsphase oder in der Renderphase erfolgen
pt to communicate affect with haptic ated from the recorded accelerations. Kuchenbecker et al.
(vgl. Abbildung 1). In der Produktionsphase werden haptische Effekte automatisch generiert
others trigger user’s emotion with [37] followed a database-driven approach by recording
haptic events in a database to replay parts later. The
atterns [22] [23].und können vom Ersteller geändert werden. In der Renderphase werden auf der Clientseite
authors recorded accelerations resulting from the impact
automatisch haptische Effekte generiert.
of a stylus on different materials (wood, foam). These
ptic effects fromIn theden
realfolgenden
world Abschnitten
accelerationsüberprüfen
are transduced wir into
die forces
Generierung
and replayed aus byvisuellen, Audio- und
creating haptic Metadaten-Inhalten.
effects is to capture a force-feedback device when the user touches virtual
d to an object or actor of a scene. materials.
rs can also be used to capture forces The second approach consists in capturing haptic ef-
, most of the time, 3.3.1 Generierung aus visuellen Inhalten
accelerometers are fects related to the whole scene. Solutions have explored
Eine klassische
lerations and deduce forces appliedMethode
the usezum
of Extrahieren
depth cameras von (orInhalten aus einem
2.5D cameras) audiovisuellen Medium
to build
besteht in der Verwendung von Videoanalysetechniken. Typische Algorithmen
t. Brady et al. [36] equipped a radio- touchable images [10]. A more precise result could be stützen sich
ture accelerationsauf on X,Y and Z axes. obtained with 3D trackers [38] but these devices are more
Merkmalsdetektoren, um interessierende Punkte in einem Bild zu extrahieren, um
a were then directly transmitted and expensive and the analysis of the scene would be longer.
weiterentwickelte Informationen zu erstellen (z. B. Objektidentifikation) [39]. Diese
’s control device. Recorded accelera- The problem of capturing haptic effects remains strongly
Algorithmen schlugen wichtige Variationen in den von ihnen vorgeschlagenen Merkmalen vor
es control an embedded 2DoF force- constrained by the available hardware. In comparison
(Robustheit gegenüber Lichtvariationen, Bewegung, Berechnungskosten). Einige spezielle
Algorithmen dienen dazu, bestimmte Merkmale wie Gesichter [40] oder Bewegung [41] zu
erkennen. Das Erkennen von Ereignissen ist ebenfalls möglich. Video-Abstraktion [42] und
Video-Data-Mining [43] wurden beide für die Ereigniserkennung verwendet, sind jedoch auf
bestimmte Themen wie Sportspiele beschränkt, bei denen der Umfang der Ereignisse

6
begrenzt und a priori bekannt ist. Sobald das anvisierte Ereignis im audiovisuellen Inhalt
erkannt wird, könnte der haptische Effekt generiert werden. Zum Beispiel wurde von Re ́hman
et al. [27] haben gezeigt, wie Ereignisse automatisch aus einem Fußballspiel-Video extrahiert
und mit einem vibrotaktilen Gerät angezeigt werden. Fünf Schwingungsmuster wurden
entworfen, um die Position des Balls auf dem Feld, für das führende Team oder die Tore
darzustellen. Der Beitrag konzentrierte sich jedoch hauptsächlich auf das Rendern der Effekte
und nicht auf die Videoanalyse. Frühere Arbeiten wurden im Rahmen der sensorischen
Substitution durchgeführt [44]. Ziel war es jedoch, haptisches Feedback zu verwenden, um
visuelle Informationen zu ersetzen, anstatt Haptik als Ergänzung dieser Daten zu verwenden.
Die Schwierigkeit, haptische Informationen direkt aus einem Video zu extrahieren, wurde von
Mc Daniel et al. [38]. Um das Problem zu vereinfachen, bauten die Autoren eine Datenbank,
die visuelle Informationen (Bild eines Objekts) mit haptischen Informationen (3D-Form des
Objekts) abbildet. Sie sind darauf angewiesen, dass die Datenbank eine geeignete haptische
Rückmeldung für ein aus visuellen Informationen identifiziertes Objekt generiert.
Selbst wenn der Computer Vision eine breite Palette von Werkzeugen bietet, wurden die
meisten Techniken nicht detailliert untersucht, um haptisches Feedback zu analysieren und zu
generieren. Darüber hinaus muss sich der interessierte Leser mit den typischen
Fragestellungen des Feldes (Robustheit, Anpassungsfähigkeit des Erkennungsalgorithmus
[39]) befassen.

3.3.2 Erzeugung aus Audioinhalten
Haptische Effekte können auch aus den Audioinhalten der audiovisuellen Medien erstellt
werden. Der Hauptansatz besteht darin, das akustische Signal in ein für Vibrationsmotoren
geeignetes Signal umzuwandeln. Chang und O’Sullivan [45] verwendeten ein Bandpassfilter,
um die mit einem Vibrationsmotor anvisierten Frequenzen zu isolieren und das
Ausgangssignal auf diesem Gerät zu verstärken und wiederzugeben. Dieses System wurde für
Mobiltelefone entwickelt, die dann nach Klingeltönen vibrieren. Die MOTIV1-
Entwicklungsplattform von Immersion ist ein ähnliches, kommerziell erhältliches System.
Darüber hinaus ermöglicht ein Modul mit der Bezeichnung „Reverb“ das automatische
Hinzufügen von haptischen Effekten zu jeder Anwendung, die den Ausgangsaudiostrom
verwendet.
Der von Nanayakkara et al. [46] ist noch direkter und erfordert keine Verarbeitung des
Audiostroms. Die Autoren entwickelten einen Stuhl für Gehörlose, der Musik und Vibrationen
erzeugt. Der Ton wird von bestimmten, am Sitz angebrachten Lautsprechern abgespielt, die
die Vibrationen auf die Oberfläche übertragen, an der sie befestigt sind.
Die meiste Forschung folgt dieser einfachen Technik, bei der versucht wird, Audio mit
Vibrationen umzuwandeln. Um diesen Ansatz zu erweitern, könnte man versuchen, die vom
Audiostrom übertragenen Informationen darzustellen. Dann wären Audio-Analysetechniken
nützlich, um bestimmte Merkmale zu extrahieren. Zum Beispiel erlaubt das von Zhang und
Kuo vorgeschlagene System [47], Musik, Sprache und Umgebungsgeräusche in einem
Audiosignal zu identifizieren.

3.3.3 Generierung aus Metadaten
Metadaten können Informationen zu Bewegungen oder physischen Eigenschaften von
Objekten innerhalb des Mediums enthalten. Yamaguchi et al. [9] extrahierte Daten aus einer
Flash2-Animation, um eine Kraftrückmeldung zu berechnen, während der Benutzer den Inhalt
untersucht. Da mit diesem Format auf die Geometrie und Position von Elementen in der 2D-
Animation zugegriffen werden kann, ist es möglich, ein Kraft-Feedback zu berechnen, das sich

7
auf eines der Objekte in der Szene konzentriert. Die Autoren definierten eine virtuelle Masse
für das anvisierte Objekt und berechneten ein Kraft-Feedback bezüglich der Beschleunigung
und Masse dieses Objekts. Diese Technik kann auf Computeranimationen angewendet
werden, bei denen das 3D-Modell der Szene verfügbar ist. Das System bleibt jedoch
animationsspezifisch und eignet sich nicht für klassische Videos. Einige Datenformate
ermöglichen jedoch die Beschreibung audiovisueller Inhalte. Beispielsweise konzentriert sich
der MPEG-7-Standard auf die Beschreibung von Multimediainhalt und kann eine Beschreibung
der Bewegung innerhalb einer Szene enthalten [48], die viele Möglichkeiten für die Erzeugung
haptischer Effekte eröffnet.

3.4 Grafische Authoring-Tools zur Synthese von Effekteffekten
Obwohl haptische Effekte automatisch erstellt werden können, besteht die Forderung, sie vor
der Integration in audiovisuelle Inhalte zu erstellen oder Originaleffekte zu bearbeiten, die
nicht automatisiert erzeugt werden können.
Es wurden zwei Hauptkategorien von grafischen Autorenwerkzeugen entworfen. Mit dem
ersten können Benutzer das Verhalten eines oder mehrerer Stellglieder festlegen. In diesem
Fall muss der Designer dasselbe Gerät wie der Endbenutzer verwenden. In der zweiten
Kategorie bearbeitet der Designer haptische Hinweise, die der Benutzer wahrnehmen kann,
ohne sich auf bestimmte Hardware zu beziehen. Verschiedene Datenformate und grafische
Werkzeuge sind in Tabelle 2 zusammengefasst.

3.4.1 Geräteorientierte Effekte
In der ersten Kategorie kann das Verhalten von Aktuatoren definiert werden. Typischerweise
kann das Verhalten eines Aktuators gesteuert werden, indem eine Kurve angegeben wird, die
die Amplitude der Stimulation darstellt (Vibration oder zeitliche Kraft). Der Hapticons-Editor
[49] wurde erstellt, um Flugbahnmuster, die als "haptische Symbole" bezeichnet werden, auf
einem 1DOF-Force-Feedback-Gerät (einem Knopf) zu bearbeiten. Ryu et al. [50] haben die
Bearbeitung von vibrotaktilen Mustern in Betracht gezogen und den posVib-Editor erstellt, bei
dem das Verhalten des Vibrationsmotors ebenfalls durch eine Kurve dargestellt wird. Dieses
Tool wird in der Industrie bereits eingesetzt. Die zuvor erwähnte Entwicklungsplattform
MOTIV1 bietet einen Kurveneditor zum Entwerfen von vibrotaktilen Mustern für verschiedene
Geräte (Mobiltelefone, Gamepads usw.).
Grafische Schnittstellen unterscheiden sich stark, wenn sie das Verhalten eines Arrays von
Motoren bearbeiten möchten. Der Benutzer muss das Verhalten jedes Motors rechtzeitig
festlegen. Ein repräsentatives Beispiel wurde von Rahman et al. [28] und Kim et al. [20].

3.4.2 Benutzerorientierte Effekte
Die zweite Art von grafischen Werkzeugen konzentriert sich auf die Beschreibung, was der
Benutzer fühlen soll, anstatt zu definieren, wie sich Aktuatoren verhalten sollen. Dies
bedeutet, dass das haptische Rendern von dedizierter Software ausgeführt wird.
Das MPEG Rose Annotation-Tool wurde entwickelt, um sensorische Effekte mit multimedialen
Inhalten zu verknüpfen [13] (siehe Abschnitt 3.1). Es ermöglicht dem Designer, sensorische
Effekte entlang eines Films zu steuern. Auf einer Timeline können ein oder mehrere Effekte
hinzugefügt werden, die festlegen, wann sie beginnen und wann sie beendet werden.
Ein anderer Ansatz besteht darin, Materialeigenschaften von Objekten in einer Szene zu
beschreiben. Es bestimmt implizit, was der Benutzer fühlt, wenn er das Objekt berührt. Diese
Art von Werkzeug sieht aus wie 3D-Editoren, bei denen der Autor das von ihm bearbeitete
3D-Objekt direkt sieht. Dieses Mal bearbeitet der Autor keine visuellen Eigenschaften,

8
sondern haptische (Reibung, Steifheit). Wir verweisen die Leser auf die Präsentation des K-
Haptic Modeler sowie des HAMLAT-Tool [52], ein grafischer Editor für HAML (vgl. Abschnitt
4.1.1).

4. VERTRIEB

Die zweite Stufe besteht darin, haptische Effekte in Daten zu formalisieren, die mit den
audiovisuellen Medien synchronisiert, gespeichert und übertragen werden sollen. Auch wenn
die Reichweite und Art der haptischen Effekte noch nicht genau definiert ist, gibt es mehrere
Versuche, Formalisierungen zu provozieren. Diese Formate sind in Tabelle 2
zusammengefasst. Dort werden, sofern verfügbar, die zugehörigen Authoring-Tools (siehe
Abschnitt 3.4) und Lösungen zur Übertragung von haptischen Effekten über das Netzwerk
angezeigt (vgl. Spalte Video-Container von Tabelle 2).

4.1 Datenformate für haptische Effekte
Es wurden mehrere Werke identifiziert, in denen ein Format zur Beschreibung haptischer
Rückmeldungen für audiovisuelle Inhalte vorgeschlagen wird, aber auch andere,
allgemeinere, die in diesem Zusammenhang verwendet werden können. Wir werden auf XML
basierende Beiträge, eine vielseitige Beschreibungssprache, auf CSV, ein einfaches Format
zum Speichern von Daten, und auf VRML, eine Sprache für die Beschreibung von 3D-Welten,
ausführlich erläutern.
Aus diesen Studien können wir zwei Arten von Formaten hervorheben, um haptische Effekte
zu bezeichnen, wie sie in den Grafischen Autorenwerkzeugen (vgl. Abschnitt 3.4) angegeben
sind. Die erste Kategorie ist geräteorientiert und definiert das Verhalten von Aktuatoren. Die
zweite Kategorie ist benutzerorientiert und beschreibt Daten aus Sicht des Benutzers. Die
Wahl eines Formats beeinflusst die Art und Weise, in der die Rendering-Phase gehandhabt
werden muss. Beide Ansätze sind in Tabelle 2 zusammengefasst.
Das Problem der Formalisierung haptischer Effekte wird von Unternehmen wie D-Box9 oder
Immersion1 gelöst, die kommerzielle Lösungen für die Umsetzung haptischer Effekte für
audiovisuelle Inhalte bieten. Zum Beispiel hat D-Box eine proprietäre Sprache entwickelt, um
haptische Effekte, einen sogenannten D-Box Motion CodeTM, zu einem Film hinzuzufügen.
Details zu diesen Formaten sind derzeit jedoch nicht verfügbar, und die Ausgabe haptischer
Effekte ist vom Endbenutzer nicht zulässig.

4.1.1 XML-basiert
Der erste Weg, um haptisches Feedback zu formalisieren, basiert auf der XML-Sprache. Die
HAML-Sprache [54] steht für Haptic Application Meta-Language und ist ein generisches
Format zur Beschreibung von haptischem Feedback, das Informationen über haptisches
Gerät, haptisches Rendering und visuelles Rendering enthält (vgl. Listing 1). Das Ziel dieses
Formats ist es, jede haptische Schnittstelle mit jeder virtuellen Welt verwenden zu können.
Auf diese Weise passt das System das haptische Rendering an die Fähigkeiten der
verwendeten haptischen Schnittstelle an. Diese Sprache ist für Virtual-Reality-Anwendungen
bestimmt, könnte jedoch zur Beschreibung von Szenen in einem audiovisuellen Inhalt
verwendet werden: Objekte und deren Position, Geometrie, haptische Eigenschaften
(Steifigkeit, Dämpfung, Reibung) usw. Dieses Format entspricht dem MPEG-7-Standard, der

9
sich ergibt standardisierte Werkzeuge zur Strukturierung und Organisation von 6
Beschreibungen multimedialer Inhalte [48].
Type of Effect Format Data Content GUI Video Container Ref.

MPEG-V Description and organization of Yes (MPEG RoSE [13] [53]


MPEG-2 TS
(XML) sensory effects in a multimedia content Annotation Tool)
Description of a 3D scene, haptic [54] [52]
MPEG-7 (XML) Yes (HAMLAT) n/a
device and haptic rendering
Haptic properties of a 3D scene: Yes [51]
XML n/a
User-oriented friction, stiffness, etc. of objects (K-HapticModeler)
Description of 3D objects and [55]
VRML No n/a
associated haptic rendering methods
MPEG-4 BIFS Information about depth, sifftness, [10]
No MPEG-4
(VRML) friction of a scene
CSV Information about motion into a scene No n/a [35]

Yes (Hapticon [49]


CSV Trajectory patterns n/a
Editor)
Yes (PosVibe [50]
Vibration patterns n/a
Editor)
Description of haptic devices
Device-oriented [56]
XML properties and description of how they Yes (TouchCon) n/a
are activated
Vibration patterns of a tactile array Yes n/a [28]

MPEG-4 BIFS [20] [33]


Vibration patterns of a tactile array Yes MPEG-4
(VRML)

Table 2

Tabelle 2
Overview of existing formats to edit and store haptic effects. Two types of haptic effect can be described: effects
Übersicht über vorhandene Formate zum Bearbeiten und Speichern von haptischen Effekten. Es können zwei Arten von
focused on what the user will perceive (User-oriented), and effects focused on how the actuators will behave
haptischen Effekten beschrieben werden: Effekte, die sich auf das konzentrieren, was der Benutzer wahrnimmt
(Device-oriented). Most of the time a graphical user interface is designed to easily edit data. Some formats are
(benutzerorientiert), und Effekte, die sich auf das Verhalten der Aktuatoren konzentrieren (geräteorientiert). Meistens ist
compatible with a container allowing to embed both audiovisual and haptic contents and to be distributed via
eine grafische Benutzeroberfläche so konzipiert, dass Daten leicht bearbeitet werden können. Einige Formate sind mit
streaming platforms.
einem Container kompatibel, der das Einbetten von audiovisuellen und haptischen Inhalten ermöglicht und über
Streaming-Plattformen verbreitet werden kann.

Verbindung mit der Videowiedergabe anstützt acceleration of 30cm.s is less straightforward (cf.
2
<In
HAMLenger
> 1 sich die von Waltl [13] beschriebene
... Listing 2). At the time of this paper, this language is
Sensory
<SceneDS>Effect Description Language ebenfalls 2
3
auf
close to XML. Mit dieser
be standardized by the Sprache
MPEG working können group Sie
Multimediainhalte
<O b j e c t>
<Type>Mesh</Type>
mit sensorischen Effekten as 4
5
versehen:
the MPEG-V Filme,
formatVideospiele,
[57]. Internet usw.
Benutzer <Namekönnen
...
Effektgruppen
>Cube</Cube> erstellen und
6
mit
<s e d l :anderen
SEM> Medien synchronisieren (siehe 1
7 <s e d l : E f f e c t x s i : type=” sev : 2
Liste der <T Effekte
a c t i l e> in Abschnitt 3.1). Für jeden Effekt RigidBodyMotionType
8 kann der Designer ” a c tmindestens
i v a t e =” t r u e ” s seine
i:
<S t i f f n e s s>0 . 8</ S t i f f n e s s> 9 p t s =” 1593000 ”>
Intensität und Dauer angeben. Geräte und Techniken zum Rendern des Effekts sind jedoch
<Damping>0 . 9</Damping> 10 <sev : MoveToward d i s t a n c e =” 200 ” 3
<S F r i c t i o n>0 . 5</ S F r i c t i o n> a c c e l e r a t i o n =” 30 ”/>
nicht festgelegt. Wenn die Umwandlung einer Intensität
</ s e d l : E f fin Vibrationen einfach ist, ist die
11
<D F r i c t i o n>0 . 3</ D F r i c t i o n> 12 e c t> 4
</ T a c t i l e>
Wiedergabe einer Vorwärtsbewegung von mehr als 2 Metern mit einer Beschleunigung von
</ O b j e c t>
13
14
<s e d l : GroupOfEffects s i : p t s =” 1647000 ”>
<s e d l : E f f e c t x s i : type=” sev : VibrationType
5
6

30cm.s −
</SceneDS>
</HAML>
2 weniger einfach (vgl. Listing 2). Zum
15
16
Zeitpunkt ” adieses
c t i v a t e =”Artikels
t r u e ” i n tist
100 ” i n t e n s i t y value=” 10 ”/>
e n s diese Sprache
i t y range=”0

nahezu von der MPEG-Arbeitsgruppe als MPEG-V-Format standardisiert [57].


Listing 1. Example of a HAML file (xml-based) [8]. Here
<s e d l : E f f e c t x s i : type=” sev : WindType” 7
a c t i v a t e =” t r u e ” i n t e n s i t y range=”0
Bei einem Ansatz für Instant Messaging-Anwendungen haben Kim et al. [56] entwickelte ein
haptic properties (stiffness 100 ” i n t e n s i t y value=”5”/>
</ s e d l : GroupOfEffects>
XML-basiertes Format zum Austausch von haptischem
</ s e d l : SEM> Feedback: "TouchCons". Dadurch
8
In close relation with video viewing, the Sensory Effect 9

können Benutzer
Description Language described haptische Nachrichten
by Waltl senden
[13] also relies Listing(z. 2.B. Example
Vibrationsmuster
of a MPEG-V oder thermische
file (xml-based) [13].
on XML. This language is designed to add sensory effects Here a “Move Toward Effect” is defined followed by
Effekte). Dieses System besteht aus zwei Hauptdateien. Erstens enthält die Bibliotheks-XML
to any multimedia content: movies, video games, web, a group of effects combining a “Wind Effect” and a
eine
etc. Liste
Users canmit create haptischen
groups of effectsNachrichten und wie
and synchronize diese Effect”.
“Vibration gerendert werden sollen (benutztes
them
Gerät, with another media
Intensität, (cf. section
Dauer), und zweitens 3.1 for the list
beschreibt das Geräte-XML die verfügbaren Geräte
of effects). For each effect the designer can specify at In an approach dedicated to instant messaging applica-
und die zugehörigen Funktionen. Um eine Nachricht zu senden, wählt der Benutzer eine in der
least its intensity and duration. However devices and tions, Kim et al. [56] developed an XML-based format
Bibliotheks-XML aus. Wenn er eine Nachricht erhält, wird diese entsprechend den Fähigkeiten
techniques to render the effect are not specified. If to exchange haptic feedback: “TouchCons”. This allows
converting an intensity into vibrations is simple, the users to send haptic messages (vibrations patterns or
der in Device XML aufgeführten Geräte gerendert. Dieses Framework könnte verwendet
rendering of a forward movement over 2 meters with thermal effects for instance). Two main files compose
werden, um haptische Effekte (anstelle von TouchCons) zu beschreiben und an den
Endbenutzer zu senden. Die Effekte werden dann entsprechend der Gerätekonfiguration des
Benutzers gerendert.

10
Schließlich kann die XML-Darstellung verwendet werden, um das Verhalten von Aktoren
direkt zu bestimmen. Zum Beispiel haben Rahman et al. [28] beschrieben Vibrationsmuster
eines vibrotaktilen Arrays: Die Vibrationsintensität jedes Motors ist in einer XML-Datei
angegeben. Dieser Ansatz ist einfach, aber die beschriebenen Effekte können nur von einem
bestimmten Gerät ausgeführt werden.

4.1.2 CSV-basiert
CSV (Comma Separated Values) ist ein Dateiformat, in dem Daten in einer einfachen Textdatei
gespeichert werden (und normalerweise durch Kommas getrennt sind). Enriquez et al. [49]
stützte sich auf dieses Format, um die Positionen eines Knopfes zu speichern. Dieser direkte
Ansatz ist einfach, dient jedoch dazu, ein bestimmtes Gerät zu steuern. Danieau et al. [35]
verwendete ebenfalls diese Art von Format, aber die Autoren speicherten Informationen über
die Bewegung, die in ein Video eingebettet war (Beschleunigung in m.s-2 auf 3 Achsen für
jeden Zeitpunkt t). Der Bewegungseffekt wird dann vom haptischen Gerät des Benutzers
gerendert.

4.1.3 VRML-basiert
Eine dritte Methode zur Beschreibung eines haptischen Inhalts verwendet VRML / X3D.
Grundsätzlich dient diese Sprache zur Darstellung von 3D-Welten und enthält Informationen,
die von visuellen Wiedergabesystemen benötigt werden. Sourin und Wei [55] schlugen eine
Erweiterung dieser Sprache vor, indem sie haptische Rendering-Techniken hinzufügten. Eine
Motivation dieser Sprache ist es, virtuelle Objekte und die zugehörigen haptischen Rendering-
Algorithmen über das Web zu übertragen. Ähnlich wie bei HAML ermöglicht diese Lösung die
Beschreibung einer audiovisuellen Szene und der zugehörigen Rendering-Techniken.
Die beiden hier vorgestellten Techniken basieren auf dem MPEG-4-BIFS-Format, auch bekannt
als MPEG-4 Part 11 [58]. BIFS (Binary Format for Scenes) ist ein auf VRML basierendes
Szenenbeschreibungsprotokoll. Cha et al. [10] dieses Format erweitert, um einem Video
haptische Eigenschaften hinzuzufügen. Die Autoren bauten einen "berührbaren" Film, d. H.
Einen Film, in dem Zuschauer die Tiefe der Bilder mit einem Force-Feedback-Gerät fühlen
können. Für jeden Frame des Videos haben die Autoren die Textureigenschaften (Steifigkeit,
Haftreibung und dynamische Reibung; vgl. Listing 3) angegeben.
Dieses modifizierte BIFS-Format kann auch zum Speichern von vibrotaktilen Mustern
verwendet werden, die zum Antrieb von Arrays von Vibrationsmotoren verwendet werden. In
der Arbeit von Kim et al. [20] wird ein Muster in ein Graustufenbild codiert, wobei jedes Pixel
einen Aktuator darstellt und die Intensität des Pixels der Aktivierungsintensität des Aktuators
entspricht: von Schwarz (0) für Leerlauf bis Weiß (255) ) für maximale Vibration. In ähnlicher
Weise können vibrotaktile Muster Frames eines Videos zugeordnet werden (vgl. Listing 3:
Anstelle von "haptic image.jpg" würde ein "taktiles Muster.jpg" der visuellen Szene
zugeordnet werden). Das von Cha et al. Erweiterte MPEG-4-BIFS-Format kann sowohl eine 3D-
Szene beschreiben und / oder Daten enthalten, um vibrotaktile Arrays anzutreiben. Diese
beiden Möglichkeiten wurden von Kim et al. [33] zum Hinzufügen von haptischen Texturen
oder Vibrationseffekten zu Lernvideos.

4.2 Haptik-Videobehälter
Ein Container ist ein Metadateiformat, das mehrere Dateien in einem einzigen enthalten kann,
wodurch die Verteilung der Dateien vereinfacht wird. Diese Stufe ist in Abbildung 1
dargestellt, in der alle Komponenten des Inhalts komprimiert und zu einem Container
synchronisiert werden und somit problemlos über das Netzwerk übertragen werden können

11
[59]. Diese Container werden hauptsächlich in Multimediaanwendungen verwendet, um
sowohl den Audioinhalt als auch den visuellen Inhalt in einer Datei zu speichern.
Wenn mehrere Container mit Audio und Video eingebettet sind (ogv, avi, mp4 usw.), sind
Container mit audiovisuellem und haptischem Inhalt weniger üblich. Eine einfache Lösung
könnte darin bestehen, die Datei mit den haptischen Daten direkt in den Container
einzubetten, wenn diese das Anhängen externer Dateien (z. B. mit dem mkv-Container)
zulässt. O’Modhrain und Oakley [34] stützten sich beim Verteilen von Videos mit haptischen
Effekten auf den Flash-Standard. Sie bauten haptisches Feedback in ihre hausgemachten
Animationen ein, und die Medien wurden von einem Webbrowser abgespielt, der das
Immersion-Web-Plug-In einbettete. Diese Alternative ist für Vertriebszwecke geeignet,
beschränkt sich jedoch auf die Rendering-Fähigkeit des Plug-Ins und auf einen bestimmten
audiovisuellen Inhalt (Animation).
Um Streaming-Plattformen nutzen zu können, ist es eine Lösung, Formate für haptische
Effekte zu entwickeln, die mit Video-Containern kompatibel sind und die während des
Herunterladens abgespielt werden können. Einige Formate (siehe Abschnitt 4.1) wurden zur
Unterstützung dieser Streaming-Funktion entwickelt. Modifizierte MPEG-4-BIFS [10] können
in einen klassischen MPEG-4-Container eingebettet werden. In ähnlicher Weise ist MPEG-V
mit dem MPEG-2 TS-Container [53] kompatibel. Diese Streaming-Herausforderung wurde von
Cha et al. Als haptischer Rundfunk identifiziert. [11]. Dies ist eine spezifische Herausforderung,
die sich von der klassischen Datenübertragung für die Teleoperation unterscheidet [60]. Der
Zweck ist nicht die Fernsteuerung eines Geräts, sondern das Senden von Multimedia mit
Audio-, Video- und haptischen Inhalten. Die beiden vorgestellten Formate befinden sich noch
in einem frühen Entwicklungsstadium, zeigen jedoch die Möglichkeit des haptischen
Rundfunks.

5. RENDERING

Nachdem der haptische Inhalt an den Benutzer übertragen wurde, muss das haptische Gerät
den Inhalt decodieren und rendern, um den entsprechenden Effekt zu erzielen (auf dieselbe
Weise wie Video auf dem Bildschirm oder Audio auf den Lautsprechern dargestellt wird, siehe
Abbildung 1). . Im Folgenden überprüfen wir eine Liste haptischer Schnittstellen, die für eine
verbesserte Videoansicht vorgeschlagen werden.
Wir haben diese Geräte in vier Kategorien eingeteilt: tragbare Geräte, Handheld-Geräte,
Desktop-Geräte und haptische Sitze. Die in Tabelle 3 dargestellten Ergebnisse wurden von uns
synthetisiert.

5.1 Tragbare Geräte
Tragbare Geräte sind so konzipiert, dass sie vom Benutzer getragen werden können, während
er den audiovisuellen Inhalt erlebt. Typischerweise bestehen sie aus mehreren vibrotaktilen
Aktuatoren, die in die Kleidung eingebettet sind.
Lee et al. Erforschen die Idee der Verbesserung des Live-Sporterlebnisses. [26] haben eine
Vorrichtung mit Vibrationsbewegungsgefühl durch eine Anordnung von 7 × 10-Vibrotaktoren
vorgeschlagen, die an dem Unterarm des Benutzers angebracht sind. Dieser Prototyp wurde
verwendet, um Bewegungen des Balls während eines Fußballspiels auf dem Spielfeld
wiederzugeben. Das taktile Feld wurde auf das Feld abgebildet und an Ballstellen wurden

12
Vibrationen ausgelöst. Laut den Autoren ermöglicht dieses Gerät dem Benutzer, mehrdeutige
Spielsituationen besser zu verstehen.
Kim et al. [20] [33] entwarf einen taktilen Handschuh für intensive Multimedia. Es enthält 20
taktile Aktuatoren pro Handschuh (4 pro Finger). Die Handschuhe sind drahtlos gesteuert und
erzeugen vibrotaktile Muster, während der Benutzer einen Film betrachtet. Diese Muster
wurden zuvor mit dem Video erstellt und synchronisiert.
Bei der Verfolgung des Ziels, taktile Geräte in Alltagskleidung zu integrieren, haben Rahman
et al. [28] berichteten, wie einfach vibrotaktile Arrays in Kleidungsstücke wie Jacken oder
Armbänder integriert werden können. Eigentlich war dieses Thema schon
intensiv für Virtual-Reality-Zwecke [63] untersucht und viele ähnliche Geräte wurden
entwickelt.
Eine taktile Jacke wurde auch von Lemmens et al. Entwickelt. [23]. Sie untersuchten den
Einfluss taktiler Geräte auf die emotionale Ebene der Zuschauer und konzentrierten sich auf
das Design einer taktilen Jacke mit 16 Segmenten von 4 Vibrationsmotoren, die den Rumpf
und die Arme bedecken. Motoren werden nach bestimmten Emotionen aktiviert. Zum Beispiel
wird das Gefühl der Liebe verstärkt, indem die Motoren im Bauchbereich kreisförmig
abgefeuert werden.
Bei der Idee, die Palette der Geräte in einem Wearable zu erweitern, haben Palan et al. [25]
präsentierte eine Weste mit Vibrationsmotoren, Solenoiden und Peltier-Elementen. Die
Weste wurde so konzipiert, dass sie drei haptische Effekte so realistisch wie möglich zeigt:
Schuss, Schrägstrich und Blutfluss. Die Motivation für diese Forschung ist die Verbesserung
der Erfahrung mit Videospielen. Aus ähnlichen Gründen hat eine von TNGames3
vorgeschlagene Jacke Effekte wie Explosionen, Schüsse oder Beschleunigungen mit 8
Luftzellen (die Jacke ist im Handel erhältlich).
Während die eingebetteten Vorrichtungen keine signifikante Änderung des Gewichts oder der
Tragbarkeit von Kleidung bewirken (die meisten bestehen aus einfachen vibrotaktilen
Aktuatoren), ist der Bereich der haptischen Effekte, die erzeugt werden können, eher
begrenzt.

5.2 Handgeräte
Der zweite Gerätetyp entspricht den Handgeräten. In diesem Fall erfährt der Benutzer eine
haptische Rückmeldung durch ein tragbares Gerät, das in der Hand gehalten wird.
Die vibrotaktile Technologie scheint für tragbare Geräte geeignet zu sein. Seit Jahren
verwendet die Spieleindustrie vibrierende Joypads, um Immersions-Videospiele zu
verbessern. Darüber hinaus sind mobile Geräte (Telefone und Tablets) jetzt mit
Vibrationsmotoren ausgestattet, mit denen Multimedia-Inhalte verbessert werden können4.
Mit dieser Technologie haben Re ́hman et al. [27] stützte sich auf ein Mobiltelefon, das mit
einem Vibrationsmotor ausgestattet war, um haptische Hinweise für ein Fußballspiel
anzuzeigen. Alexander et al. [31] entwickelte einen Prototyp eines mobilen Fernsehgeräts, das
dank Ultraschall ein taktiles Feedback liefert. Das Gerät ist ein Bildschirm mit einem 10x10-
Array von Ultraschallsendern auf seiner Rückseite. Auf diese Weise hält der Benutzer das
Gerät, um den audiovisuellen Inhalt anzusehen und haptische Rückkopplungen an seinen
Fingern zu erfahren.
Bei der von O’Modhrain und Oakley [34] entwickelten Fernbedienung handelt es sich um eine
andere Art von gehandhabtem Gerät, das eine Kraftrückmeldung liefert. Ein Gaming-Joystick
wurde in ein Gerät eingebaut, das wie eine Fernbedienung aussieht. In ähnlicher Weise haben
Yamaguchi et al. [9] verwendete eine Computermaus mit einem 2DOF-Force-Feedback-
Joystick.

13
Ähnlich wie auf der Kleidung basierende Geräte können Handheld-Geräte keine schweren
Aktuatoren einbetten, sodass nur eine begrenzte Anzahl haptischer Effekte dargestellt
werden kann. Die Verwendung eines gemeinsamen Geräts im Wohnbereich des Benutzers
(Fernbedienung, Mobiltelefon) scheint jedoch hinsichtlich der Akzeptanz beliebt zu sein.

5.3 Desktop-Geräte
Force-Feedback-Geräte werden hauptsächlich in der virtuellen Realität verwendet, um mit
virtuellen Objekten zu interagieren. Der Benutzer kann den Inhalt fühlen und oft ändern. In
einem Videobetrachtungskontext unterscheidet sich ihre Verwendung dahingehend, dass der
Benutzer den Inhalt nicht ändern kann. Er erhält haptische Hinweise, manchmal während er
den Inhalt aktiv erforscht, aber der audiovisuelle Inhalt wird sich nicht ändern. In der von Gaw
et al. [32] hält der Benutzer ein Force-Feedback-Gerät und wird während der Wiedergabe
eines Films entlang eines zuvor aufgezeichneten Pfads geführt. Die gleiche Technik wurde von
Kim verwendet
et al. [33], um Lernvideos mit einem Phantom5-Gerät zu verbessern. In ähnlicher Weise haben
Danieau et al. [35] benutzte ein Force-Feedback-Gerät, um den Benutzer die globale
Bewegung in einem Video fühlen zu lassen.
Diese Geräte wurden auch getestet, um Bilder in einem Video zu "berühren" [10]. In diesem
Fall kann der Benutzer den Videoinhalt aktiv erkunden und erhält haptisches Feedback über
ein Novint-Falcon-Gerät6.
Andere Desktop-Geräte sind so konzipiert, dass sie dem Benutzer haptische Rückmeldungen
berührungslos übermitteln. Der Hauptvorteil dieser Schnittstellen besteht darin, dass der
Benutzer ein komplexes Gerät nicht manipuliert, sodass die Interaktion ökologischer ist. Ein
Beispiel ist ein Lüfter, der Luftströme erzeugt und die haptische Wirkung von Wind simuliert.
In Verbindung mit einem thermischen Gerät können Lüfter verwendet werden, um
Temperaturschwankungen zu erzeugen [24]. Gebläse mit Windeffekten sind im Handel
erhältlich, z. B. das Philips amBX-System7. Es bietet Windeffekte, aber auch Lichteffekte und
fügt einer Tastatur Vibrationen hinzu.
Dieses Konzept kann auch verwendet werden, um den Kontakt mit virtuellen Objekten zu
ermöglichen, ohne ein Gerät bedienen zu müssen. Hoshi et al. [30] benutzte Ultraschall, um
einen entfernten Druck auf die Haut eines Benutzers auszuüben. Ihr Prototyp besteht aus
einem Array von 324 Ultraschall-Transducern aus der Luft. Das Gerät kann in einem
Brennpunkt mit einem Durchmesser von 20 mm eine Kraft von 16 mN auf eine Oberfläche von
180 x 180 mm ausüben. Diese unsichtbare Fläche befindet sich 200 mm über dem Gerät. In
Kombination mit einem 3D-Anzeigesystem gelang es dem Autor, berührbare, schwebende
Bilder zu erstellen. Ein ähnliches System wurde zuvor von Suzuki und Kobayashi entwickelt
[29], das auf Air Jets beruht.

5.4 Haptische Sitze
Ein vierter Gerätetyp betrifft haptische Sitze. Auf einem modifizierten Stuhl sitzend, spürt der
Benutzer passiv haptische Effekte.
In einer Reihe von Ansätzen wurden wieder vibrotaktile Aktuatoren verwendet. Die taktile
Decke [61] ist beispielsweise mit 176 Aktuatoren ausgestattet und zeigt Vibrationsmuster an,
die die Emotion des Benutzers verbessern sollen. Dies ist die Deckenversion der Lemmens
Jacket [23].
In jüngerer Zeit betteten Israr und Poupyrev [62] eine Reihe von 12 vibrotaktilen Aktuatoren
in die Stuhllehne und schlugen eine originelle Art der Steuerung vor. Sie stützten sich auf

14
taktile Illusionen, um den Benutzer einen kontinuierlichen Reiz zu empfinden, während sich
die Stellglieder an diskreten Orten befinden.
Interessanterweise sind mehrere kommerzielle Produkte dieser Kategorie verfügbar. Ein
Beispiel ist der "Couch Shaker" von The Guitammer Company8. Diese Art von Gerät benötigt
Aktuatoren, um die Couch oder das Sofa zu rütteln. Tatsächlich funktioniert dies wie ein
Subwoofer, indem niederfrequente Schwingungen auf die Couch übertragen werden, anstatt
Sounds zu spielen. Einige Sitzgeräte versuchen, komplexere Effekte wie Bewegung
bereitzustellen. Typischerweise sind solche Sitze an Stellgliedern oder Bewegungsplattformen
befestigt. Der D-Box9-Sitz ist einer von ihnen und verfügt über 3 DOF: Pitch, Roll und Lifting.
Haptische Sitze werden häufig in Freizeitparks oder Spielhallen angetroffen, wo sie
normalerweise als Bewegungssimulatoren verwendet werden. Einige von ihnen integrieren
sogar mehrere Geräte, um eine breite Palette von Effekten bereitzustellen (Wasserspray, Air
Blast, Beinkitzler usw., siehe MediaMation10). Diese Geräte sind jedoch nicht an den
Wohnraum des Endbenutzers angepasst und die Kosten sind gering für den Massenmarkt
unerschwinglich. Im Gegensatz dazu ist der D-Box9-Sitz ein auf den Verbraucher
abgestimmtes Produkt, das in ein Wohnzimmer integriert werden soll, aber teuer bleibt. Die
Alternative ist die Verwendung von Geräten, die auf vibrotaktilen Arrays basieren, aber der
Bereich der taktilen Effekte, die wiedergegeben werden können, ist ziemlich eingeschränkt.

6. QUALITÄT DER ERFAHRUNG



Haptische Effekte zielen darauf ab, die audiovisuelle Erfahrung zu verbessern. Dies bedeutet,
dass die Quality of Experience (QoE) einer Video-View-Sitzung mit haptischem Feedback
höher ist als ohne. Wie ist diese Hypothese zu bewerten? Jain [64] sprach über die
Notwendigkeit, die QoE für die Bewertung eines Systems zu erfassen, betonte jedoch auch die
Schwierigkeit, Faktoren zu identifizieren und zu messen, die diese Metrik aufgrund ihrer
subjektiven Natur kennzeichnen.
Trotzdem haben Hamam et al. [65] [8] schlug ein erstes Modell zur Bewertung der QoE in der
Multimedia-Haptik vor und identifizierte vier Faktoren, die auf der Wiedergabequalität und
auf benutzerzentrierten Maßnahmen beruhten: Physiologie, Psychologie und Wahrnehmung.
Die Wiedergabequalität hängt von der Qualität des visuellen, akustischen und haptischen
Feedbacks ab. Wahrnehmungsmaße beschreiben die Art und Weise, wie der Benutzer das
System wahrnimmt, abhängig von seiner eigenen Erfahrung, seiner Ermüdung und anderen
Faktoren, die seine Wahrnehmung verändern können. Physiologische Maßnahmen
identifizieren, wie das System den biologischen Zustand des Benutzers verändert, und
psychologische Maßnahmen zeigen Änderungen seiner Geistesverfassung auf. Die Autoren
haben auch eine erschöpfende Liste von Parametern, die sich auf jeden Faktor beziehen (z. B.
Atmungsrate, Körpertemperatur oder Blutdruck für physiologische Messungen), detailliert.
Dies liefert eine Taxonomie der verschiedenen Merkmale, die Einfluss auf die Qualität der
Erfahrung haben, aber es werden keine Techniken zur Bewertung dieser Erfahrungen gezeigt.
In diesem Abschnitt beschreiben wir klassische Techniken zur Messung der QoE von
audiovisuellen Systemen, die mit Effekteffekten verbessert wurden. Der typische Ansatz der
Literatur ist ein subjektives Maß, das auf Fragebögen basiert. Der zweite Satz von Techniken,
den wir vorstellen, basiert auf der Erfassung von Biosignalen. Hier wird die Emotion des
Benutzers aus seinem physiologischen Zustand abgeleitet, wodurch eine weniger
voreingenommene Maßnahme bereitgestellt wird.

15
6.1 Subjektive Maßnahmen: Fragebögen
Die meisten Beiträge zum haptischen Feedback für Multimedia stützen sich auf einfache
Fragebögen, um die Auswirkungen des haptischen Feedbacks auf die Qualität der Erfahrung
zu bewerten. Die Teilnehmer werden in der Regel aufgefordert, Fragen auf einer Likert-Skala
zu beantworten. Zum Beispiel haben Kim et al. [20] untersuchte die Vorteile von vibrotaktilem
Feedback zur Verbesserung von Filmen anhand von 4 allgemeinen Fragen (ist das
interessanter als Filme? Ist der taktile Inhalt leicht zu verstehen? Ist der taktile Inhalt mit
Szenenfilmen verknüpft und unterstützt der taktile Inhalt das Untertauchen?) . Ur Rhe ́man et
al. [27] behandelte dieselben Aspekte in einem detaillierteren Fragebogen, während einige
Ansätze ihre Analyse auf den einzigen Aspekt der Nutzerzufriedenheit beschränken [66].
Ein ausgefeilterer Ansatz besteht darin, die Qualität der Erfahrung anhand mehrerer Faktoren
zu charakterisieren. Hamam et al. [67] bewerteten 5 Faktoren (aus ihrem oben beschriebenen
Modell): Realismus, Nützlichkeit, Intuitivismus, Fatigue und QoE. Danieau et al. [35]
identifizierte 4 Faktoren: Sinnlichkeit, Komfort, Realismus und Zufriedenheit. „Sensorisch“
beschreibt, wie das haptische Feedback zum Eintauchen beigetragen hat. „Realismus“
beschreibt, wie sehr die Simulation realistisch ist und mit der Darstellung der realen Welt
durch den Benutzer übereinstimmt. „Komfort“ misst den globalen Komfort des Benutzers, der
das System erlebt (ein Proxy für die Annahme). "Zufriedenheit" bestimmt, wie gut der
Benutzer das System genießt. Diese 4 Faktoren wurden in einer QoE-Messung kombiniert.
Jeder dieser Beiträge hat einen Fragebogen entwickelt, um die Qualität der Erfahrung zu
bewerten, wobei offensichtlich starke Überschneidungen (z. B. Zufriedenheit) auftreten. Dies
unterstreicht die Notwendigkeit eines standardisierten Fragebogens zur Bewertung und zum
Vergleich verschiedener Systeme. Die Ermittlung der zu messenden Faktoren ist eine
schwierige Aufgabe, aber einige werden bereits systematisch bewertet: Komfort, Interesse,
Akzeptanz und Zufriedenheit. Sie können als Grundlage dienen, um ein subjektives Maß für
die QoE aufzubauen.

6.2 Objektive Maßnahmen: physiologische Daten
Ein zweiter Ansatz zur Bewertung der Erlebnisqualität besteht darin, Änderungen der
physiologischen Signale des Benutzers zu messen. Die QoE kann nicht direkt aus dieser
Maßnahme bestimmt werden, aber sie kann verwendet werden, um den emotionalen
Zustand des Benutzers abzuleiten, der zur QoE beiträgt. Nach unserem besten Wissen stützte
sich keine Arbeit im Zusammenhang mit HAV-Systemen auf diese Technik. Interessante
Ergebnisse finden Sie jedoch in Themen zu dieser Umfrage.
Im Zusammenhang mit Virtual Reality haben Meehan et al. [68] erfasst die Herzfrequenz, die
Hautleitfähigkeit und die Hauttemperatur von Probanden in einer virtuellen Stressumgebung.
Diese Maßnahmen trugen dazu bei, das "Präsenz" des Benutzers zu bestimmen, und wurden
mit den Selbstberichten der subjektiven Benutzer verglichen (siehe [69] für eine Umfrage zu
"Präsenz"). Aus dieser Arbeit ging hervor, dass die Herzfrequenz mit dem Präsenzgefühl
korreliert ist, während Änderungen der Hautleitfähigkeit weniger stark waren und
Temperaturänderungen nicht signifikant genug waren. Das haptische Feedback hat die
Präsenz deutlich verbessert.
Mandryk et al. [70] beobachteten Biosignale von Videospielern, um ihre Benutzererfahrung
zu bestimmen. Die Hautleitfähigkeit, Herzfrequenz, Gesichtsmuskelaktivität und
Atemfrequenz wurden erfasst. Die Autoren schlussfolgerten, dass es für die meisten
Teilnehmer lustiger ist, gegen einen Freund zu spielen als gegen den Computer. Die
physiologischen Maßnahmen stimmten signifikant mit den selbstberichteten Maßnahmen
überein.

16
In einem Videobetrachtungskontext stellen Fleureau et al. [71] untersuchte das Potenzial
physiologischer Signale zur Erfassung emotionaler Ereignisse. Die Teilnehmer sahen sich
einfach mehrere Videos an, während ihre Herzfrequenz, Hautleitfähigkeit und
Gesichtsmuskelaktivität aufgezeichnet wurden. Es wurde ein Detektor entwickelt, der auf
maschinellen Lerntechniken basiert, und anhand der Biosignale eines Benutzers konnte er
zuverlässig feststellen, ob er ein emotionales Ereignis erlebte und ob dieses Ereignis positiv
oder negativ war.
Die ausgewählten physiologischen Signale in diesen Arbeiten sind größtenteils gleich:
Herzfrequenz, galvanische Hautreaktion, Gesichtsmuskelaktivität. Alle liefern trotz der
unterschiedlichen Kontexte (virtuelle Realität, Videospiele, Videobetrachtung) interessante
Ergebnisse. Dies eröffnet interessante Möglichkeiten für die Auswertung von
Videobetrachtungen mit haptischen Effekten. Außerdem könnten geschlossene Formen
vorgeschlagen werden, bei denen physiologische Signale die Art und Intensität von
Ereignissen steuern könnten, um die haptischen Effekte besser an die Benutzer anzupassen.

7. ÜBERBLICK UND PERSPEKTIVEN



Wir haben einen Überblick darüber gegeben, wie haptische Effekte audiovisuelle Inhalte
verbessern können. Es wurden Beiträge über die Phasen der haptischen Produktion,
Verteilung und Wiedergabe berichtet. Einige dieser Arbeiten schlagen Lösungen für alle Stufen
vor und können als Implementierung des in Abbildung 1 dargestellten generischen Workflows
betrachtet werden. Diese allgemeinen Ansätze sind in Tabelle 4 zusammengefasst.
Während Lösungen eindeutig zeigen, wie haptische Effekte mit audiovisuellem Inhalt mithilfe
von taktilem oder kinästhetischem Feedback genutzt werden können, entdecken die
gemeldeten Beiträge keine Kombinationen von Effekten (z. B. kinästhetisch und taktil). Dies
ist hauptsächlich auf die Geräte zurückzuführen, die im Allgemeinen einen Typ von Stellglied
einbetten. Infolgedessen kann eine breite Palette von Effekten nicht dargestellt werden, und
die Verbindung von Effekten wird trotz erheblicher potenzieller Vorteile selten untersucht
oder bewertet. Darüber hinaus scheint es eine Lücke zu geben zwischen der Verwendung
tragbarer haptischer Schnittstellen (Wearable oder Handheld), die schlechte Effekte
vermitteln, und komplexen Geräten (Bewegungssimulatoren), die nicht an den Wohnraum
des Benutzers angepasst sind. Infolgedessen ist die Entwicklung neuer haptischer Geräte für
die audiovisuelle Verbesserung eindeutig erforderlich. Dies impliziert jedoch ein besseres
Verständnis der Bedürfnisse in HAV-Systemen, die sich deutlich von den Bedürfnissen in
Virtual-Reality-Systemen zu unterscheiden scheinen.
In der Tat müssen weitere Untersuchungen zur Wahrnehmung der Nutzer durchgeführt
werden, um relevante haptische Reize für eine effektive und angemessene audiovisuelle
Unterhaltung zu ermitteln. Bislang ist die Verbindung zwischen haptischen Reizen und
Benutzererfahrung nicht gut etabliert. Haptische Effekte werden vorwiegend auf ähnliche
Weise verwendet, wie haptisches Feedback in der virtuellen Realität verwendet wird: um den
Benutzer physisch in die audiovisuelle Szene einzutauchen. Einige Arbeiten stützten sich
jedoch auf haptische Effekte, um nicht-diegetische Aspekte eines Videos wie Umgebung oder
Emotionen zu verbessern. Dies scheint eine Schlüsselherausforderung dieser jungen
Studienrichtung zu sein.
Die Vertriebsstufe erfordert auch Forschungsanstrengungen. Jede Lösung schlägt eine andere
Technik vor, um haptische Effekte zu formalisieren, offensichtlich aufgrund des Fehlens einer

17
gemeinsamen Definition für haptische Effekte. Darüber hinaus schlug nur die Hälfte der
Beiträge eine Möglichkeit vor, die Medien auf ein entferntes Anzeigegerät zu übertragen. Es
entstehen jedoch verschiedene Techniken, die eine haptische Ausstrahlung ermöglichen.
Multimedia-Container mit audiovisuellen und haptischen Effekten werden derzeit entwickelt
und standardisiert (MPEG-V, MPEG-4 BIFS). In Bezug auf die Vertriebsstufe ist das MPEG-V-
Format eine vielversprechende Lösung, die von der MPEG-Gruppe standardisiert wird. Der an
Standards für haptische Effekte interessierte Leser muss auf diese laufende Arbeit verweisen.
Es wird eine Liste mit haptischen Effekten sowie eine XML-basierte Methode zu deren
Beschreibung vorgeschlagen. Dieses Format ist auch so konzipiert, dass es mit Streaming-
Technologien kompatibel ist. Dieser neue Standard muss jedoch der Entwicklung dieses
aufstrebenden Forschungsbereichs folgen. Es werden wahrscheinlich neue haptische Effekte
und neue Geräte geschaffen, die in einem sich entwickelnden Standard berücksichtigt werden
sollten.
In den meisten Lösungen werden haptische Effekte synthetisiert. Autoren erstellen manuell
haptische Effekte und synchronisieren sie mit den audiovisuellen Inhalten. Jede Lösung schlägt
eine andere Technik zum Bearbeiten haptischer Effekte vor, während einige allgemeine
Bearbeitungstools mit dem Aufkommen neuer Standards vorgeschlagen werden könnten. Für
haptische Effekte, die nicht von Autoren synthetisiert wurden, wurde in den Beiträgen
vorgeschlagen, haptische Hinweise automatisch aus dem visuellen Inhalt zu extrahieren. Sie
sind jedoch auf einen bestimmten audiovisuellen Inhalt beschränkt: Soziusspiele folgen
vordefinierten Regeln und Animationen, bei denen Position und Geometrie von Objekten
vorher bekannt sind. Die automatische Extraktion von haptischen Effekten für beliebige
audiovisuelle Inhalte bleibt eine sehr komplexe Aufgabe. Es sind Anstrengungen erforderlich,
um die aktuellen Algorithmen an diesen neuen Zweck anzupassen. Die Extraktion kann durch
Metadaten erleichtert werden, die den Inhalt der Medien beschreiben. Haptische Effekte aus
Videos zu extrahieren, ist jedoch eine neue Herausforderung, für die neue spezifische
Techniken entwickelt werden müssen.
Ein letzter Aspekt, der in dieser Umfrage erörtert werden soll, ist die Quantifizierung der
Vorteile, die haptische Effekte für audiovisuelle Inhalte bringen. Einige der präsentierten
Arbeiten haben Nutzerbewertungen durchgeführt, die sich meist auf Fragebögen stützten.
Wenn die meisten von ihnen zeigen, dass haptische Effekte die Benutzererfahrung
verbessern, sind die verschiedenen Beiträge kaum miteinander vergleichbar. Es besteht ein
dringender Bedarf an gemeinsamen und robusten Instrumenten zur Bewertung dieser
Erlebnisqualität.

8. SCHLUSSFOLGERUNG

In dieser Umfrage haben wir die Möglichkeiten untersucht, die haptisches Feedback bietet,
um audiovisuelle Inhalte zu verbessern. Dieses Fachgebiet, das als HAV bezeichnet wird, ist
ein junges Forschungsgebiet, in dem verschiedene Trends auftauchen. Wir organisierten die
Präsentation der Beiträge gegen einen generischen Workflow und identifizierten die
wichtigsten Herausforderungen, die mit dieser neuen Art des Erlebens von Videos verbunden
sind.
Die erste Stufe, die sich auf die Erzeugung haptischer Effekte bezieht, ist die Identifizierung
und Erzeugung haptischer Effekte, die der Benutzer während der Anzeige der Medien
anwenden muss. Wir haben verschiedene Formate für das Speichern und Synchronisieren

18
haptischer Effekte mit den audiovisuellen Medien beschrieben, von einer einfachen
textbasierten Darstellung bis zu standardisierten XML-Formaten. Das Hauptproblem ist die
Erstellung von haptischem Feedback. Während eine Reihe von Authoring-Tools zur Verfügung
steht, können diese Effekte auch von physischen Sensoren erfasst oder vom anderen Teil des
Mediums (Video, Audio oder Metadaten) generiert werden.
Sobald das Medium mit haptischen Effekten angereichert ist, muss es an den Benutzer
gesendet werden. Im aktuellen Kontext werden Medien häufig über Streaming-Plattformen
an entfernte Benutzer verteilt. Diese Phase hängt davon ab, wie die haptischen Daten
gespeichert werden. Wenn diese Probleme für audiovisuelle Medien bereits gelöst sind, gibt
es nur wenige Standards für Medien mit haptischen Effekten. Einige Pionierbeiträge zeigten
jedoch die Machbarkeit dieses Ansatzes.
In der letzten Phase nimmt der Benutzer die Medien dank dedizierter haptischer Geräte wahr.
Bei diesen Geräten handelt es sich im Allgemeinen um haptische Schnittstellen, die während
der Videowiedergabe haptische Hinweise anzeigen.
Insgesamt legen die Ergebnisse unserer Umfrage nahe, dass sich die
Forschungsanstrengungen auf das Design von Datenformaten und Technologien zur
Verbreitung von HAV-Inhalten konzentrieren müssen. Die Entwicklung von
Autorenwerkzeugen ist auch notwendig, um solche Medien erstellen zu können. Dies kann zu
einer neuen Art von beruflichen Aktivitäten in der Kinobranche führen. Da die 3D-Filme nun
"Stereographen" benötigen, würden diese neuen haptischen audiovisuellen Inhalte
"Haptiker" benötigen. Darüber hinaus sind die Entwicklung von Instrumenten zur Bewertung
der Erfahrungsqualität und die Akzeptanz solcher Systeme obligatorisch. Es besteht kein
Zweifel, dass das nächste Jahrzehnt zu aufregenden neuen Forschungsergebnissen aus diesem
jungen, aber vielversprechenden Forschungsbereich führen wird, die neue Werkzeuge und
Displays für das Hinzufügen von Multimedia-Haptik für ein überzeugenderes Benutzererlebnis
mit audiovisuellen Inhalten liefern.

19

Audiovisual Content Haptic Effect Production Distribution Rendering Ref.
Category Details
Soccer game
[Automatic extraction] The system Vibrotactile array embedded [26]
(3D Vibrations (ball position) n/a
traces the ball during soccer game into an arm band
simulation)
Sport
[Automatic extraction] Video analysis
Soccer game Vibrations (ball position, of events from a soccer game (not Mobile phone equipped [27]
n/a
(simulation) goals, team leading) implemented, events are received from with vibration motor
the simulation)
Animation [Automatic creation] Force-feedback is
Force (related to an Mouse with a joystick [9]
(home-made computed from the position and Flash
object of the animation) (2DOF force feedback)
with Flash) geometry of the object
Cartoon Remote control with a
Animation Force (related to [Synthesis] Force-feedback is defined [34]
(home-made Flash joystick (2DOF force
onscreen character) during edition of the cartoon
with Flash) feedback)
Movement (user’s hand
Cartoon / [Capturing] Trajectories recorded from [32]
is guided according to a n/a Force-feedback device
Movie force feedback device
trajectory)
[Synthesis / Capturing] Material
Force (user touches the Novint Falcon (3 DOF [10]
Movie properties for each frame (depth, MPEG-4
image) force-feedback)
stiffness, etc.) stored into MPEG-4 BIFS
Movie (from [Synthesis] Vibration patterns stored XML file on Vibrotactile array embedded [28]
Vibrations
Youtube) into XML file a web server into arm band or jacket
[Synthesis] Vibration patterns stored Vibrotactile array embedded [20]
Movie Vibrations MPEG-4
into MPEG-4 BIFS into gloves
Movie
[Synthesis] Sensory effects stored into [13]
Movie Vibrations and Wind MPEG-2 TS Philips amBX system
MPEG-V file
[Synthesis] Haptic effects (vibrations or Vibrotactile gloves or
Educational Vibrations or Force (user [33]
haptic properties) stored into MPEG-4 MPEG-4 Phantom device (6DOF
video touches the image)
BIFS force-feedback)
Force (related to the [Capturing] The motion is captured by Novint Falcon (3DOF [35]
Movie n/a
motion in the video) accelerometers force-feedback)
Table 4

20
Summary of existing schemes for adding haptic effects to audiovisual contents. Each system proposes a solution for synchronizing and rendering haptic
feedback within an audiovisual content. Some schemes specify ways to distribute the media over the network.


13