Sie sind auf Seite 1von 29
Automatische Content-Aggregation mit TYPO3 und Semantic-Web-Technologien Gerhard Fobe Netresearch GmbH & Co.KG

Automatische Content-Aggregation

mit TYPO3 und

Semantic-Web-Technologien

Gerhard Fobe Netresearch GmbH & Co.KG

25.09.2012

Wer ist Netresearch?

Wer ist Netresearch?

Vorstellung Netresearch Allgemeines ● Sitz in Leipzig ● Gründung 1998; heute über 35 Mitarbeiter Bereich

Vorstellung Netresearch

Allgemeines

Sitz in Leipzig

Gründung 1998; heute über 35 Mitarbeiter

Bereich Magento

Magento Preferred Extension Development Partner

Entwicklung maßgeschneideter Magento-Extensions für Technologiepartner

Professionelle Support- und Consultinglösungen

Organisation nationaler und internationaler Events (Meet Magento Deutschland, UK, Brasilien; Developers Paradise Ibiza)

Magento App Factory:

Online-Marktplatz für hochwertige Magento-Extensions

Bereich TYPO3

Entwicklung maßgeschneiderter Extensions

Beratung und Einsatz von TYPO3 im Hochlast-Bereich

Umfangreiche Supportlösungen

26.09.12

3

Was ist SCMS?

Was ist SCMS?

Das Projekt

Das Projekt SCMS: ● S emantic C ontent M anagement S ystems for Enterprise Knowledge Management
Das Projekt SCMS: ● S emantic C ontent M anagement S ystems for Enterprise Knowledge Management

SCMS:

Semantic Content Management Systems for Enterprise Knowledge Management & News Mining

Gefördert durch das EUREKA Eurostars! Programm

Will Techniken des Semantic Content and Knowledge Engineering in CMS integrieren

Aufgaben im Bereich CMS:

Inhalte für Menschen leicht bearbeitbar machen

Inhalte in maschinen-verarbeitbarer Form bereitstellen

Integration in verschiedenste CMS ermöglichen

Überprüfung automatisch erkannter Inhalte ermöglichen

Unser Ziel in SCMS:

Automatische Content-Aggregation im Bereich Tourismus (Reiseziele)

5

Was ist dabei entstanden?

Was ist dabei entstanden?

Blick auf das Frontend

Blick auf das Frontend 26.09.12 TYPO3-Extension zur automatischen Aggregation von Mediadaten Inhaltsbereich oder Sidebar
26.09.12
26.09.12

TYPO3-Extension zur automatischen Aggregation von Mediadaten

Inhaltsbereich oder Sidebar mit relevanten Inhalten

Bilder (Flickr)

Videos (YouTube)

Blogs (RSS)

Sehenswürdigkeiten (Dbpedia)

Jahresklima (Dbpedia)

Automatisch aggregiert mit zugrundeliegendem Textes

7

Was steckt technisch dahinter?

Was steckt technisch dahinter?

Technik – TYPO3, Virtuoso, Ontowiki TYPO3: ● Enterprise CMS ● Open Source ● Durch Extensions

Technik – TYPO3, Virtuoso, Ontowiki

TYPO3:

Enterprise CMS

Open Source

Durch Extensions erweiterbar

Virtuoso:

Middleware

RDF-Store

Ontowiki:

Stellt Wissensbasis visuell dar

Ermöglicht Pflege semantischer Daten

Wird bei SCMS für Datenkuration genutzt

Aggregation semantischer Inhalte aus bestehenden Webinhalten über Cartridges möglich

Speziell angepasste Meta-Cartridge aggregiert Mediadaten (Bilder, Videos, DBpedia-Inhalte)

Unter Zuhilfenahme der DBpedia-Inhalte (Koordinaten, Label, …) werden Inhalte über die APIs von Flickr und YouTube gesucht

Bei Flickr werden unter Zuhilfenahme von Koordinaten bessere Suchergebnisse erzielt, bei YouTube eher weniger

9

Technik – FOX ● F ederated kn O wledge e X traction Framework (von AKSW)

Technik – FOX

Technik – FOX ● F ederated kn O wledge e X traction Framework (von AKSW) ●

Federated knOwledge eXtraction Framework (von AKSW)

Extrahiert RDF-Tripel (Tags und Annotationen) aus natürlicher Sprache

Nutzt neuronale Netzwerke

Zur besseren asynchronen Verarbeitung ist FOX ein Webservice vorgeschalten → Text an Webservice, semantische Annotationen zurück

Request:

@prefix sioc: <http://rdfs.org/sioc/ns#> . @prefix scms: <http://ns.aksw.org/scms/> .

<http://example.org/wrapperRequest/1>

a scms:Request ;

scms:callbackEndpoint <http://example.net/typo3/endpoint> ; scms:document <http://example.net/typo3/document/1> ; scms:annotate sioc:content .

<http://example.net/typo3/document/1>

a sioc:Item ;

sioc:content "Wunderbares Dubai." .

Response:

@prefix ctag: <http://commontag.org/ns#> . @prefix scms: <http://ns.aksw.org/scms/> . @prefix ann: <http://www.w3.org/2000/10/annotation-ns#> .

<http://example.net/typo3/document/1>

sioc:content "Wunderbares Dubai." .

[ ]

ctag:label "Dubai" ; ctag:means <http://dbpedia.org/resource/Dubai> ; scms:property sioc:content ; scms:source <http://ns.aksw.org/scms/tools/WrapperYahooapisKE> a ctag:AutoTag ; ann:annotates <http://example.net/typo3/document/1> .

10

Wie agieren die Technologien miteinander?

Wie agieren die Technologien miteinander?

Prozess (1)

Prozess (1) 26.09.12 Text wird von Redakteur ins TYPO3 eingepflegt 12
Prozess (1) 26.09.12 Text wird von Redakteur ins TYPO3 eingepflegt 12

26.09.12

Text wird von Redakteur ins TYPO3 eingepflegt

12

Prozess (2)

Prozess (2) 26.09.12 Texte werden mit FOX semantisch annotiert 13
Prozess (2) 26.09.12 Texte werden mit FOX semantisch annotiert 13

26.09.12

Texte werden mit FOX semantisch annotiert

13

Prozess (3)

Prozess (3) 26.09.12 Annotationen werden an Ressource des CMS-Artikels gebunden und im Virtuoso gespeichert 14
Prozess (3) 26.09.12 Annotationen werden an Ressource des CMS-Artikels gebunden und im Virtuoso gespeichert 14

26.09.12

Annotationen werden an Ressource des CMS-Artikels gebunden und im Virtuoso gespeichert

14

Prozess (4)

Prozess (4) 26.09.12 Annotationen werden im Ontowiki kuriert (Erkennung richtig? Sollen verbundene Mediadaten angezeigt
Prozess (4) 26.09.12 Annotationen werden im Ontowiki kuriert (Erkennung richtig? Sollen verbundene Mediadaten angezeigt

26.09.12

Annotationen werden im Ontowiki kuriert (Erkennung richtig? Sollen verbundene Mediadaten angezeigt werden?)

15

Prozess (5)

Prozess (5) 26.09.12 Mittels spezieller Meta-Cartridge werden zu diesen Annotationen unter Zuhilfenahme von Dbpedia
Prozess (5) 26.09.12 Mittels spezieller Meta-Cartridge werden zu diesen Annotationen unter Zuhilfenahme von Dbpedia

26.09.12

Mittels spezieller Meta-Cartridge werden zu diesen Annotationen unter Zuhilfenahme von Dbpedia (Namen, GPS) relevante Mediadaten bei Flickr und YouTube gesucht.

16

16

Prozess (6)

Prozess (6) 26.09.12 Mediadaten werden im Ontowiki kuriert (Sollen verbundene Mediadaten im Frontend angezeigt werden?) 17
Prozess (6) 26.09.12 Mediadaten werden im Ontowiki kuriert (Sollen verbundene Mediadaten im Frontend angezeigt werden?) 17

26.09.12

Mediadaten werden im Ontowiki kuriert (Sollen verbundene Mediadaten im Frontend angezeigt werden?)

17

Prozess (7)

Prozess (7) 26.09.12 Aus DBpedia werden weitere Informationen einer Stadt wie Sehenswürdigkeiten oder Klima geladen. Alle
Prozess (7) 26.09.12 Aus DBpedia werden weitere Informationen einer Stadt wie Sehenswürdigkeiten oder Klima geladen. Alle

26.09.12

Aus DBpedia werden weitere Informationen einer Stadt wie Sehenswürdigkeiten oder Klima geladen.

Alle Daten werden für eine Anzeige im Frontend aufbereitet.

18

Und was ist mit Blogs?
Und was ist mit Blogs?

Und was ist mit Blogs?

Suche geeigneter Blogs ● Viele Angebote für Hotels, Flüge, ● Wir wollen emotionale Reiseberichte (Kontrast

Suche geeigneter Blogs

Viele Angebote für Hotels, Flüge,

Wir wollen emotionale Reiseberichte (Kontrast zu harten Fakten)

Keine geeigneten Blogsuchmaschinen vorhanden

Blogartikel werden aus voreingestellten Atom-Feeds gelesen (1) und mit FOX annotiert (2)

Danach werden Blogartikel vorhandenen, annotierten Inhalten zugeordnet (4+5) (Durch Matching der Resourcen besseres Ergebnis als nur bei Keywords)

Somit ist Verlinkung im Frontend mit Metadaten möglich (6)

Resourcen besseres Ergebnis als nur bei Keywords) ● Somit ist Verlinkung im Frontend mit Metadaten möglich

20

Gibt es Einstellungs- möglichkeiten?

Gibt es Einstellungs- möglichkeiten?

Einstellungsmöglichkeiten Generell ● viele grundlegende und detaillierte Einstellungs- und

Einstellungsmöglichkeiten

Generell

viele grundlegende und detaillierte Einstellungs- und Konfigurationsmöglichkeiten

Beim Artikel (als Plugin für den Content-Bereich):

Wahl der Anzeige aus Bildern, Videos, Blogs, Sehenswürdigkeiten und Klimadaten (wenn jeweils vorhanden)

Anzeige im Inhaltsbereich und/oder Sidebar

Sehenswürdigkeiten und Klimadaten (wenn jeweils vorhanden) ● Anzeige im Inhaltsbereich und/oder Sidebar 26.09.12 22

26.09.12

22

Was kann die Extension?

Was kann die Extension?

Features

Features ● Beliebige Seiteninhalte (TYPO3-Seiten, aber auch Inhalte von Plugins wie tt_news) lassen sich einer

Beliebige Seiteninhalte (TYPO3-Seiten, aber auch Inhalte von Plugins wie tt_news) lassen sich einer semantischen Annotation unterziehen

Semantische Annotation der Texte erfolgt automatisch beim Speichern, manuell über Massendatenverarbeitung oder mittels TYPO3-Schedulertask

Automatische Inhaltsaggregation von Bildern, Videos, Blogartikeln Sehenswürdigkeiten, Jahresklimadaten

Listen für das Frontend als Plugin in jede TYPO3-Seite integrierbar

Darstellung als Sidebar oder Inhaltselement

Bewertung der Relevanz und Güte über Bewertungen auf der eigenen Plattform und der Social-Media-Daten aus den Datenquellen

Durch eine Kuration der Daten kann bestimmt werden, welche Daten genau im Frontend angezeigt werden sollen (→ unterstützender Prozess)

26.09.12

24

Gibt es mehr technische Details?

Gibt es mehr technische Details?

Weitere technische Details (1) ● Alle aggregierten Ressourcen hängen über die Property rdfs:seeAlso an der

Weitere technische Details (1)

Alle aggregierten Ressourcen hängen über die Property rdfs:seeAlso an der von FOX annotierten Ressource (Subject = Dbpedia-Resource-URL)

Media-Daten im Frontend werden dargestellt, wenn von FOX erkannte Annotation und mit Ontowiki kurierte Media-Daten angezeigt werden sollen (scms:showFrontend)

Teilweise Caching nötig um akzeptable Performance zu erreichen

Sehenswürdigkeiten:

PREFIX dbpedia-owl: <http://dbpedia.org/ontology/> PREFIX dbpprop: <http://dbpedia.org/property/> SELECT DISTINCT ?resource ?label ?description WHERE { {?resource dbpedia-owl:location <dbpedia.org/resource/Leipzig> } UNION {?resource dbpprop:location <dbpedia.org/resource/Leipzig>} . ?resource rdf:type dbpedia-owl:Place . ?resource rdfs:label ?label . ?resource dbpedia-owl:abstract ?description . FILTER(lang(?label) = "de") FILTER(lang(?description) = "de")

}

26

Weitere technische Details (2) 26.09.12 Für die Einrichtung der Meta-Cartridge müssen drei Funktionen und zwei

Weitere technische Details (2)

26.09.12
26.09.12

Für die Einrichtung der Meta-Cartridge müssen drei Funktionen und zwei XSLT in Virtuoso kopiert werden.

Danach ist ein Key für die Flickr-API einzusetzen.

27

Globale Einstellungsmöglichkeiten ● Tabellen , für die die automatische Annotation unterstützt werden soll ●

Globale Einstellungsmöglichkeiten

Tabellen, für die die automatische Annotation unterstützt werden soll

Feeds, deren Artikel den Inhalten zugeordnet werden sollen

Parameter-Mapping, damit aggregierte Inhalte auch für Plugins wie tt-news konfiguriert werden können (diese binden Inhalte nicht über die TYPO3- internen Inhalte, sondern auch über URL-Parameter ein)

können (diese binden Inhalte nicht über die TYPO3- internen Inhalte, sondern auch über URL-Parameter ein) 26.09.12

26.09.12

28

Vielen Dank für Ihre Aufmerksamkeit! Gerhard Fobe Netresearch GmbH & Co. KG Nonnenstraße 11d 04229

Vielen Dank für Ihre Aufmerksamkeit!

Gerhard Fobe Netresearch GmbH & Co. KG Nonnenstraße 11d 04229 Leipzig

Telefon: +49 341 47 84 2232 Web: http://www.netresearch.de/

29