2nd BMBF Big Data All Hands Meeting and 2nd Smart Data Innovation Conference

Europe/Berlin
Karlsruher Institut of Technologie - Campus South

Karlsruher Institut of Technologie - Campus South

Karlsruher Institut für Technologie Kaiserstraße 12 76131 Karlsruhe Germany
Description

The 2nd Big Data All Hands Meeting (BDAHM) is held in conjunction with the 2nd Smart Data Innovation Conference (SDIC). The BDAHM/SDIC 2017 joint conference is organized with the following tracks:

Big Data All Hands Meeting Track: Within the 2nd Big Data All Hands Meeting, related BMBF projects will present their results, innovative solutions, best practices and developed frameworks.

Smart Data Innovation Conference Track: Within the 2nd Smart Data Innovation Conference, the Smart Data Innovation Lab (SDIL) and its Data Innovation Communities will present their work and provide a hands-on experience of the SDIL Platform.

The talks can be held either in English or German.

 

Participants
  • Achim Streit
  • Albert Krohn
  • Alexander Rehmer
  • Andreas Emrich
  • Andreas Harth
  • Andreas Heiss
  • Andreas Koch
  • Andreas Petzold
  • Andreas Poxrucker
  • Andreas Wierse
  • Anna Carbone
  • Beatrix Bold
  • Beatrix Prof. Dr. Weber
  • Benedikt Krüger
  • Bernhard Schütz
  • Bodo Bernsdorf
  • Christian Mader
  • Christoph Lehmann
  • Damian Kutzias
  • Daniel Martens
  • Daniela Piccioni
  • David Arnu
  • Dirk Franke
  • Dirk Schollbach
  • Doris Caliz
  • Dr. Martin Skorsky
  • Edwin Yaqub
  • Emanuel Trunzer
  • Erasmia Stamnas
  • Eric Peukert
  • Erik Pescara
  • Frank Polgart
  • Franziska Beyle
  • Hannes Müller
  • Hans Joachim Koscher
  • Hartwig Anzt
  • Hassan Enam Al Mawla
  • Hellmuth Frey
  • Jan Erik Sundermann
  • Jan Frenzel
  • Jens Nimis
  • Johannes Luong
  • Johannes Riesterer
  • Jonas Traub
  • Julian Bruns
  • Jun Jun Wan
  • Jutta Mülle
  • Jürgen Stumpp
  • Karin-Sylke Bartels
  • Karl-Uwe Stucky
  • Karoline Busse
  • Leander Kurscheidt
  • Long Wang
  • Lucas Krauß
  • Marco Hüster
  • Marcus Hardt
  • Marga Martin Sanchez
  • Marina Putzu
  • Martin Spoo
  • Matthias Gabel
  • Matthias Keller
  • Matthias Matthias
  • Matthieu-P. Schapranow
  • Michael Grethler
  • Michael Hefenbrock
  • Michael Vössing
  • Mohamad Al Hajj Hassan
  • Mohammed Abdedaim
  • Monja Kunkel
  • Morris Riedel
  • Nhung Ngo
  • Nico Schlitter
  • Nils Hachmeister
  • Parinaz Ameri
  • Patrick Wiener
  • Pavel Weber
  • Pawel Bielski
  • Peter Schleinitz
  • Philipp Schlunder
  • Plamen Kiradjiev
  • Ployplearn Ravivanpong
  • Pratik Nayak
  • Ralf Klinkenberg
  • Ralph Müller-Pfefferkorn
  • Reinhard Heil
  • René Jäkel
  • Roman Vogt
  • Sarath Reddy Ravula
  • Sebastian Findeisen
  • Sebastian Schlag
  • Sebastian Sebastian
  • Stephan Behrends
  • Thomas Setzer
  • Thomas Zahn
  • Till Riedel
  • Timo Bingmann
  • Ugur Cayoglu
  • Ulrike Völlinger
  • Wolfgang Süß
  • Yedhu Sastri
Conference Organizer: Ms. Parinaz Ameri
  • Wednesday, October 11
    • Registration Lobby (Building 30.22)

      Lobby

      Building 30.22

    • Welcome to BDAHM/SDIC 2017 Gaede-HS (Building 30.22)

      Gaede-HS

      Building 30.22

      • 1
        Welcome notes by Prof. Dr. Oliver Kraft
      • 2
        Introduction to BDAHM/SDIC by Prof. Dr. Michael Beigl
      • 3
        Logistics by Dr. Parinaz Ameri
    • 11:00 AM
      Coffee Break Lobby (Building 30.22)

      Lobby

      Building 30.22

    • 5
      Privacy-preserving data integration for Big Data Gaede-HS (Building 30.22)

      Gaede-HS

      Building 30.22

      Eine der großen Herausforderungen im Umgang mit Big Data liegt in der Auswertung (personenbezogener) Daten bei gleichzeitiger Wahrung des Datenschutzes und der Datensouveränität. Im ScaDS Dresden/Leipzig und am Institut für Informatik der Universität Leipzig werden dazu skalierbare Verfahren entwickelt und anhand von in der Praxis auftretenden Problemstellungen evaluiert. Ein wichtiger Fokus liegt auf Verfahren zum sog. Record Linkage oder Entity Matching. Dabei werden Entitäten (Personen, Produkte oder ähnliches) aus mehreren Quellen verknüpft, die dasselbe Realwelt-Objekt darstellen. Solche Prozesse basieren auf dem Vergleich von bestimmten Attributen (Quasi-Identifier) der zu verknüpfenden Datensätze, z.B. für das Matching von Publikationen werden Titel, Autorennamen und akademische Zugehörigkeit der jeweilige Publikationen miteinander verglichen. Personen-bezogenen Daten unterliegen in Deutschland und Europa jedoch strengen Datenschutzbestimmungen und dürfen gar nicht oder nur in verschlüsselter Form an eine dritte Partei weitergegeben werden. Daher ist das Matching von personen-bezogenen Daten problematisch – d.h. wenn sensitive Personendaten aus verschiedenen Organsation analysiert werden, muss garantiert werden, dass die Identität (Privacy) der zugehörigen Personen geschützt ist. Im Vortrag werden Technologien und Methoden zum Privacy Preserving Record Linkage (PPRL) vorgestellt, die beim Linking von sensitiven Daten alle wesentlichen Anforderungen (Qualität, Skalierbarkeit und Privacy) erfüllen. Eine PPRL-Methode muss dabei die folgenden Fragen beantworten: (1) Wie kann man sensitive Personendaten so anonymisieren, dass ein Rückschluss auf die ursprüngliche Daten unmöglich wird? (2) Wie kann man Daten anonymisieren und trotzdem ihre Ähnlichkeit für das Matching beibehalten? (3)Wie kann man große anonymisierte Datenmengen effizient vergleichen und dies ohne Qualitätsverlust? Die vorgestellten Ansätze werden anhand praxisnaher Anwendungsfälle im Bereich Gesundheit beschrieben z.B. das Verlinken von Patientendaten aus verschiedenen Krankenhäusern zur Identifikation von Zusammenhängen zwischen Krankheiten. Ein weiterer Anwendungsfall widmet sich Zensusdaten und den dabei auftretenden Datenschutzproblemen.
      Speakers: Prof. Erhard Rahm (Universität Leipzig), Dr Eric Peukert (Universität Leipzig)
      Slides
    • 6
      Technischer Datenschutz von personenbezogenen Daten Gaede-HS (Building 30.22)

      Gaede-HS

      Building 30.22

      Etablierte Anonymitätsbegriffe wie k-Anonymität und Differential Privacy versprechen, dass die öffentliche Sicht auf personenbezogene Daten hinreichend verschleiert ist, um die Anonymität der betroffenen Personen zu gewährleisten. Doch für die korrekte Anonymisierung selbst müssen alle personenbezogenen Daten vollständig und zentralisiert vorliegen; die Betroffenen selbst haben keine unmittelbare Kontrolle mehr diese Daten. Während des Anonymisierungsvorgangs selbst sind die Daten also einer gewissen Gefahr ausgesetzt. Dieser Gefahr kann man auf verschiedene Arten begegnen: Einerseits bietet die moderne Kryptographie Möglichkeiten verschlüsselte Daten zu verarbeiten ohne diese dabei Entschlüsseln zu müssen. Diese Verfahren sind jedoch sehr aufwändig und noch nicht praktikabel. Andererseits bieten moderne Intel-Prozessoren mit der SGX-Erweiterung eine Möglichkeit, Programmcode in einer geschützten Umgebung (einer sogenannten Enklave) auszuführen. Berechnungen innerhalb dieser Enklaven sind zwar effizient durchführbar; das Sicherheitsmodell basiert aber auf der grundlegenden Annahme, dass Intel als vertrauenswürdige dritte Partei agiert. In diesem Vortrag wird aktuelle Forschung dazu vorgestellt, wie sich diese beiden Ansätze miteinander kombinieren lassen, sodass die Schwächen der beiden Ansätze abgemildert werden.
      Speaker: Mr Matthias Gabel (KIT)
      Slides
    • 12:45 PM
      Lunch Lobby (Building 30.22)

      Lobby

      Building 30.22

    • Analytics 0.014 (Building 20.30)

      0.014

      Building 20.30

      • 7
        High Quality Graph and Hypergraph Partitioning 0.014

        0.014

        Building 20.30

        In computer science, engineering, and related fields graph partitioning (GP) is a common technique for processing very large graphs, e.g. networks stemming from finite element methods, route planning, social networks or web graphs. For example, in parallel computing good partitionings of unstructured graphs are very valuable. In this area, graph partitioning is mostly used to partition the underlying graph model of computation and communication. Generally speaking, nodes in this graph represent computation units and edges denote communication. This graph needs to be partitioned such that there are few edges between the blocks (pieces). In particular, if we want to use k processors we want to partition the graph into k blocks of about equal size. Hypergraphs are a generalization of graphs, where each (hyper)edge (also called *net*) can connect more than two vertices. The hypergraph partitioning (HGP) problem is the generalization of the graph partitioning problem. However, allowing nets of arbitrary size makes it more difficult in practice. HGP has a wide range of applications. Two prominent areas are VLSI design and scientific computing (e.g. accelerating sparse matrix-vector multiplications). While the former is an example of a field where small optimizations can lead to significant savings, the latter exemplifies problems where hypergraph-based modeling is more flexible than graph-based approaches. Since (hyper)graph partitioning is NP-hard and since it is even NP-hard to find good approximate solutions for graphs, heuristic *multilevel* algorithms are used in practice to partition large instances. These algorithms consist of three phases: In the *coarsening phase*, the (hyper)graph is coarsened to obtain a hierarchy of smaller graphs that reflect the basic structure of the input. After applying an *initial partitioning* algorithm to the smallest graph in the second phase, coarsening is undone and, at each level, a *local search* method is used to improve the partition induced by the coarser level. In this presentation intended for the BDAHM track, we briefly introduce the (hyper)graph partitioning problem along with the multilevel framework and present the KaHIP (Karlsruhe High Quality Partitioning) family of graph partitioning programs as well as the hypergraph partitioning framework KaHyPar (Karlsruhe Hypergraph Partitioning). Both systems provide world class solution quality. For example, KaHIP has been able to improve or reproduce most of the entries reported in the broadly accepted Walshaw benchmark as well as the best marks both with respect to quality and running time versus quality among all participants in the 10th DIMACS Implementation Challenge, while KaHyPar is the method of choice for a wide range of hypergraph partitioning tasks, computing better solutions than the widely used general purpose tools hMetis and PaToH.
        Speaker: Mr Sebastian Schlag (ITI, KIT)
        Slides
      • 8
        Skalierbare graphbasierte Analyse und Business Intelligence 0.014

        0.014

        Building 20.30

        Die Analyse sehr großer Netzwerkdaten gewinnt immer mehr an Bedeutung, zum Beispiel um Erkenntnisse aus Logistik-, Geschäfts- und sozialen Netzwerken zu gewinnen. Durch die Repräsentation von Netzwerkdaten als Graph lassen sich komplexe Beziehungsgeflechte zwischen heterogenen Datenobjekten analysieren. In der Forschung existieren bereits wertvolle analytische Graph-Algorithmen, die jedoch oft extrem rechenintensiv und nicht ohne Weiteres in der Praxis anwendbar sind. Klassische Data Warehouse-Lösungen sind für graphbasierte Analysen ungeeignet, da sie weder Graphmodelle noch Graphalgorithmen unterstützen. Im Vortrag zeigen wir Gradoop, ein auf Apache Flink basierendes Open Source-System, welches massiv verteilte Algorithmen zur Netzwerkanalyse bereitstellt und die Integration und Analyse von Geschäftsdaten ermöglicht. Das Gradoop-Framework erlaubt es Data Scientists und Analysten komplexe Analysen von Graphen mit Hilfe von einfachen und intuitiven analytischen Workflows auszudrücken. Neben Operatoren zum Datenmanagement umfasst das Datenmodell eine breite Palette von analytischen Operatoren und Data-Mining-Algorithmen. Gradoop ermöglicht eine vollkommen neue Art der Analyse von Geschäftsdaten. Die dabei gewonnen Erkenntnisse bieten großes wirtschaftliches Potential in verschiedenen Domänen. Wir präsentieren die praktische Anwendung für Business Intelligence am Beispiel einer Quote-to-Cash Analyse und am Beispiel einer Erkennung von verdächtigen Mustern in Geschäftsdaten.
        Speakers: Erhard Rahm (Universität Leipzig), Eric Peukert (Universität Leipzig)
      • 9
        Streaming Analytics with Software AG Apama in connection with Kafka 0.014

        0.014

        Building 20.30

        This demonstration will show the platform for streaming analytics of social media data we developed for iTESA. iTESA is one of the Smart Data projects funded by the BMWi. Main components of this platform are Software AG's Apama for streaming analytics and Kafka and Flink at Fraunhofer IVI for Dynamic Semantic Data Mining and Fuzzy Association Rule Mining. Focus of this demonstration is streaming analytics with Apama and the connections to the other components. This will include scaling of the application when higher throughput is needed. Software AG is involved in another research project which will install a similar platform at SDIL.
        Speaker: Dr Martin Skorsky (Software AG)
        Slides
    • Platforms -1.025 (Building 20.30)

      -1.025

      Building 20.30

      • 10
        Research and Innovation in the Berlin Big Data Center -1.025

        -1.025

        Building 20.30

        The Berlin Big Data Center (BBDC) is a Competence Centre funded by the German Federal Ministry of Education and Research lead by Technische Universität Berlin. Within the BBDC the consortium consisting of the Fritz Haber Institute of the Max Planck Society, the Beuth University of Applied Sciences Berlin and the German Research Center for Artificial Intelligence (DFKI) and the Konrad-Zuse-Centre for Information Technology (ZIB) will develop scalable technology which enable the deep analysis of Big Data. The BBDC strives to fuse the academic disciplines of machine learning and data management into scalable data analysis. The goal is to develop a declarative, highly-scalable open source system to, which enables the specification, automatic optimization, parallelization and hardware adaptation as well as the fault-tolerant and efficient execution of different data analysis methods (e.g., from machine learning, linear algebra, statistics, probability theory, computational linguistics and signal processing). This technology will be validated in the three representative application domains materials science, healthcare and information market places. Furthermore, the BBDC will support innovation in companies and start-ups by means of knowledge and technology transfer. Further Information: [http://www.bbdc.berlin/start/][1]. [1]: http://www.bbdc.berlin/start/
        Speaker: Mr Jonas Traub (Technische Universität Berlin)
        Slides
      • 11
        Big-Data-Kompetenzzentrum ScaDS Dresden/Leipzig – Services für Big Data -1.025

        -1.025

        Building 20.30

        Seit Oktober 2014 entwickelt das durch das BMBF geförderte Big-Data-Kompetenzzentrum ScaDS Dresden/Leipzig neue Methoden für den Umgang mit Big Data und arbeitet gemeinsam mit einer Vielzahl an Praxispartnern an der Bereitstellung von Diensten für Aufgabenstellungen aus dem Umfeld von Big Data. Die Partner stammen sowohl aus Wirtschaft und Wissenschaft und sind mit sehr heterogenen Big-Data-Herausforderungen konfrontiert. ScaDS Dresden/Leipzig bietet die Möglichkeit, aus einer breiten Palette methodischer Forschungsschwerpunkte je nach Anforderung angepasste Lösungen anzubieten. Profilbestimmende Forschungsschwerpunkte der Mitglieder im Kompetenzzentrum liegen in den Gebieten der Datenintegration, der Wissens-extraktion sowie der visuellen Analyse von Daten. Darüber hinaus werden Methoden zur effizienten Nutzung von Big-Data-Architekturen sowie des Big-Data-Life-Cycle-Managements und zur Unterstützung datengetriebener Workflows entwickelt und bereitgestellt. Neben der methodischen Forschung sind fünf Anwendungsgebiete – Lebenswissenschaften, Werkstoff- und Ingenieurwissenschaften, Umwelt- und Verkehrswissenschaften, Digital Humanities und Business Data – direkt in die Forschungs- und Entwicklungsarbeiten des Zentrums eingebunden. Zentrales Element zwischen der anwendungsnahen Forschung und der Informatik ist ein Servicezentrum zur Entwicklung von Big-Data-Diensten und als zentraler Anlaufpunkt zur Nutzung von Big-Data-Technologien. In zum Teil mehrmonatigen Consultingprojekten analysieren Servicemitarbeiter von ScaDS Dresden/Leipzig gemeinsam mit den Experten aus der jeweiligen Domäne die Problemstellungen und setzten Lösungen auf Big-Data- und High Performance Computing (HPC) Infrastrukturen um. Zur Verstetigung der entwickelten Lösungen in den Anwendungsbereichen werden Weiterbildungen und Nutzerschulung angeboten, die unter anderem aktuelle Entwicklungen im Bereich Big Data zum Einsatz von Big-Data-Frameworks und Infrastrukturen berücksichtigen. Durch den interdisziplinären Ansatz in der Bearbeitung der verschiedenen Herausforderungen zeigte sich, dass signifikante Performance-Verbesserungen vorhandener datengetriebener Workflows erreicht werden können. Darüber hinaus werden Ergebnisse aus der Big-Data-Forschung u.a. zur effizienten Datenbereinigung, Extraktion und Segementierung von bildgebenden Verfahren oder auch zur groß-skaligen Analyse netzwerkartig strukturierter Daten in Anwendungen transferiert. Im Vortrag wird zunächst das Serviceportfolio von ScaDS Dresden/Leipzig vorgestellt. Vier ausgewählte Praxisprojekte werden dann im Detail beschrieben: (1) Deep Learning zur Kartendatenextraktion, (2) Großskalige Visualisierung hochaufgelöster Microskopdaten (3) Datenanalyseworkflows, u.a. von Massensprektrometriedaten mit Hilfe von KNIME sowie (4) Business Intelligence auf sehr großen netzwerkartig strukturierten Daten. Ein wesentlicher Aspekt ist dabei die Überführung von wissenschaftlichen Prototypen in existierende Infrastrukturen und Prozesse. Aus unseren Anwenderprojekten mit Unternehmen konnten bereits wertvolle Erfahrungen zur Anwendung von Big-Data-Technologien gemacht werden, die im Vortrag aufbereitet und präsentiert werden.
        Speaker: Dr Rene Jaekel (TU Dresden)
        Slides
      • 12
        Architectural designs for data analytics at HPC -1.025

        -1.025

        Building 20.30

        The efficient and intelligent handling of large, often distributed and heterogeneous data sets increasingly determines the scientific and economic competitiveness in most application areas. Mobile applications, social networks, multimedia collections, sensor networks, data intense scientific experiments and complex simulations generate nowadays a data deluge. But, processing and analyzing these data sets with innovative methods open up various new opportunities for its exploitation and new insights. The resulting resource requirements exceed the possibilities of state-of-the-art methods for the acquisition, integration, analysis and visualization of data. In recent years, many promising approaches have been developed and are available as community frameworks in the big data area to process large sets of data, which become increasingly interesting to be evaluated by domain scientists. The purpose of those frameworks spans from specialized implementations using deep learning approaches to the processing and analysis of large scale stream-based sensor data. Nowadays, sophisticated and specialized hardware options are available in the high performance computing area to provide architectures adjusted to the needs of different analytics workloads. In our contribution, we discuss methods to provide shaped computing environments for big data analytics and illustrate via real-world analytics scenarios requirements for efficient provisioning of computing environments to suit best individual needs of a given workload to achieve best performance.
        Speakers: Dr Rene Jaekel (TU Dresden), Prof. Wolfgang. E. Nagel (TU Dresden / ZIH)
        Slides
    • Use-Cases -1.014 (Building 20.30)

      -1.014

      Building 20.30

      • 13
        FEE- Methoden und Prozesse zur Entscheidungsunterstützung in der chemischen Industrie -1.014

        -1.014

        Building 20.30

        Der hohe Automatisierungsgrad in modernen Produktionsanlagen der Prozessindustrie erlaubt einen hochwirtschaftlichen Betrieb der Anlagen. Allerdings führt die Automatisierung auch zu besonderen Belastungen für das Personal in den Leitwarten und die Prozessingenieure, welche diese Anlagen überwachenden. Die große Anzahl der zu überwachenden Prozessinformationen und die Komplexität der erfassten Daten erhöht sich ständig. Das vom BMBF geförderte Projekt FEE (www.fee-projekt.de) erarbeitet Lösungen um das Personal im Anlagenbetrieb, insbesondere in kritischen Situationen, zu unterstützen. Anwendungsfälle sind die Bewältigung von unerwarteten Situationen, etwa dem Auftreten vieler Alarme ("Alarmschauer"), oder die frühzeitige Erkennung und Meldung anormaler Prozesse. Basierend auf Big Data Technologien wurden Methoden entwickelt, welche insbesondere bei der frühzeitigen Erkennung von kritischen Situationen und bei der Entscheidungsfindung assistieren sollen. Dabei werden die sehr heterogenen Anlagendaten (Sensordaten, Alarmmeldungen, Schichtbücher, Betriebsvorschriften, Engineering-Daten, etc.) aufbereitet und zugänglich gemacht. Die so entwickelten Methoden umfassen unter anderem Werkzeuge zur interaktiven Datenaufbereitung und -exploration. Die Zielsetzung hierbei ist es, das potentielle Wissen aus historischen Datenbeständen aufzubereiten, sodass diese sowohl dem menschlichen Nutzer, als auch maschinellen Lernverfahren leicht zugänglich gemacht werden können. Darauf aufbauend wurden verschiedene Verfahren zur Erkennung von abnormalen Prozessabläufen im kontinuierlichen Betrieb entwickelt. Algorithmen zur Anomalie-Erkennung auf metrischen Messwerten liefern eine Beurteilung der aktuellen Situation und können helfen auffällige Signale frühzeitig zu entdecken. Neu entwickelte Methoden analysieren die Alarmmeldungen im Hinblick auf die Anlagentopologie. Neben den erwähnten Demonstratoren, gewährt der Vortag auch einen Einblick in die Entwicklungsprozesse für eine Big Data Architektur für Anlagenfahrer-Assistenzsysteme.
        Speaker: Mr David Arnu (RapidMiner GmbH)
        Slides
      • 14
        AnalyzeGenomes.com: A Federated In-Memory Database Platform for Digital Health -1.014 (36)

        -1.014 (36)

        Building 20.30

        In an increasing number of cases, medical experts discover roots of complex diseases such as cancer with in the human genome. Therefore, analyses of the individual genetic code of each patient are the foundation of the innovative precision medicine. For example, the genetic profile of a tumor sample and the individual life style of a patient can provide insights in to the efficiency of available chemotherapies. However, the acquisition of the genetic profile is very time- consuming, e.g. due to the high number of required process steps, the sheer amount of data, and the use of individual data formats. The “Analyze Genomes” cloud platform incorporates latest in-memory technology to enable new perspectives for precision medicine and digital health within clinical routine. For the first time, it enables instantaneous analysis of big medical data and their combination with global medical knowledge. As a result, medical experts are able to discover and assess available therapy options much faster to initiate the best choice from the very beginning. Together with experts from life sciences, such as medical experts, biologists, and geneticists, researcher of the HPI under the management of Dr. Matthieu P. Schapranow have developed the cloud platform „Analyze Genomes“ (http://we.analyzegenomes.com/). The software enables experts from various disciplines to perform real-time analysis of big medical data without the need for dedicated IT personnel. Instead of using spread-sheets and static graphs for data exploration, the platform provides tools optimized for digital health. The in-memory technology researched at the chair of HPI founder Prof. Dr. Hasso Plattner provides the technology foundation for integrating heterogeneous medical data sets, its rapid processing, and real-time data analysis using latest statistical methods. In the “Medical Knowledge Cockpit”, doctors as well as patients obtain together a holistic view on individual genetic variants, biological connections, and links to worldwide available clinical trials.
        Speaker: Dr Matthieu-P. Schapranow (Hasso Plattner Institute)
      • 15
        Das Web als Firmendatenbank: Big Data für Marketing, Vertrieb und Pressearbeit -1.014

        -1.014

        Building 20.30

        Informationen zu Bestandskunden und potentiellen Kunden sind von großer Bedeutung für erfolgreiche PR-, Marketing- und Vertriebsprozesse. Die aktuellste und größte Informationsquelle für solche Informationen ist das Web. Der größte Teil der Informationen liegt dort allerdings unstrukturiert in Textform vor ist daher für gezielte Abfragen und quantitative Analysen nicht verfügbar – und genau dies zu erreichen ist das Ziel der Echobot Media Technologies GmbH aus Karlsruhe. Echobot betreibt Webcrawler, die täglich ca. eine halbe Mio. Nachrichten-Artikel sowie 2-3 Mio. Social-Media-Postings aus dem Web erfassen und eine Vielzahl von Unternehmenswebsites in regelmäßigen Abständen indexieren. Um diese Informationen verwertbar zu machen, d.h. Wissen aus den Daten zu generieren und es den betroffenen Firmen zuzuordnen, forscht Echobot an Analysemethoden, die entsprechend skalieren. Im Vortrag wird ein Überblick über die damit verbunden Problemstellungen gegeben und ein Projekt, das in Zusammenarbeit mit dem KIT durchgeführt wurde, genauer vorgestellt. Ziel des Projektes war die Prädiktion der Branchenzugehörigkeit einer Firma auf Basis der Firmen-Website. In einem Zwischenschritt wurden die Website-Inhalte zunächst in Themen-Vektoren überführt, auf deren Basis dann verschiedene Klassifikatoren trainiert und evaluiert wurden. Die hohe Feature-Dimensionalität und große Anzahl verschiedener Klassen stellten dabei besonderen Herausforderungen dar, auf die im Vortrag näher eingegangen wird.
        Speakers: Dr Matthias Keller (Echobot), Mr Nico Schlitter (KIT/SCC)
        Slides
    • 3:30 PM
      Coffee Break Lobby (Building 20.30)

      Lobby

      Building 20.30

    • Analytics 0.014 (Building 20.30)

      0.014

      Building 20.30

      • 16
        Efficiently Handling Streams from Millions of Sensors 0.014

        0.014

        Building 20.30

        We present two research works dealing with massive sensor data inputs. 1) We present I², an interactive development environment for real-time analysis pipelines, which is based on Apache Flink and Apache Zeppelin. The sheer amount of available streaming data frequently makes it impossible to visualize all data points at the same time. I² coordinates running cluster applications and corresponding visualizations such that only the currently depicted data points are processed in Flink and transferred towards the front end. We show how Flink jobs can adapt to changed visualization properties at runtime to allow interactive data exploration on high bandwidth data streams. Moreover, we present a data reduction technique which minimizes data transfer while providing loss free time-series plots. 2) We present Cutty, an innovative technique for the efficient aggregation of user-defined windows over data streams. While the aggregation of periodic sliding and tumbling windows was extensively studied in the past, little to no work was done on optimizing the aggregation of common, non-periodic windows. Typical examples of non-periodic windows are punctuation windows and sessions which can implement complex business logic. Cutty performs aggregate sharing for data stream windows, which are declared as user-defined functions (UDFs) and can contain arbitrary business logic. Cutty outperforms the state of the art for aggregate sharing on single and multiple queries. Moreover, it enables aggregate sharing for a broad class of non-periodic UDWs. We close the talk with an outlook on the ongoing research of the Berlin Big Data Center regarding the efficient processing of data from millions of sensors.
        Speaker: Mr Jonas Traub (Technische Universität Berlin)
        Slides
      • 17
        AL in action: unified relational- and graph processing 0.014

        0.014

        Building 20.30

        # AL in action: unified relational- and graph processing Modern data analyses frequently involve a variety of data types and corresponding programming models. Popular big data platforms, such as Apache Hadoop, Spark, or Flink, hide this variety behind a generic and sometimes system oriented programming abstraction. In recent years, domain specific languages that sit on top of those low level models, have risen in popularity. Especially SQL like languages have enabled business experts to transfer their knowledge to the world of big data. At the same time, applications such as graph- or linear algebra processing have inspired the development of dedicated processing plattforms and special purpose languages. Unfortunately, none of the popular big data solutions is able to integrate various important high level domain languages into a single, unified, and easy to use programming model. Users therefore have to manually combine tools and corresponding languages to assemble a hollistic data analyses application. In our demonstration for the *2nd BMBF Big Data All Hands Meeting* we introduce our data oriented programming system *AL*. AL is an extensible programming environment that integrates multiple analytics oriented domain specific languages into a common programming language. We are going to demonstrate AL's support for relational- and graph pattern matching queries and show how these queries can be composed to form multi domain programs.
        Speaker: Mr Johannes Luong (Technische Universität Dresden)
      • 18
        Anomaly detection in time series data 0.014

        0.014

        Building 20.30

        In the era of ubiquitous data, especially coming from sensors of all kind providing time-dependent data, applying analytics methods to characterize the value in the observed processes is a promising, but also challenging task. Not just the sheer amount of data, but also the integration and verification of data at hand needs to be handled prior to any analysis of time series data. As a general purpose set up, we present an infrastructure called DataHeap to handle sensor data, both for storage and further analysis. From the users perspective interfaces to access those data for offline or online analysis (stream processing) needs to be efficient and straight forward to gain fast insights in available data. Especially in the analytics domain, frameworks, e.g. project from the Hadoop ecosystem, have emerged providing analytics methods applicable to large scale data. This demonstrator represents a workflow for collecting and evaluating sensor data. In principle, this workflow can be deployed on a general purpose cloud-based infrastructure. Using this infrastructure, we will show exemplary an analysis using energy monitoring data from an HPC-system. Here, the interest lies in anomaly detection that could indicate problems in the cooling system of the HPC-machine. Furthermore, we show the applicability of the system to other domains or areas of interest by actual examples from our research partners.
        Speaker: Mr Jan Frenzel (TU Dresden)
        Slides
    • Platforms -1.025 (Building 20.30)

      -1.025

      Building 20.30

      • 19
        Konzept einer Big Data Infrastruktur für zukünftige Leitstellensysteme -1.025

        -1.025

        Building 20.30

        Im Rahmen der Projekte Energie Lab 2.0 und Energiesystem 2050 wird eine Forschungsinfrastruktur aufgebaut, die eine ganzheitliche Forschung zu zukünftigen intelligenten Energiesystemlösungen auf Systemebene ermöglicht. Verschiedene Partner aus der Helmholtzgemeinschaft und der Industrie sind dabei involviert. Für die Erforschung der für solche Systeme benötigten smarten Softwaredienstleistungsinfrastrukturen wird eine IT-Plattform auf Basis von „Big Data“-Werkzeugen und modernem Cluster-Computing aufgebaut und durch neuartige Energie bezogene Softwarelösungen ergänzt, welche als Grundlage für die IT-Infrastruktur von zukünftigen Leitstellensystemen bzw. Energiedienstleistungsinfrastrukturen dienen kann. Diese Infrastruktur besteht aus fünf Ebenen. Unterste Ebene und damit die Basis der Infrastruktur bildet ein Computing Cluster auf Hardwareebene. Auf mehrere Knoten verteilte Linux-Betriebssysteme dienen hierbei als Softwaregrundlage. Auf einer zweiten Ebene werden die Linux-basierten Basisbetriebssysteme auf den einzelnen Rechnerknoten durch betriebssystemnahe Werkzeuge zum Management größerer Cluster von darauf verteilt laufender Softwareanwendungen ergänzt (z.B. Mesos zur Ausführung der Jobs verteilter Anwendungen in Containern auf unterschiedlichen Knoten des Clusters, oder Softwaresysteme zur Containervirtualisierung von Anwendungen, wie z.B. Docker und Kubernetes). Diese Ebene wird z.B. durch Produkte, wie DCOS (Distributed Computing Operating System) der Fa. Mesosphere bereitgestellt oder ist oft auch in „Big Data“-Technologiestacks, wie MapR, Cloudera oder Hortonworks, als betriebssystemnahe Dienstleistungsebene enthalten. Auf dieser Grundinfrastruktur baut die nächste Ebene auf: ein „Big Data“-Technologiestack, wie er über Hadoop-basierte „Big Data“-Plattformen, wie MapR, Cloudera oder DCOS, bereitgestellt wird. Diese Ebene beinhaltet bereits vorinstallierte „Big Data“-Softwaresysteme, wie z.B. das Hadoop File System (HDFS), Apache Hbase, ZooKeeper oder Yarn als Grundlage. Diese dritte Ebene wird durch „Big Data“-Softwarewerkzeuge zur Datenspeicherung, Datenanalyse, Kommunikation, Datenaufnahme ergänzt. Für die Datenspeicherung können verschiedene Big Data / NoSQL Datenbanken wie z.B. Neo4j, MongoDB, OpenTSDB, InfluxDB oder Elasticsearch verwendet werden. Für die Datenanalyse können u.a. Apache Spark und Apache Storm genutzt werden. Die im Rahmen von Forschungsprojekten am IAI entwickelte Serviceebene mit grundlegenden Komponenten für zukünftige großskalige Softwarelösungen für das Eenrgiesystem baut als vierte Ebene auf diesem Softwarestack auf und trägt den Namen Generic Microservice Backend (GMB). Sie beinhaltet ein verteiltes Servicegateway als Single Point of Entry, ein zentrales Sicherheitskonzept (OAuth2), sowie Mechanismen für Load Balancing und Service Discovery und ist als typische Microservicearchitektur aufgebaut. Wichtige Bestandteile des GMB sind die Generic Data Services (GDS), welche die Funktionalitäten zum Datenmanagement kapseln. Die GDS unterstützen dabei einen polyglotten Ansatz. Unterschiedliche Datenbanken für die spezifischen Aufgaben werden über eine einheitliche Schnittstelle angesprochen. GDS bietet dazu Dienste für Zeitreihen, Stammdaten, Schemata und Digital Assets. Einen weiteren wichtigen Bestandteil der Servicebene bilden die Application Services. Dazu gehören Analysedienste, Optimierungsdienste und eine (Co-)Simulationsplattform. Sowohl die GDS als auch die Application Services greifen auf die darunter liegenden „Big Data“-Tools und -Datenbanken zu, um hochperformante und hochskalierbare Dienste zu ermöglichen. Die fünfte und letzte Ebene bildet die Applikationsebene. Im Rahmen der oben genannten Projekte handelt es sich hierbei um diverse Energieapplikationen, über die Funktionalitäten wie Energie Management, Visualisierung von Energiedaten, Vorausplanung des Betriebs unter Nutzung von Datenvorhersage und Optimierung, etc. für den Endnutzer bereitgestellt werden. Die Applikationen greifen über eine einheitliche Serviceschnittstelle im Gateway auf die Cluster-Infrastruktur zu und bieten dem Endbenutzer nutzerfreundliche und hochkonfigurierbare Frontend-Schnittstellen, um auf das Big Data Cluster zuzugreifen ohne die darunterliegende Komplexität kennen zu müssen. Im Rahmen des Vortrags werden die grundlegenden Konzepte der Gesamtlösung detailliert vorgestellt und die Nutzbarkeit für unterschiedliche Energieprojekte demonstriert.
        Speaker: Mr Karl-Uwe Stucky (KIT)
        Slides
      • 20
        The Smart Data Innovation Lab Research Platform -1.025

        -1.025

        Building 20.30

        The Smart Data Innovation Lab (SDIL) is established as a nationwide laboratory for Smart Data research. It facilitates the analysis of complex data by providing state-of-the-art in-memory and big-data technologies. SDIL provides a platform to promote the cooperation between industry and public as well as private research sectors in the field of big data and smart data technologies. Companies and research institutions have organized themselves as partners in the SDIL Communities “Industry 4.0”, “Medicine”, and “Smart Infrastructure” with a focus on Energy and Smart Cities. The aim of each of the SDIL communities is to intensify the cooperation between businesses and science in the area of smart data solutions. SDIL provides research projects with a top-class infrastructure for in-memory and big-data analytics. The SDIL platform is operated in the server rooms of the Steinbuch Centre for Computing at the Karlsruhe Institute of Technology. It integrates several main components. These are among others the in-memory databases HANA (SAP) and Terracotta (Software AG), the big-data analytics solutions of the IBM Watson Foundation including the SPSS Modeler and BigInsights and FusionInsight (Huawei), a compute-cluster and virtualization environments allowing for a flexible deployment of customized machines for user applications. Due to the diverse structure of the SDIL platform, both with regard to the existing hardware as well as the available analysis software, special challenges arise in the operation of an efficient and safe environment. This talk highlights various aspects of the developed concepts for this purpose.
        Speaker: Jan Erik Sundermann (Karlsruhe Institute of Technology)
        Slides
      • 21
        Thrill: High-Performance Algorithmic Distributed Batch Data Processing with C++ -1.025

        -1.025

        Building 20.30

        We present on-going work on a new distributed Big Data processing framework called Thrill. It is a C++ framework consisting of a set of basic scalable algorithmic primitives like mapping, reducing, sorting, merging, joining, and additional MPI-like collectives. This set of primitives goes beyond traditional Map/Reduce and can be combined into larger more complex algorithms, such as WordCount, PageRank, k-means clustering, and suffix sorting. All these have already been implemented as examples. These complex algorithms can then be run on very large inputs using a distributed computing cluster. Among the main design goals of Thrill is to lose very little performance when composing primitives such that small data types are well supported. Thrill thus raises the questions of a) how to design algorithms using the scalable primitives, b) whether additional primitives should be added, and c) if one can improve the existing ones using new ideas to reduce communication volume and latency. Our aim is to provide a high-performance platform for next-generation Big Data algorithms, which is both faster and easier to use the Hadoop, Spark, or other current technology. More information on Thrill is available at http://project-thrill.org/
        Speaker: Mr Timo Bingmann (KIT)
        Slides
    • Use-Cases -1.014 (Building 20.30)

      -1.014

      Building 20.30

      • 22
        BigGIS - Stream Enrichment With Temperature Data
        The BigGIS Project aims to develop a new GIS to deal with the challenges of Big Data in the field of Geo Information Systems (GIS). Historically, data in this field is available in pre-defined data formats, has a high data quality and the data is not in motion. The data volume was, apart from few exceptions, relatively small. In the last years this has changed. Based on many new data gathering devices such as smart phones or volunteered geographic information (VGI) with e.g. citizen weather stations, data is now available in a size never before seen. But this new data presents its problems especially with the velocity, the variety and the veracity of the data. In contrast to older data gathering methods, new sensors create data every second instead of days. Smart phones alone leave a steady stream of data. The data sources themselves are saved in many different formats. From polygons and vector based formats to raster files, from yearly aggregates to second measurements and any combinations, from single point measurements to video files, geo data assume a high variety of different formats. Lastly, the quality of the data is not clear anymore. In the past, data was gathered via expensive methods and guidelines as well as methodical planning went into the guarantee of the quality of data. Today, a researcher or practitioner cannot be sure about the quality and has to filter or develop methods how to deal with these problems. In BigGIS, we introduce a novel continuous refinement model to deal particular with veracity and uncertainty in spatio-temporal big data by an integrated data processing pipeline that leverages big data analytics frameworks, semantic web technologies and visual analytics methodologies. By using the well-established pipes and filters architectural pattern and incorporating uncertainty in our statistical modeling approaches, we address the challenges of modern GIS. In this presentation, we will give an overview of how data streams can be enriched with additional information from other data sources in a stream enrichment pipeline in BigGIS We present our approach and the underlying architecture in the field of temperature prediction. Based on existing measurements from satellites, VGI and official weather stations we combine different spatio-temporal information to create an enriched output vector upon which we can reliably predict temperatures at any point given reference point in time. We include the uncertainty by use of Bayesian Hierarchical Modeling and enhance the accuracy by including the knowledge of the user by using visual analytics. The benefits of our approach are shown in two scenarios: smart city and the detection of invasive species. In the case of a smart city, accurate temperature distribution maps as well as their underlying reasons can be used to measure and mitigate the impact of heat on the human health as well as reduce the energy costs derived from temperature. In the case of invasive species, the knowledge of the temperature is essential to detect their habitats as well as potential breeding grounds. We demonstrate that the stream enrichment pipeline in BigGIS is efficient in the processing of data and generating valuable insight. In cooperation with the smart data innovation lab (SDIL) we show the potential use of our stream enrichment approach for data cleaning in order to guarantee certain data quality levels.
        Speaker: Mr Julian Bruns (FZI Forschungszentrum Informatik)
        Slides
      • 23
        BigGIS - Einsatz von Flugrobotern zur Entscheidungsunterstützung bei Bränden
        Ziel des BigGISProjekts ist es, ein neuartiges Geoinformationssystem (GIS) zu entwickeln, welches die Herausforderungen von Big Data bei geo-temporalen Daten adressiert. Eines von drei Anwendungsszenarien zur Demonstration der Funktionsweise in der Praxis ist die Unterstützung von Behörden und Organisationen mit Sicherungsaufgaben (BOS). Hierbei erfolgte die Konzentration auf die Feuerwehren im Falle einer Rauchgasausbreitung bei einem Brand und einer Gasausströmungen etwa aus defekten Stadtgasleitungen oder Pipelines. In diesem Szenario soll der Feuerwehr durch den Einsatz von UAV (Unmanned Aerial Vehicles - Flugrobotern) eine Informationsunterstützung im Einsatz geliefert werden, um so beispielsweise die Quelle eines Gaslecks oder einen Brandherd frühzeitig identifizieren zu können oder betroffene Gebiete rechtzeitig zu evakuieren. Hierzu werden UAV mit Hyperspektral- und Infrarotkameras ausgerüstet und können so die Ausbreitung von Gasen und Rauchwolken sowie deren Inhalte anhand der spektralen Signatur von Tracer-Gasen erkennen. Basierend auf automatisierten Georeferenzierungs- und Entzerrungsprozessen sowie der BigGIS-Infrastruktur zeigen wir in dieser Präsentation am Beispiel eines prototypischen Einsatzes den Ablauf im Falle eines Brandes, vom Auslösen des Alarms bis zur Nachbereitung. Beginnend mit dem Alarm werden Bestandsdaten geladen, um dem Einsatzleiter bereits eine erste Übersicht über das Areal und potentielle Risikogebiete zu geben. Am Einsatzort wird die Drohne gestartet und stellt der Einsatzleitung mit geringer Verzögerung erste Aufnahmen des betroffenen Gebiets zur Verfügung. Auf Basis der Erstaufnahmen wird die Ausbreitung der Schadstoffwolke festgestellt und die zukünftige Ausbreitung prognostiziert. Zudem dienen sie der automatisierten Bestimmung eines Flugplans für die Drohne, der eine genauere Untersuchung von beispielsweise stark betroffenen Gebieten oder solchen, über die wenig Informationen vorliegen, erlaubt. Auf diese Art werden weitere Aufnahmen gewonnen und die Ausbreitungsprognose dynamisch angepasst und verbessert. Die Aufnahmen, mögliche identifizierte Schadstoffe sowie die prognostizierte Ausbreitung werden dem Einsatzleiter vor Ort übermittelt. Er kann diese Informationen im Rahmen seiner Beurteilung nutzen und dem System zusätzliche Informationen und Korrekturen übermitteln. Die Kombination der Verfahren erlaubt es, der Einsatzleitung frühzeitig eine umfassende Informationsgrundlage zur Verfügung zu stellen, auf deren Basis gezielte Maßnahmen getroffen werden können.
        Speaker: Dr Bodo Bernsdorf (EFTAS Fernerkundung Technologietransfer GmbH)
        Slides
      • 24
        Combining software heritage with Open Source, Cloud with On-Premise
        Python, R, Scala, Spark, etc.... Open Source cannot be thought away from education, research and industrial practice in the area of Analytics. Universities can hardly cover the demand for those skills, particularly good expertise in that area is one side of the medal. The other is domain knowledge in the particular industry. Getting both together in the appropriate quality is very rare. Bringing both working close together – the promising solution. The presentation will show how IBM is addressing this with Watson Data Platform.
        Speaker: Mr Plamen Kiradjiev (IBM)
        Slides
    • Shuttle to ZKM: in front of Building 20.30
    • Networking Event: ZKM Museum Lorenzstraße 19, 76135 Karlsruhe

      Lorenzstraße 19, 76135 Karlsruhe

    • Shuttle to Badische Brauhaus: from ZKM
    • Conference Dinner BADISCH BRAUHAUS, Stephanienstraße 38-40, 76133 Karlsruhe

      BADISCH BRAUHAUS, Stephanienstraße 38-40, 76133 Karlsruhe

  • Thursday, October 12
    • Data Innovation Community “Industrie 4.0” 0.014 (Building 20.30)

      0.014

      Building 20.30

      Data Innovation Community “Industrie 4.0”

      Industrie 4.0 is a powerful driver of large data growth and directly connected with the “Internet of Things”. Through the Web, real and virtual worlds grow together to form the Internet of Things. In production, machines, as well as production lines and warehousing systems, are increasingly capable of exchanging information on their own, triggering actions and controlling each other. The aim is to significantly improve processes in the areas of development and construction, manufacturing and service. This fourth industrial revolution represents the linking of industrial manufacturing and information technology – creating a new level of efficiency and effectiveness. Industrie 4.0 creates new information spaces linking ERP systems, databases, the Internet and real-time information from production facilities, supply chains and products.

      The Data Innovation Community “Industrie 4.0” wants to explore important data-driven aspects of the fourth industrial revolution, such as proactive service and maintenance of production resources or finding anomalies in production processes.

      The Data Innovation Community “Industrie 4.0” addresses all companies and research institutions interested in conducting joint research with regard to these aspects. This includes user companies as well as companies from the automation and IT industries.

    • Data Innovation Community “Personalized Medicine” -1.014 (Building 20.30)

      -1.014

      Building 20.30

      Modern medicine as well generates increasingly large data quantities. Reasons for this development are: the higher resolution data from state-of-the-art diagnostic methods (e.g. magnetic resonance imaging (MRI), IT controlled medical technology, comprehensive medical documentation) and the detailed knowledge about the human genome. As a case in point, there is personalized cancer therapy where the increasing use of software aims at taking terabytes of data from clinical, molecular and medication data in diverse formats. In order to significantly improve treatment results, effective treatment options for each individual patient are distilled from these data.

      Within the Data Innovation Community “Personalized Medicine”, important data-driven aspects of personalized medicine are to be explored, such as the need-driven care of patients, IT controlled medical technology or even web-based patient care.

      The Data Innovation Community “Personalized Medicine” addresses all companies and research institutions interested in conducting joint research with regard to these aspects. This includes industry user companies and clinics but also companies from the automation and IT industries.

    • Data Innovation Community “Smart Infrastructure” -1.025 (Building 20.30)

      -1.025

      Building 20.30

      Am 3. März 2017 beim 8. SDIL Strategy-Board-Meeting wurde die neue DIC “Smart Infrastructure” beschlossen. Dieses verbindet die Inhalte der bisherigen DICs “Smart Cities” und “Energie” in Form zweier Schwerpunkte dieser neuen DIC. So können bisherige thematische Überlappungen beider DICs zukünftig stärker als Synergien genutzt werden.
      Schwerpunkt: “Energie”

      Die Energiebranche steht vor einem grundlegenden Wandel. Die Umstellung auf erneuerbare Energien, die von der EU geforderte Installation von Smart Meter, die Entwicklung neuer, kundenzentrierter Geschäftsmodelle: Aus diesen Veränderungen ergeben sich für die Energiebranche ganz neue Herausforderungen an die IT-Infrastruktur. Mittels der Analyse umfangreicher strukturierter und unstrukturierter Daten, wie sie beispielsweise über Apps auf mobilen Endgeräten, Internetportalen und soziale Medien generiert werden, können Energieversorger künftig Geschäftsprozesse optimieren und neue Geschäftsmodelle entwickeln. So ermöglichen Big-Data-Analysen beispielsweise bessere Verbrauchsprognosen, mit denen Versorger den Einkauf von Energie genauer als bisher steuern können. Dank Big Data können auch Tarife besser auf verschiedene Kundengruppen zugeschnitten oder unzufriedene Kunden leichter erkannt werden, was letztlich die Kundenbindung erhöht.

      Im Schwerpunkt “Energie” sollen wichtige datengetriebene Aspekte im Bereich Energie erforscht werden, bspw. die bedarfsgesteuerte Einstellung von Tarifen auf Basis von Smart Meter-Daten.

      Der Schwerpunkt “Energie” richtet sich daher an alle interessierten Unternehmen und Forschungseinrichtungen, die bzgl. dieser Aspekte gemeinsame Forschung betreiben wollen. Dies schließt sowohl Anwenderunternehmen der Energiebranche mit ein als auch Unternehmee n der Automatisierungsbranche sowie der IT-Branche.
      Schwerpunkt: “Smart Cities”

      Auch in den Bereichen Stadtentwicklung und Verkehrsmanagement ergeben sich durch die Auswertung von Big Data völlig neue Möglichkeiten. Mithilfe von integrierten Lösungen für die Transportkommunikation und intelligenter Systeme für das Verkehrsmanagement kann der Verkehr in schnell wachsenden dichtbesiedelten Stadtgebieten besser bewältigt werden. Die Menge an Daten, die in Städten unter anderem durch U-Bahnen, Busse, Taxis und Verkehrskameras generiert wird, ist immens. Mit den existierenden IT-Landschaften lassen sich oftmals kaum Vorhersagen oder erweiterte Datenanalysen durchführen, um verschiedene Verkehrs- und Transportszenarien vorausschauend durchzuspielen. Aber nur so lassen sich entsprechende Dienstleistungen und die weitere Städteplanung verbessern. Werden Informationen in Echtzeit analysiert, richtig ausgewertet und in
      Kontext mit historischen Daten gesetzt, können Staus und Gefahren im Straßenverkehr frühzeitig erkannt und Verkehrsaufkommen, Emissionen und Fahrzeiten signifikant gesenkt werden.

      In der Data Innovation Community “Smart Infrastructure”, Schwerpunkt “Smart Cities” sollen wichtige datengetriebene Aspekte im Bereich des urbanen Lebens erforscht werden, bspw. die Verkehrssteuerung, aber auch die Abfallentsorgung oder auch der Katastrophenschutz.

      Der Schwerpunkt “Smart Cities” richtet sich daher an alle interessierten Unternehmen und Forschungseinrichtungen, die bzgl. dieser Aspekte gemeinsame Forschung betreiben wollen, genauso aber auch an öffentliche Stellen. Dies schließt sowohl Anwenderunternehmen mit ein als auch Unternehmen der Automatisierungsbranche sowie der IT-Branche.

    • 11:30 AM
      Coffee Break Lobby (Building 30.22)

      Lobby

      Building 30.22

    • 25
      SDSC-BW - Smart Data for SMEs Gaede-HS (Building 30.22)

      Gaede-HS

      Building 30.22

      The Smart Data Solution Center Baden-Württemberg (SDSC-BW) has been established to support small and mediuem sized enterprises (SMEs) on their way to an efficient usage os smart data analytics technology. SICOS BW and its partner, the Karlsruhe Institute for Technology (KIT) guide SMEs through the first steps into smart data analytics. The means of choice is a so-called potential analysis, where the researchers from KIT work together with the IT and application experts of the SME to create a first understanding of all issues around the application of Smart Data technology, including the availability of data, its formats, the employees involved and a first analytics session. We will present how this process is organized and how it is applied to real world scenarios. A few success stories that came out of SDSC-BW will be shown.
      Speaker: Dr Andreas Wierse (SICOS BW GmbH)
      Slides
    • 26
      Realizing smart data by automating tabular search, integration and extraction methods Gaede-HS (Building 30.22)

      Gaede-HS

      Building 30.22

      There is an increased focus on deriving business value from data. To exploit data, it is usually necessary to fetch it out of various silos to get a clear and holistic picture for the domain of discourse. The challenges lie in merging diverse data sets so data mining tasks can be performed on enriched data sets, which better represent the specific use case at hand. In current art, there is a lack of software tools and methods that assist in curating data from heterogenous sources to realize smarter transformations compared to their archaic forms. The problem is complicated because data exists in various formats and lies on public or private sources. These inadequacies block progress in extracting value out of data. To resolve these shortcomings, we are researching and developing user interface based tools and scientific methods in the ongoing research project “Data Search for Data Mining (DS4DM)” [1]. More concretely, we use structured data tables as basis to address *data extraction* and *data enrichment* by developing extensions for the open-source data science platform “RapidMiner”. Thus, the presented work leads to smart exploitations of data in graphically designed and highly reusable data mining processes. Data Extraction: Our work towards data extraction enables data scientists to conveniently retrieve data tables from popular sources directly into RapidMiner. These include Wikipedia articles, websites, PDF documents, online (Google) spreadsheets, etc. This adds to the out-of-box features already available in RapidMiner, which allow for reading spreadsheet documents, CSV and XML files, RDBMS databases, Cloud storage (Amazon S3) and NoSQL data-stores such as Cassandra and MongoDB, etc. Data Enrichment: Our work towards data enrichment implements the Search-Join [2] method within the graphical user interface of RapidMiner. Search-Join is a two-folds structured (tabular) search method. First, relevant data tables are searched from potentially large tabular corpus for a provided query. The tabular corpus serves as a reliable data store. Our current prototype consists of half a million data tables extracted from Wikipedia, but data can be ingested from organizational data-stores as well. The search query is comprised of an existing data table and an additional attribute, which needs to be discovered. This way, new tabular columns can be discovered and appended with imprecise or vague knowledge such as text keywords. The query is resolved by discovery algorithms that compute schema (table’s header) level and instance (table’s row) level matches for the query. This returns a space of candidate tables, which have strong contextual resemblances with the query and hence may add value to the original data table. As data search is susceptible to noise, the potentially large number of discovered tables need to be refined. This introduces data integration challenges, namely i) manual integration and ii) automatic integration of data, without which the practicality of discovered results remains of lesser value. - *Manual Data Integration:* Ideally, the data scientist needs to manually examine results and remove noisy tables, so that only value-contributing tables are considered. To guide the human in removing noise but preventing loss of informative tables, exploratory visualization techniques are developed, e.g., i) A Self-Organizing Document Map reveals how tables cluster based on similarity measures and ii) Graphical controls to manipulate intermediate outcomes of Search-Join process in real time i.e. removing noisy tables or observing distributions of certain statistical metrics among discovered candidate tables, which help to understand resemblances. - *Automatic Data Integration:* This option allows to execute the Search-Join as a fully automated process using default options, so extraction and enrichment can be operationalized. Results ------- The presented work implements a domain-independent solution to realizing smart data (through extraction and enrichment). The quality of search results considers statistical metrics such as coverage, trust, ratio and empty values, which are useful for data integration. As a result, the RapidMiner platform has been extended to incorporate data discovery and integration methods in data mining processes. Four extensions are developed and made publicly available at [3]. Acknowledgements ---------------- This work is sponsored by the German ministry of education and research (BMBF) under grant agreement number 01IS15027A-B. [1] DS4DM project website, weblink: http://ds4dm.de [2] The Mannheim Search Join Engine, C. Bizer et al., Web Semantics: Science, Services and Agents on the World Wide Web. Vol.35, Part 3, Dec. 2015. [3] The RapidMiner Marketplace, weblink: https://marketplace.rapidminer.com/UpdateServer/faces/index.xhtml
      Speaker: Dr Edwin Yaqub (RapidMiner GmbH)
    • 12:45 PM
      Lunch Break Lobby (Building 30.22)

      Lobby

      Building 30.22

    • 27
      Best Practices and Tools for Analysis Support based on SDIL Project Examples Gaede-HS (Building 30.22)

      Gaede-HS

      Building 30.22

      In this talk, we discuss typical challenges based on real world examples from SDIL projects. We often find that analysis projects are comparable to a "creative chaos" and their organization is extremely depended on the preferences of the individual data scientist. We show that it is mandatory to adhere to specific requirements and design choices as projects grow larger and analytics get more complex. To support a more structured analysis process we developed a prototypic tool based on Jupyer Notebooks which we will demonstrate.
      Speaker: Dr Till Riedel (TECO KIT)
      Slides
    • 28
      Establishing data marketplaces based on semantic vocabularies Gaede-HS (Building 30.22)

      Gaede-HS

      Building 30.22

      The role and economic value of data is increasingly recognized across various businesses and domains. Recently, capabilities for storing, processing and retrieving large amounts of data that come from various stages of industrial production workflows and product lifecyles have improved tremendously. To gain additional business value out of this data, smart data-driven services and novel value creation chains need to be established, providing a means for trustful data exchange that ensures traceability as well as the data owner’s privacy and > sovereignty over data. In addition, data consumers need a means to effectively find data that fulfills their information need and which can be used according to acceptable conditions. We argue that for establishing novel methods for creating value out of data, a common understanding of data and metadata across multiple domains is crucial. The approach we propose focuses on a shared information model based on semantic technologies that can describe and express data assets and infrastructure components in a unified way and that builds on existing models and standards. It acts as a point of reference for various stakeholders (e.g., data providers, data consumers, service providers) to publish or consume their contributions and offerings in an domain- and technology-agnostic way, building neutral and decentralized data marketplaces.
      Speaker: Dr Christian Mader (Frauenhofer IAIS)
      Slides
    • 3:00 PM
      Coffee Break Building 30.22

      Building 30.22

    • Tutorial 1: Einführung in Maschinelles Lernen zur Datenanalyse Gaede-HS (Building 30.22)

      Gaede-HS

      Building 30.22

      Der Kurs vermittelt Grundlagen zur Analyse von Daten und ist an Kursbesucher gerichtet die keine Vorkenntnisse in diesem Bereich haben. Die Inhalte werden prinzipielle Techniken umfassen, um Methoden der Datenanalyse wie Clustering, Klassifikation oder Regression besser einzuordnen. Das beinhaltet auch ein Verständnis von Testdaten, Trainingsdaten und Validierungsdaten. Anhand von einfachen Beispielen werden weiterhin Probleme wie bspw. overfitting angesprochen sowie dessen Lösungsansätze Validierung und Regularisierung. Nach dem Kurs haben Teilnehmer das Verständnis wie man an Datenanalyseprobleme grundsätzlich herangeht. Außerdem wird Teilnehmern ein Überblick gegeben welche Techniken und Methoden auf welchen SDIL Platformen bereitstehen.

      Convener: Prof. Morris Riedel (Forschungszentrum Juelich)
      • 29
        Einführung in Maschinelles Lernen zur Datenanalyse
        Der Kurs vermittelt Grundlagen zur Analyse von Daten und ist an Kursbesucher gerichtet die keine Vorkenntnisse in diesem Bereich haben. Die Inhalte werden prinzipielle Techniken umfassen, um Methoden der Datenanalyse wie Clustering, Klassifikation oder Regression besser einzuordnen. Das beinhaltet auch ein Verständnis von Testdaten, Trainingsdaten und Validierungsdaten. Anhand von einfachen Beispielen werden weiterhin Probleme wie bspw. overfitting angesprochen sowie dessen Lösungsansätze Validierung und Regularisierung. Nach dem Kurs haben Teilnehmer das Verständnis wie man an Datenanalyseprobleme grundsätzlich herangeht. Außerdem wird Teilnehmern ein Überblick gegeben welche Techniken und Methoden auf welchen SDIL Platformen bereitstehen.
        Speaker: Prof. Morris Riedel (Forschungszentrum Juelich)
    • Tutorial 2: Machine Data Insight Tutorial based on a Real Scenario from the SmartFactoryKL Project 0.014 (Building 20.30)

      0.014

      Building 20.30

      Base for this tutorial is a real problem observed at SmartFactoryKL, the leading partner in one of the five Mittelstand 4.0 Competence Centers of German Ministry of Economics and Energy (BMWi). Together with its partners, SmartFactoryKLhas developed the world’s first manufacturer-independent Industrie 4.0 plant and has been exhibited its progress at each Hanover Industry Fair for the past years.

      At one of the first fairs, a sporadic motor outage of the transport system occurred at different production modules. It appeared that when two transport belts got in contact the motors of the two adjacent modules became overloaded and burned out. During the overload, increased energy consumption of the two modules was observed. The tutorial investigates exactly this situation based on data generated from the modules of the SmartFactoryKLproduction line and predicts the next failure appearance for a specific module.

      Conveners: Mr Benedikt Krüger (IBM), Mr Michael Vössing (KSRI)
      • 30
        Machine Data Insight Tutorial based on a Real Scenario from the SmartFactoryKL Project
        Base for this tutorial is a real problem observed at SmartFactoryKL, the leading partner in one of the five Mittelstand 4.0 Competence Centers of German Ministry of Economics and Energy (BMWi). Together with its partners, SmartFactoryKLhas developed the world’s first manufacturer-independent Industrie 4.0 plant and has been exhibited its progress at each Hanover Industry Fair for the past years. At one of the first fairs, a sporadic motor outage of the transport system occurred at different production modules. It appeared that when two transport belts got in contact the motors of the two adjacent modules became overloaded and burned out. During the overload, increased energy consumption of the two modules was observed. The tutorial investigates exactly this situation based on data generated from the modules of the SmartFactoryKLproduction line and predicts the next failure appearance for a specific module.
        Speakers: Mr Benedikt Krüger (IBM), Mr Michael Vössing (KSRI)