DeepIntegrate

Name des Projekts Integration heterogener Datenquellen im Deep Learning: Architekturen, Algorithmen und Anwendung in der Pflanzenzüchtung
Dauer 01.01.2019 – 31.12.2021
Koordinator TU Kaiserlautern (Prof. Kloft)
Partner NPZ Innovation GmbH
D

ie Kombination der Vorteile von zwei Methoden, der Datenintegration und des tiefen maschinellen Lernens, ist das zentrale Ziel des Projekts DeepIntegrate. Mit diesem Projektvorhaben werden moderne, computergestützte Methoden entwickelt, erweitert und getestet, welche sehr ähnlich zum menschlichen Lernen, Daten aus unterschiedlichen Quellen nutzen, um Entscheidungen zu treffen und Vorhersagen zu machen. Ein erster konzeptioneller Beweis soll mit dem Projekt in der Pflanzenzüchtung geführt werden, in der eine Vielzahl an Daten und Datenquellen genutzt wird. Im Rahmen von DeepIntegrate werden Vorhersagemodelle entwickelt, die Bilddaten, genetische Daten und Umweltdaten in Kombination mit den neuen Methoden des maschinellen Lernens nutzen. Dies wird beispielsweise zu einer automatisierten Bewertung der Leistung von Pflanzensorten bei der Pflanzenzüchtung führen und so zur ressourcenschonenden Produktion von Nahrungsmitteln für eine wachsende Weltbevölkerung beitragen.


M

ultiple heterogeneous data sources can improve the predictive ability of machine learning algorithms. As such methods are well covered in research for classical machine learning, only little is known on integrating heterogeneous data in the context of deep machine learning. We will develop an elegant formulation on top of existing deep learning approaches to calculate an automatic weighting of data sources. To evaluate the methods, we generate a high-quality and high-quantity biological dataset and predict several target traits. The main target of this project is the development of fundamental methods within the framework of deep machine learning, able to integrate and utilize heterogeneous data sources for a wide range of applications. Using this approach will close the gap between the ability of classical machine learning to incorporate such multi-modal data and the uni-modal data processing, which is the current state-of-the art in deep machine learning. We will develop generic, hierarchical architectures for deep data integration and build furthermore specialized deep architectures for the application in plant breeding. This will enable the precise prediction of the plant development over the time, as well as abiotic- and biotic stress tolerances and yield parameters. This approach uses complex and heterogeneous data types and sources, such as genomic data, image data (RGB and Multispectral) acquired by drones and environmental data recorded by mobile weather stations and soil sensors. The incorporation of image data via a generic statistical tool will result in a complete, disruptive change for the usage and usability of imaging in plant breeding. Up to now a complete new calibration or image analysis software must be developed for each trait of interest. Furthermore, the integration of multi-modal, heterogeneous data sources will potentially expand the scope of machine learning to complete new applications and questions.