Blogansicht

Arachno-Blog

What Big Data does not know and the consequences for Biodiversity Science --- Was große Datenmengen nicht wissen (können) und Konsequenzen für die Biodiversitätsforschung

20.05.2016, 12:09

deutsche Version weiter unten


What Big Data does not know and the consequences for Biodiversity Science

Darko D. Cotoras Viedma

The recent accumulation of large databases, development of statistical methods and availability of computational resources has opened a “new” field of study called Data Science (“Big Data”). Using these novel techniques, we can explore huge amounts of data to find patterns and correlations that were hidden from us before. This has proven to be the case in a wide variety of fields, from market studies to microbiology.  There is a lot of enthusiasm about all the possibilities that this new field offers, but what Big Data does not know?

The answer is rather trivial. Data Science is useless without data.  It is therefore important to wonder: which questions do we not have data to answer? Even more importantly, which questions do we lack sufficient data to answer, but still try to answer them anyway? This situation is present in many fields, especially in biodiversity and conservation. Historically, there has been a vast tradition of exploration and documentation of the natural world, which give us a total of 1.9 million described species. However, theoretical estimations go up to more than 11 million.  This discrepancy between described and theoretical estimations is a small example of how little we know about the incredible diversity in our natural world. Our state of the knowledge looks even more precarious if we consider the availability of data about natural history, physiology or genomics. There still a lot of foundational work to do.

Species that we have named correspond to a non-random sample of the biodiversity. So far, we have information on organisms which were  the  easiest to collect and study. In other words, as expected, we started with the "low hanging fruits". The small and hard to find organisms are still “black matter” for biologists. They have an effect on the ecosystem, but we don’t know how significant that effect is.

This lack of knowledge could have deep negative consequences for us and the rest of life on Earth. Given our current model of material development, we have affected profoundly the ecosystem, by altering natural cycles, changing weather patterns and causing extinctions. Not having an understanding of the consequences of these disruptive actions is like playing Russian roulette. Without a proper knowledge of the natural world it won't be clear once we will reach the point of no return (“tipping point”) and the bullet of environmental collapse will be fired.

Here, is where Big Data comes into play. The information about species distributions, ecological data and weather information have proven to have strong predictive power and be informative on the understanding of nature. The issue is that these data sets are far from being complete. Many aspects need to be better documented in order to have more detailed and precise information of the already well-known general trends.

Documenting biodiversity is critical, as data everyday it is literally been erased by high extinction rates. Today, more than ever, there is a critical need to go into the field, look for new species, and learn more about the ones already discovered.

Reducing species exploration efforts might be a mistake that we won't be able to make up for in the future. In the current biodiversity crisis, the exploration of threatened ecosystems is an urgent duty. But, the excitement for Data Science has shifted attention towards research programs with a lot of statistics and little biology.

When the biodiversity research is focused on data sets, without the proper curation of an expert on the group, the results should be more than questionable. Moreover, the experience of rearing, collecting and describing species produces a body of metadata that it is always present in the mind of the expert naturalist, but not necessarily coded into the data sets. After data analysis proper expectations can only be well evaluates by someone who knows the organisms and has access these extra pieces of information not explicitly coded as data. These insights many times will provide more meaningful expectations than artificially created null distributions.

Big Data is an exceptionally powerful tool, which relies on a well develop body of evidence, however it is crucial to be critical on its limitations. Today, as we enter what has been called the Sixth Mass Extinction, the time is little and the data, perhaps not so big…

 

Acknowledgements: I would like to thank Peter Jäger and Paloma Medina for suggestions on this essay.

Rainforest

Despite a long history of research in the tropics, a major part of its diversity remains unknown. A large part of Big Data is still on the making.

Trotz der langen Geschichte der Forschung in den Tropen bleibt der größte Teil ihrer Vielfalt unbekannt. Ein großer Teil der Großen Daten muss erst noch erstellt werden.



Was große Datenmengen nicht wissen (können) und Konsequenzen für die Biodiversitätsforschung


Darko D. Cotoras Viedma

Die aktuelle Ansammlung von großen Datenbanken, die Entwicklung von statistischen Methoden und die Verfügbarkeit von Computerrechenleistung hat ein „neues“ Studienfeld eröffnet: die Daten-Wissenschaft („Große Daten“). Wenn wir diese neue Technologie nutzen, können wir große Mengen an Daten untersuchen, um Muster und Zusammenhänge zu finden, die zuvor verborgen waren. Das ist der Fall in vielen verschiedenen Feldern, von Marktstudien bis hin zur Mikrobiologie. Eine Menge Enthusiasmus treibt das, was mit den neuen Technologien angestellt werden kann, an. Aber was können große Datenmengen nicht?

Die Antwort ist ziemlich einfach. Daten-Wissenschaft ist nutzlos ohne Daten. Daher stellt sich die wichtige Frage: für welche Fragen haben wir keine Daten zu ihrer Beantwortung? Noch wichtiger, für welche Fragen haben wir keine ausreichenden Daten, versuchen sie aber trotzdem zu beantworten? Diese Situation zeigt sich bei vielen Fragestellungen, vor allem der Biodiversität und des Umweltschutzes. Historisch gesehen gibt es eine lange Tradition der Erforschung und Dokumentation der belebten Welt, die zu den bisher beschriebenen 1.9 Millionen Arten geführt hat. Wie auch immer, Schätzungen gehen von mehr als 11 Millionen Arten aus. Diese Diskrepanz zwischen tatsächlich bekannter und geschätzter Vielfalt ist nur ein kleines Beispiel, das zeigt, wie wenig wir von der unglaublichen Vielfalt in der uns umgebenden Natur wissen. Unser Wissensstand sieht sogar prekärer aus, wenn wir die Verfügbarkeit von Daten zur Biologie, Physiologie oder der genomischen Forschung in Betracht ziehen. Hier sind noch ganz fundamentale Arbeiten zu leisten.

Arten, die wir beschrieben haben, stellen lediglich nur einen winzigen Teil der biologischen Vielfalt dar. Bisher besitzen wir hauptsächlich Informationen zu Organismen, die leicht zu sammeln und zu untersuchen sind. Mit anderen Worten, erwartungsgemäß haben wir zunächst die tiefhängenden Früchte gepflückt. Die kleinen und schwer nachzuweisenden Lebewesen sind immer noch „schwarze Materie“ für Biologen. Sie haben einen Effekt auf Ökosysteme, aber wir wissen nicht, wie signifikant der Effekt ist.

Dieser Wissensmangel könnte starke negative Folgen haben – für uns und alles andere Leben auf dem Planeten Erde. Wenn man unser jetziges Modell von Materialbeschaffung zugrunde legt, haben wir durch das Verändern von natürlichen Kreisläufen, von Wetterzyklen und durch Aussterben von Arten das Ökosystem bereits grundlegend verändert. Wenn man dabei die Konsequenzen dieser Störaktionen nicht versteht, grenzt das an Russisches Roulette. Ohne exakte Kenntnis der natürlichen Welt ist es nicht klar, wann wir den Umkehrgrenzpunkt erreicht haben, und die Kugel des Umweltkollapses wird abgeschossen.

Hier kommen die Großen Daten ins Spiel. Informationen zur Verbreitung der Arten, ökologische Daten und Informationen zum Klima haben gezeigt, dass sie eine starke Aussagekraft bei Vorhersagen und einen hohen Informationsgehalt besitzen, die Natur zu verstehen. Das Problem ist, dass diese Daten noch längst nicht vollständig sind. Viele Details müssen besser erfasst werden, um genauere Informationen über schon bekannte generelle Trends zu erhalten.

Die biologische Vielfalt zu erfassen ist entscheidend, da mit jedem Tag und jeden weiteren Aussterbe-Ereignissen wichtige Daten verloren gehen. Es ist heute wichtiger denn je, im Feld nach neuen Arten zu suchen und mehr über die bereits entdeckten Arten herauszufinden.

Die Erforschung neuer Arten herunterzufahren könnte sich als Fehler herausstellen, den man später nicht mehr rückgängig machen kann. In der jetzigen Biodiversitätskrise ist es essentiell, bedrohte Ökosysteme zu erkunden. Im Gegensatz dazu hat der Hype um die Daten-Wissenschaft Forschungsprogramme Richtung „viel Statistik“ und nur „wenig Biologie“ verschoben.

Wenn Biodiversitätsforschung sich hauptsächlich auf Datensätze stützt und kein geeigneter Spezialist der jeweiligen Organismengruppe involviert ist, dürften die Ergebnisse mehr als fragwürdig erscheinen. Mehr noch, die Erfahrung im Aufziehen und Sammeln von Tieren und dem Beschreiben von Arten produziert eine ganze Menge an Metadaten, die im Hinterkopf des jeweiligen Wissenschaftlers präsent sind, die aber nicht unbedingt in den Datensätzen codiert werden. Bei einer Datenanalyse können Erwartungen nur von jemandem erfüllt werden, der auch die Originaldaten unverschlüsselt kennt. Diese Einsichten werden viel mehr den Erwartungen entsprechen als künstlich erzeugte Null-Hypothesen.

Große Daten sind sicher ein außergewöhnlich starkes Instrument, welches auf einer Vielzahl von Hinweisen fußt, jedoch sollte man auch kritischerweise seine Beschränkungen kennen und akzeptieren. Jetzt, wo wir das sechste Massen-Aussterben miterleben, haben wir wenig Zeit und Daten, die vielleicht doch nicht so groß sind…

 

Dank: Ich möchte Peter Jäger und Paloma Medina für Anregungen zu diesem Essay danken.



Nächster Eintrag

Eigenen Kommentar hinzufügen




Kommentar absenden

https://die-welt-baut-ihr-museum.de