Data

Evidence of beginning relationships in Facebook

Talking about personal data: Did you ever wonder what exactly Facebook is seeing in your data? This article describes an interesting example in Detail:

“During the 100 days before the relationship starts, we observe a slow but steady increase in the number of timeline posts shared between the future couple.”

The Atlantic: When You Fall in Love, This Is What Facebook Sees

How to distinguish normal food from super food

Blueberries on branch.jpg
Do you want to know, if there is scientific evidence for the health benefits of this new superfood? Take a look at this fantastic interactive visualization at Information is beautiful.

Snake Oil Superfoods?

 

Image Credits: "Blueberries, a so-called 'superfood' that actually does not have unusually dense nutrient content." ("Blueberries on branch" by Jim Clark) - [1]. Licensed under CC BY 2.0 via Wikimedia Commons.

Planckton: Daten und Phänomene

Immer stärker wird damit Wissenschaft zur „E-Science“: Daten werden archiviert und digital öffentlich verfügbar gemacht, um eine Weiterverwertung von Daten zu ermöglichen.

Der Artikel im FAZ Wissenschafts-Blog Planckton stellt sehr schön dar, wie rasant die Zahl der Daten die wir produzieren und analysieren steigt - und wie wenig klar bisher ist, was "Daten" eigentlich sind bzw. sein sollten.

Planckton: Der Datenmythos

Google Research: Relation Corpus

One of the most difficult tasks in NLP is called relation extraction. It’s an example of information extraction, one of the goals of natural language understanding. A relation is a semantic connection between (at least) two entities.

Und weil es sich um so eine schwere Aufgabe handelt veröffentlicht Google ein Set an Daten, dass anderen Wissenschaftlern beim Trainieren von Information Retrival bzw. Relation-Extraction-Systemen helfen soll. Es handelt sich um 10.000 “place of birth”, und mehr als 40.000 “attended or graduated from an institution” Beziehungen, die aus der Wikipedia extrahiert und von jeweils mindestens fünf menschlichen Gutachtern als richtig beurteilt wurden. Die Daten liegen als "Prädikat Subjekt Objekt" Tripel vor, zahlreiche weitere Daten wie Links oder Judgement-Details sind auch dabei. Außerdem sollen weitere Relations folgen. Alle Details dazu im Google Research Blog:

50,000 Lessons on How to Read: a Relation Extraction Corpus

FAZ: Das Internet und die neoliberalen Bibliotheken

Auf FAZ.NET erscheinen in den letzten Tagen viele spannende Artikel - ich kann gar nicht alle hier verbloggen. Aber auf diesen hier möchte ich noch hinweisen:

Das neoliberale Zeitalter begann in den Bibliotheken im Jahre 1994 mit dem Auftritt der „Dublin Core Metadata Initiative“. Die DCMI wurde von der Vorstellung umgetrieben, im Zeitalter des Internets könne man die aufwendige Katalogisierung der Bibliotheken dadurch loswerden, dass die Autoren von Texten anhand eines einfachen Sets von Regeln und Kategorien die zu ihren Texten gehörenden Metadaten - sprich: Katalogisate - selbst erstellen.

FAZ.NET: Kongress „Bibliothek und Information“ - Datengeschenke sind Danaergeschenke

Ausstellung: Zettelkästen

Das Deutsche Literaturarchiv Marbach hat am 4. März eine Ausstellung mit dem Titel "Zettelkästen. Maschinen der Phantasie" eröffnet. In der Ankündigung heißt es:

»Hier fuhr aus den aufgezognen Schleusen des Herzens ein reißender Strom von Blut unter das Räder- und Mühlenwerk seiner Ideen hinein, und die ganze geistige Maschine klapperte, rauschte, stäubte und klingelte –.« Schreiben macht, zumindest in Jean Pauls Siebenkäs, einen Höllenlärm. Der Zettelkasten ist die leibgewordene und vordigitale Variante dieser Phantasiemaschine: Lesefrüchte und Schreibeinfälle werden hier gesammelt und einsortiert, vernetzt und verschachtelt und – durch Glücksaufschläge, Buchstaben- oder Zahlencodes – immer wieder in neue Zusammenhänge gebracht: ›Es‹ denkt und schreibt.

Auf FAZ.NET gibt es heute einen gelungenen Artikel zur Ausstellung und generell zum Thema: Zettelkästen - Alles und noch viel mehr: Die gelehrte Registratur

IBM: Big Data, Speech Processing and Machine Translation

For a machine to truly process speech data, it needs cognitive computing – a system with architecture that imitates how the human brain understands information. IBM Watson’s ability to understand natural language is just a first piece to a complex cognitive computing puzzle. But as cognitive computing is applied to Big Data, it will also revolutionize speech recognition and speech translation.

IBM Research: Dimitri Kanevsky Translating Big Data

Pages