Newer posts are loading.
You are at the newest post.
Click here to check if anything new just came in.

January 15 2014

Big Data in der Medizin

In Blutwerten, DNA-Profilen und Fallstudien könnten sich medizinisch nutzbare Erkenntnisse verbergen – wenn man sie im großen Stil erfasst und analysiert. Allerdings wirft „Big Data“ in der Medizin auch Fragen auf – von der Rolle der Ärzte bis zum Datenschutz.

Ein Forscherteam am Institute of Technology der University of Ontario überraschte die 2010 Fachwelt mit einer Beobachtung. Anders als man das intuitiv vermuten würde, stabilisieren sich bei Frühgeborenen zunächst die Vitalfunktionen, bevor es zu einer schweren Infektion kommt.

Möglich machte diese Erkenntnis eine Software, die pro Sekunde 1.260 Datensätze von Patienten erfasst – von der Atmung bis zum Sauerstoffgehalt im Blut. Erst die Zusammenführung und Analyse der gewaltigen Mengen an Körperdaten brachte die zuvor unbekannten Krankheitssymptome zu Tage. „Sie können es nicht mit dem bloßen Auge sehen, aber der Computer kann es“, erklärt Forschungsleiterin Carolyn McGregor. Ärzte können anhand der Daten nun früher gegen drohende Infektionen vorzugehen.

McGregors Untersuchung ist ein beliebtes Beispiel für den Einzug der „Big Data“-Forschung in die Medizin. Gemeint sind damit Verfahren, bei denen große Datenmengen aus vielfältigen Quellen erfasst, verteilt, gespeichert, durchsucht, analysiert, miteinander in Beziehung gesetztund visualisiert werden.

Im Gesundheitswesen sollen sie helfen, Krankheiten früher und besser zu erkennen, zu therapieren oder gar zu vermeiden – so zumindest die Vision von Wissenschaftlern und Unternehmen. Der Internetforscher Viktor Mayer-Schönberger (Universität Oxford) ist sich bereits sicher, Big Data helfe in Zukunft „ganz unmittelbar Menschenleben zu retten“. Doch wie genau macht Big Data das?

Zusammenhänge erstmal beobachten

IT-Technik ist in der Medizin nichts Neues. Charakteristisch für Big-Data-Analysen ist allerdings, dass sie den üblichen wissenschaftliche Arbeitsweg umdrehen können. Klassischerweise stellen Forscher eine Hypothese über ursächliche Zusammenhänge auf und überprüfen sie mit statistischen Verfahren. Doch die gezielte Datensammlung ist aufwendig und kostspielig. Also gehen die Forscher normalerweise nur einer begrenzten Zahl von Hypothesen nach, und beschränken die Zahl der Parameter. Sie fragen etwa, ob die Wirkstoffe X, Y, Z – wie theoretisch vorhergesagt – einen Einfluss auf die jeweilige Krankheit  haben.

Big Data-Verfahren ermöglichen dagegen den umgekehrten Weg – von den Daten zur Hypothese. Sie setzen beim immer größer werdenden Datenschatz an, der beispielsweise in Millionen von elektronischen Krankenakten oder Umweltregistern steckt. Big-Data-Ansätze folgen der Devise: Je größer und vielfältiger die Datenmenge ist, und je schneller sie anfällt, desto besser. Ermöglicht wurde diese Entwicklung erst durch neue, kostengünstige Techniken zur Datensicherung und -auswertung.

Die Forscher untersuchen die Daten mit Hilfe von Algorithmen automatisiert nach Zusammenhängen. Im besten Fall entdecken sie so Korrelationen, nach denen sie gar nicht gefragt hatten – wie im Fall der neu entdeckten Infektionssymptome bei Frühgeborenen. „Der medizinische Forscher muss nicht selbst Hypothesen bilden und diese dann in den Daten testen, sondern bekommt aus den Daten belegbare Hypothesen präsentiert und kann sie inhaltlich bewerten“, erklärt Stefan Rüping, Experte für Data Mining und Big Data Analytics am Fraunhofer-Institut Intelligente Analyse- und Informationssysteme (IAIS). „Der neue Ansatz besteht also darin, die Phantasie des Forschers beim Finden neuer Fragestellungen durch Datenintelligenz zu ergänzen.“

Die Hoffnungen in dieses Data Mining sind groß. Datenanalysen im großen Stil könnten beispielweise preisgeben, wie bestimmte Gene und Blutwerte mit Krankheiten wie Alzheimer, Krebs oder Schizophrenie zusammenhängen.

Handeln, ohne zu wissen, warum?

Allerdings liefern die Big-Data-Analysen keine Erklärung für die Zusammenhänge, die sie zu Tage fördern. Umstritten bleibt die Frage, inwieweit Mediziner sie zur Grundlage ihres Handels machen sollten, bevor die Ergebnisse auch kausal begründbar sind.

Mit Blick auf die Segnungen von Big Data verweist der Internetforscher Mayer-Schönberger beispielhaft auf die Grippe-Vorhersage der Suchmaschinen-Firma Google („Google Flu Trends“). Das Unternehmen fand rückblickend Zusammenhänge zwischen dem Verlauf von Grippewellen und den Internetsuchen in den betroffenen Gebieten. Daraus entwickelte das Unternehmen Algorithmen, die neue Grippewellen teilweise erstaunlich genau und vor allem weit schneller vorhersagen als übliche Prognoseverfahren.

Mayer-Schönberger zufolge können Gesundheitsämter die Google-Prognose schon heute nutzen, etwa um bestimmte Regionen rechtzeitig mit Impfstoff zu versorgen. Dazu müssten sie nicht einmal wissen, welcher kausale Zusammenhang zwischen den Suchabfragen und der Grippe besteht. „Wir müssen nicht mehr für alles Kausalzusammenhänge ermittelt haben, bevor wir daraus Einsichten gewinnen und Handlungsanweisungen ableiten können“, so Mayer-Schönberger im Interview mit iRights.info. Eben diesen Paradigmenwechsel in der Forschung hält er für eine Revolution.

Zwar beziehen Länder wie die Vereinigten Arabischen Emiraten Google Flu Trends bereits in ihr Frühwarnsystem für Epidemien ein. Allerdings wurden zuletzt Zweifel an dem Verfahren laut, das vielerorts stellvertretend für die Big-Data-Segnungen in der Medizin steht. So schätzte die Analyse-Software die Zahl der Grippe-Infizierten in den USA im Januar 2013 als etwa doppelt zu hoch ein,  wie das Wissenschaftsmagazin „Nature“ berichtet.

Forscher vermuten, dass die Medienberichterstattung zur Grippe sich auf das Suchverhalten der Internetnutzer ausgewirkt und so die Prognose verzerrt. Google Flu Trends könnte die Ergebnisse sogar selbst beeinflussen, wenn etwa Medien über Googles Grippewarnungen berichten, was wiederum mehr Menschen dazu verleitet, die Krankheitssymptome zu googlen.

Grundlagenforschung bleibt wichtig

Grundsätzlich mahnt der Wissenschaftstheoretiker Klaus Mainzer (TU München) mit Blick auf Big-Data-Erkenntnisse in der Medizin: „Erst eine gründliche Grundlagenforschung erklärt die kausalen Zusammenhänge und garantiert damit nachhaltige Diagnosen und Therapien.“ Speziell bei den Big-Data-Algorithmen bestehe die Gefahr, dass man nur noch auf ihre Schnelligkeit setze. „Es wäre fatal, wenn aus schneller Profitgier die Bedeutung der Grundlagenforschung unter die Räder käme.“ Auch der Literaturwissenschaftler Manfred Schneider warnt davor, den Erkenntnisgewinn von rein statistischen Zusammenhängen zu überschätzen. „Auch die Korrelation des Bierkonsums in Europa mit der Häufigkeit von Verkehrsunfällen in Bangladesh an Wochenenden ergäbe einen Befund.“

Ängste vor rein datenbasierten Fehldiagnosen und -therapien hält Stefan Rüping vom IAIS indes für unbegründet. Die Vorschriften seien sehr strikt. Neues medizinisches Wissen müsse immer noch einmal unabhängig in kontrollierten Studien verifiziert werden. „Die relevante Frage ist allerdings nicht, ob eine neue Diagnosemethode oder Therapie fehlerfrei ist – das ist in der Medizin üblicherweise nicht der Fall – sondern ob sie klar besser ist als die beste bekannte Standardbehandlung.“ Darüber hinaus sei ein rein statistisches Vorgehen ohne inhaltliches Verständnis in der Datenanalyse immer eine schlechte Idee. „Die Entwicklung neuerer, besserer Datenanalyseverfahren ist in vielen Fällen eher eine Evolution statt eine Revolution.“

Der gläserne Patient

Neben der Entdeckung von Zusammenhängen verspricht Big Data in der Medizin eine maßgeschneiderte Behandlung. Indem konkrete Fälle mit großen Datenmengen – etwa über Krankheitsverläufe – abgeglichen werden, sollen bessere Diagnosen und Medikationen möglich sein. Beispielsweise nutzt das Memorial Sloan-Kettering Cancer Center in New York den IBM-Supercomputer „Watson“ zur Entwicklung einer Software, die personalisierte Krebs-Therapien vorschlägt. Dazu verarbeitet Watson zum Beispiel 1,5 Millionen Patientenakten und 600.000 Forschungsberichte und  Fachartikel. Auch am Hasso-Plattner-Institut in Potsdam suchen Forscher nach Methoden, das weltweite medizinische Wissen „am Krankenbett“ verfügbar zu machen.

Der Wissenschaftstheorethiker Mainzer ist sich bereits sicher: „Ohne den Einsatz hochentwickelter Algorithmen wird die Medizin in Zukunft nicht mehr auskommen.“ Das medizinische Wissen wachse täglich in unvorstellbarer Weise. Allein über Diabetes gebe es circa 400.000 Fachartikel. „Selbst ein Spezialist kann diese Artikel in einem kurzen Leben nicht bewältigen“, so Mainzer. „Hier bedarf es intelligenter Software, die über semantisches Verständnis verfügt und die jeweils relevanten Informationen für eine Diagnose und Therapie herausfiltert.“

Prinzipiell hält es Mainzer für möglich, den Menschen im Sinne einer personalisierten Medizin eines Tages in allen Details zu erfassen. „Der gläserne Patient, der bis auf die molekulare Ebene individuell durchleuchtet wird, ist aus Sicht der Rechnertechnologie möglich.“ Bei Krankheitsverläufen wie Krebs wäre ein dauerndes Screening auch notwendig, da Krebstumore und Krebszellen sich genetisch dauernd verändern und die Therapien angepasst werden müssten. Allerdings werde es Zeit und sehr viel Geld kosten, alle ungeheuer komplexen Details des menschlichen Organismus bis auf Molekularebene zu erforschen.

Sind Maschinen die besseren Ärzte?

Schon heute werfen computergestützte Diagnosen und Therapievorschläge die Frage nach der künftigen Rolle der Ärzte auf. Der US-Investor Vinod Khosla provoziert den Berufsstand mit seiner These, Computer beziehungsweise „Dr. Algorithmus“ würden künftig 80 Prozent der bisherigen Tätigkeit eines Arztes überflüssig machen.

Der Wissenschaftstheoretiker Mainzer warnt dagegen davor, sich allzu sehr auf scheinbar „objektive“ Daten und Verfahren zu verlassen. „Warum haben Ärzte eine Wissenschaft wie die Medizin studiert, wenn sie am Ende nur noch Daten ablesen und zusammenstellen?“ so Mainzer. „Die Einordnung und das Verständnis der Daten erfordert die medizinische Urteilskraft des Arztes.“ Hierzu gehörten auch psychologisches und soziales Verständnis für die Situation eines Patienten, das nicht in Algorithmen abbildbar sei.

Stefan Rüping vom IAIS sieht statt einer Konkurrenz von Mensch und Maschine eher eine Koexistenz. „Dem Arzt werden automatisch deutlich mehr relevante Informationen zur Verfügung stehen, auf denen er seine Entscheidung stützen kann – die er aber selbstverständlich weiterhin selbst trifft.“

Probleme bei der Datenbereitstellung

Noch liegt die Erfüllung vieler Big-Data-Träume in weiter Ferne. Eine erste Hürde besteht in der Qualität und der technischen Bereitstellung der Daten. Beispielsweise liegen die theoretisch nutzbaren Datenmengen oftmals dezentral und in uneinheitlichen Dateiformaten vor – wenn sie überhaupt schon digitalisiert sind.

„Vielfach wird noch mit Papierakten gearbeitet, elektronische Patientenakten können selbst im selben Krankenhaus zwischen verschiedenen Abteilungen sehr verschiedene Formate haben und die Semantik der Daten ist durch automatisierte Verfahren nur sehr schwer zu verstehen“, erklärt Stefan Rüping zur Lage in Deutschland. Ein Großteil der Arbeit in klinischen Studien liege darin, die Daten sinnvoll und korrekt einzugeben. „Erst danach kann sinnvoll eine wie auch immer geartete Datenanalyse ansetzen.“

Auch in den USA macht die Datenqualität Probleme. Man sei bei der Datenerfassung immer noch auf 100 Jahre alte Transkriptionstechnik angewiesen, sagte jüngst der Mediziner Douglas Johnsten (Cleveland Clinic) auf einem Podium zur Frage, woran Big Data in der Medizin bisher scheitert. „Ich sehe, dass die Ergebnisse mangelhaft sind, weil Müll raus kommt, wenn Müll rein geht.“ Außerdem stellt sich die Frage, welchen Daten man trauen kann: Ob Daten etwa aus Studien der Pharmaindustrie immer zuverlässig sind, bleibt problematisch.

Zumindest im Bereich der Krebsforschung will Deutschland vorangehen. Mitte 2013 startete der Aufbau des flächendeckenden klinischen Krebsregisters. Nach einheitlichen Kriterien werden darin die Daten der Krebspatienten in Deutschland gesammelt, von der Diagnose über die Therapie bis zu Rückfällen, Genesung und Tod.

Großbritannien geht noch einen Schritt weiter, indem es mit dem Projekt Clinical Practice Research Datalink (CPRD) die Krankenakten aller Einwohner zentral sammelt und mit anderen Registern wie Gen-Datenbanken und Umweltregistern verknüpft. Der Datenschatz soll Wissenschaftlern anonymisiert zur Verfügung stehen.

Rechtliche Hürde: Datenschutz

Ebenfalls zur Debatte steht der rechtliche Rahmen für Big-Data-Forschung in der Medizin. Daten zur Gesundheit eines Menschen sind als „sensible Daten“ vom Bundesdatenschutzgesetz besonders geschützt. IAIS-Experte Rüping entwickelt im Rahmen des EU-Projekts EURECA Techniken (unter dem Stichwort Privacy-Preserving Data Mining), die im Einklang mit dem Datenschutz stehen, und beispielsweise die Anomymisierung personenbezogener Daten garantieren sollen.

Auch in Fällen, in denen die Patienten der Datenverwendung zustimmen müssen, bleiben offene Fragen. „Ein Problem ist, dass ein Patient um rechtlich und ethisch einwandfrei der Verarbeitung seiner Daten zustimmen zu können, verstehen können muss, was mit seinen Daten passiert, welche Ergebnisse zu erwarten sind und welches Risiko von Missbräuche potentiell besteht“, so Rüping. „Dies ist bei sehr komplexen Verfahren der Datenanalyse sehr schwierig.“

Krankheitsrisiken: Fluch der Erkenntnis?

Schließlich wirft Big Data in der Medizin eine Reihe von ethischen Fragen auf. Das neue Wissen um Krankheitsrisiken könnte beispielsweise Versicherungen dazu verleiten, von Riskopatienten höhere Prämien zu verlangen. „Das ist eine konkrete Gefahr“, meint der Internetforscher Mayer-Schönberger. „Hier müssen wir wohl gesetzliche Maßnahmen ergreifen, die es Versicherungen verbieten, mittels Big-Data-Analyse zwischen den einzelnen Menschen zu differenzieren.“ Auch die Frage nach der Prävention könnten Big-Data-Erkenntnisse neu aufwerfen. Wäre es vertrebar oder sogar geboten, gesunden Patienten vorsorglich Medikamente zu geben, weil etwa das Genprofil hohe Krankheitsrisiken anzeigt?

Schließlich steht zur Debatte, wem eine kostenintensive, personalisierte Medizin zu Gute kommt. Kann die Gesellschaft schwer kranken aber armen Patienten die Segnungen einer teuren High-Tech-Medizin verweigern? „Hier werden ethische und rechtliche Probleme der Verteilungsgerechtigkeit auf uns zukommen, von denen wir uns heute noch keine Vorstellung machen“, meint der Wissenschaftstheoretiker Klaus Mainzer.

Dem Medizinsektor ergeht es also so wie anderen gesellschaftlichen und wirtschaftlichen Bereichen:  Big Data löst große Hoffnungen aus, aber auch Ängste.

January 08 2014

How did we end up with a centralized Internet for the NSA to mine?

I’m sure it was a Wired editor, and not the author Steven Levy, who assigned the title “How the NSA Almost Killed the Internet” to yesterday’s fine article about the pressures on large social networking sites. Whoever chose the title, it’s justifiably grandiose because to many people, yes, companies such as Facebook and Google constitute what they know as the Internet. (The article also discusses threats to divide the Internet infrastructure into national segments, which I’ll touch on later.)

So my question today is: How did we get such industry concentration? Why is a network famously based on distributed processing, routing, and peer connections characterized now by a few choke points that the NSA can skim at its leisure?

I commented as far back as 2006 that industry concentration makes surveillance easier. I pointed out then that the NSA could elicit a level of cooperation (and secrecy) from the likes of Verizon and AT&T that it would never get in the US of the 1990s, where Internet service was provided by thousands of mom-and-pop operations like Brett Glass’s wireless service in Laramie, Wyoming. Things are even more concentrated now, in services if not infrastructure.

Having lived through the Boston Marathon bombing, I understand what the NSA claims to be fighting, and I am willing to seek some compromise between their needs for spooking and the protections of the Fourth Amendment to the US Constitution. But as many people have pointed out, the dangers of centralized data storage go beyond the NSA. Bruce Schneier just published a pretty comprehensive look at how weak privacy leads to a weakened society. Others jeer that if social networking companies weren’t forced to give governments data, they’d be doing just as much snooping on their own to raise the click rates on advertising. And perhaps our more precious, closely held data — personal health information — is constantly subject to a marketplace for data mining.

Let’s look at the elements that make up the various layers of hardware and software we refer to casually as the Internet. How does centralization and decentralization work for each?

Public routers

One of Snowden’s major leaks reveals that the NSA pulled a trick comparable to the Great Firewall of China, tracking traffic as it passes through major routers across national borders. Like many countries that censor traffic, in other words, the NSA capitalized on the centralization of international traffic.

Internet routing within the US has gotten more concentrated over the years. There were always different “tiers” of providers, who all did basically the same thing but at inequitable prices. Small providers always complained about the fees extracted by Tier 1 networks. A Tier 1 network can transmit its own traffic nearly anywhere it needs to go for just the cost of equipment, electricity, etc., while extracting profit from smaller networks that need its transport. So concentration in the routing industry is a classic economy of scale.

International routers, of the type targeted by the NSA and many US governments, are even more concentrated. African and Latin American ISPs historically complained about having to go through US or European routers even if the traffic just came back to their same continent. (See, for instance, section IV of this research paper.) This raised the costs of Internet use in developing countries.

The reliance of developing countries on outside routers stems from another simple economic truth: there are more routers in affluent countries for the same reason there are more shopping malls or hospitals in affluent countries. Foreigners who have trespassed US laws can be caught if they dare to visit a shopping mall or hospital in the US. By the same token, their traffic can be grabbed by the NSA as it travels to a router in the US, or one of the other countries where the NSA has established a foothold. It doesn’t help that the most common method of choosing routes, the Border Gateway Protocol (BGP), is a very old Internet standard with no concept of built-in security.

The solution is economic: more international routers to offload traffic from the MAE-Wests and MAE-Easts of the world. While opposing suggestions to “balkanize” the Internet, we can applaud efforts to increase connectivity through more routers and peering.

IaaS cloud computing

Centralization has taken place at another level of the Internet: storage and computing. Data is theoretically safe from intruders in the cloud so long as encryption is used both in storage and during transmission — but of course, the NSA thought of that problem long ago, just as they thought of everything. So use encryption, but don’t depend on it.

Movement to the cloud is irreversible, so the question to ask is how free and decentralized the cloud can be. Private networks can be built on virtualization solutions such as the proprietary VMware and Azure or the open source OpenStack and Eucalyptus. The more providers there are, the harder it will be to do massive data collection.

SaaS cloud computing

The biggest change — what I might even term the biggest distortion — in the Internet over the past couple decades has been the centralization of content. Ironically, more and more content is being produced by individuals and small Internet users, but it is stored on commercial services, where it forms a tempting target for corporate advertisers and malicious intruders alike. Some people have seriously suggested that we treat the major Internet providers as public utilities (which would make them pretty big white elephants to unload when the next big thing comes along).

This was not technologically inevitable. Attempts at peer-to-peer social networking go back to the late 1990s with Jabber (now the widely used XMPP standard), which promised a distributed version of the leading Internet communications medium of the time: instant messaging. Diaspora more recently revived the idea in the context of Facebook-style social networking.

These services allow many independent people to maintain servers, offering the service in question to clients while connecting where necessary. Such an architecture could improve overall reliability because the failure of an individual server would be noticed only by people trying to communicate with it. The architecture would also be pretty snoop-proof, too.

Why hasn’t the decentralized model taken off? I blame SaaS. The epoch of concentration in social media coincides with the shift of attention from free software to SaaS as a way of delivering software. SaaS makes it easier to form a business around software (while the companies can still contribute to free software). So developers have moved to SaaS-based businesses and built new DevOps development and deployment practices around that model.

To be sure, in the age of the web browser, accessing a SaaS service is easier than fussing with free software. To champion distributed architectures such as Jabber and Diaspora, free software developers will have to invest as much effort into the deployment of individual servers as SaaS developers have invested in their models. Business models don’t seem to support that investment. Perhaps a concern for privacy will.

November 25 2013

Creative Commons in Version 4.0 verfügbar: Was sich ändert und was nicht

Die Jedermann-Lizenzen von Creative Commons erscheinen heute in neuer Version 4.0. Während sich am grundlegenden Aufbau des Lizenzbaukastens nichts ändert, gibt es einige bemerkenswerte Neuerungen im Detail. CC-Rechtschef John Weitzmann erläutert, was sich ändert – und was gleich bleibt. 

Es hat länger gedauert als gedacht, ziemlich genau doppelt so lang, aber am heutigen 25. November 2013 wird sie endlich vorgestellt: Die Version 4.0 der Creative-Commons-Lizenzen, abgekürzt auch CCPL4 genannt. Bei der schon bekannten Einteilung in sechs verschiedene Lizenztypen mit den jeweils unterschiedlich kombinierten Elementen „Namensnennung“ (BY), „keine kommerzielle Nutzung“ (NC), „keine Bearbeitungen“ (ND) und „Weitergabe unter gleichen Bedingungen“ (Share Alike) bleibt es. Die neuen Lizenzen haben aber eine völlig neue Textstruktur bekommen. Sie sind stärker gegliedert, was dem Textwüsteneindruck entgegenwirken und der Übersichtlichkeit dienen soll. Davon abgesehen gibt es aber auch inhaltlich und von den Funktionalitäten her diverse Neuerungen.

Das ändert sich mit der Version 4.0:

1. Die neue Version lizenziert Datenbankrechte mit

Diese Änderung betrifft zumindest die für Europa angepassten Fassungen (Ports) direkt, denn in Version 3.0 war darin schlicht auf Datenbankrechte verzichtet worden. Die Elemente wie BY oder NC blieben daher bisher ohne Wirkung hinsichtlich der Nutzung von Datenbanken. Künftig sind die Bedingungen wie „Namensnennung“ und so weiter auch dann zu beachten, wenn außer Datenbankrechten keine weiteren Rechte (wie etwa Urheberrechte) an den Inhalten bestehen. Anders als einige spezielle Datenbanklizenzen fordert die CCPL4 diese Bedingungen allerdings nur in denjenigen Ländern ein, in denen es ein gesetzlich verankertes Datenbankrecht überhaupt gibt. In der EU gibt es ein solches in jedem Mitgliedsstaat, in den USA dagegen nicht. US-amerikanische Nutzer müssen sich daher an keine der Bedingungen halten, wenn nur Datenbankenrechte im Spiel sind.

2. Data Mining ist ausdrücklich keine Bearbeitung

In der neuen Version wird klargestellt, dass aus Sicht der Lizenzen keine Bearbeitungen entstehen, wenn Data Mining und Text Mining auf die lizenzierten Inhalte angewandt werden. Das gilt zwar in vielen Rechtsordnungen weltweit ohnehin, in einigen ist es jedoch zweifelhaft oder es wird sogar über Data Mining als eigene Nutzungsart diskutiert. Nutzer könnten daher aus Vorsicht davon abgehalten werden, Content auszuwerten, der unter einer CC-Lizenz steht, die keine Bearbeitungen erlaubt (Bedingung „No Derivatives“, ND). Der neue Lizenztext sorgt hier für klare Verhältnisse.

3. Verwandte Schutzrechte allgemein umfasst

Da immer wieder in einzelnen Ländern neue sogenannte „verwandte Schutzrechte“ eingeführt werden, wie kürzlich auch in Deutschland mit dem Leistungsschutzrecht für Presseverlage, enthalten die CC-Lizenzen der Version 4.0 nun eine abstrakte Umschreibung dieser Rechte. Dadurch soll erreicht werden, dass der Strauß mitlizenzierter Rechte flexibel dem entspricht, was jeweils gerade im Urheberrecht vorgesehen ist. Das Ziel dabei ist, stets möglichst alle relevanten Rechte mit zu erfassen und freizugeben, damit möglichst wenig an weiterer Rechteklärung nötig ist.

4. Neue Heilungsfrist bei Lizenzverstößen

Bisher führte selbst ein versehentlicher Lizenzverstoß dazu, dass die jeweilige CC-Lizenz für den verstoßenden Nutzer entfiel. Nun wurde eine Klausel eingefügt, die es ähnlich auch in anderen Standardlizenzen gibt und die die Lizenz automatisch wieder aufleben lässt, wenn der Verstoß innerhalb einer Frist von 30 Tagen nach Bekanntwerden abgestellt wird.

5. Share Alike: Letzte vergebene Lizenz zählt

Wird ein Werk mehrfach bearbeitet und gemäß Share Alike wieder neu lizenziert, reicht es künftig aus, die letzte (rechtmäßig) vergebene Lizenz einzuhalten. Hintergrund ist, dass streng genommen immer nur der Beitrag der oder des Bearbeitenden neu lizenziert wird und ansonsten die für frühere Bearbeitungen vergebenen Lizenzen daneben weiter bestehen und weiter zu beachten sind. Dadurch können sich viele Schichten zu beachtender Lizenzen um ein mehrfach bearbeitetes Werk herum bilden.

Solange es sich dabei um denselben Lizenztyp handelt, etwa CC Namensnennung – Share Alike 3.0 de, sind einfach nur mehrere Vorbearbeiter zu nennen und sonst die bekannten Bedingungen dieses Lizenztyps einzuhalten. Da aber im Rahmen von Share Alike auch ähnliche, kompatible Lizenzen vergeben werden können und vor allem auch andere Länderportierungen und spätere Versionen desselben Lizenztyps (um im Beispiel zu bleiben: CC Namensnennung – Share Alike 4.0 international), kann es schnell sehr komplex werden. Dann wären nämlich eigentlich nebeneinander all diese ähnlichen, aber doch in Details unterschiedlichen Lizenzen zu beachten.

Ein Beispiel: Ein Foto wird unter CC BY-SA 3.0 de veröffentlicht, anschließend von Bearbeiterin A verändert und – gemäß Share-Alike-Regel zulässig – unter CC BY-SA 3.0 Unported neu veröffentlicht, dann von Bearbeiter B in eine Collage eingefügt, die unter CC BY-SA 4.0 International ins Netz kommt. Möchte jemand das Werk in dieser letzten Form nutzen, müsste er im Normalfall drei leicht verschiedene Lizenzen einhalten und entsprechend vorher für sich prüfen. Wären das Foto und die Bearbeitungen unter derselben Lizenz freigegeben, bestünde das Problem nicht, aber es gibt nun einmal innerhalb der Share-Alike-Regel mehr als eine Option für die Wiederveröffentlichung.

Dass die früheren urheberrechtlichen Beiträge auch in Form eigener „Lizenzschichten“ bestehen bleiben, versteht kaum jemand. Vielmehr denken die meisten, dass die Lizenz, die die/der letzte Veröffentlichende mit dem Werk verknüpft hat, die entscheidende ist. Auch Bearbeiter machen oft den Fehler, dass sie abweichende frühere Lizenzen nicht zusätzlich mit angeben. Sie sind vielmehr vollauf damit beschäftigt, selbst eine nach den Share-Alike-Regeln zulässige Lizenz zu wählen und die Namensnennung hinzubekommen. Dieser Wirklichkeit soll die Lizenzmechanik nun angepasst werden. Entsprechend gilt ab 4.0 nun die zeitlich letzte vergebene Lizenz stets als allein maßgeblich, auch wenn sie sich im Detail von den übrigen am Werk bestehenden Lizenzen unterscheidet. Dadurch kann es zwar im Endeffekt zu einer nachträglichen Änderung der Regeln kommen, die ein Urheber zu Anfang einmal für das Ausgangswerk festgelegt hatte. Die sind jedoch geringfügig und nach Ansicht der CC-Juristen verschmerzbar, wenn dafür das ganze Share-Alike-System besser funktioniert.

6. Namensnennung auch auf verlinkter Seite möglich

Die laut jedem CC-Lizenztyp erforderliche Angabe, wer Urheber bzw. Rechteinhaber eines CC-lizenzierten Werkes ist (die Bedingung “BY”), wurde etwas vereinfacht. So kann ab 4.0 nun immer per Link auf eine weitere Seite verwiesen werden, die die vollständigen Rechteangaben enthält, wodurch in vielen Anwendungsfällen Platz gespart werden kann, ohne die Rechteinformationen verloren gehen zu lassen. Früher war das nur ausnahmsweise möglich. Zudem können Urheber ab der neuen Version auch dann die Entfernung des eigenen Namens verlangen, wenn ihr Werk unbearbeitet, also eins zu eins genutzt wird. Das war zuvor teils unterschiedlich im Text interpretiert worden.

Einiges hat Creative Commons aber bewusst nicht verändert beim Übergang zu 4.0 und dürfte so wohl auch ein paar Hoffnungen enttäuschen:

1. „Nicht kommerziell” bleibt unverändert

Die Definition von „nicht kommerziell“ (Teil der Lizenzbedingung NC) wird nicht verändert, also weder genauer noch weiter gefasst. Die bisherige Definition ist seit Version 1.0 weitgehend unverändert und in tausenden Websites, Backends und sonstigen Systemen und Geschäftsmodellen fest verankert. Wenn nun nach über 10 Jahren eine Änderung vorgenommen werden sollte, so die Ansicht der CC-Juristen, müsste für diese Änderung sehr überzeugend argumentiert werden. Das war im Diskussionsprozess zu Version 4.0 nicht zu erkennen. Vielmehr hielten sich die Lager der Befürworter einer Präzisierung und die einer weiteren Fassung in etwa die Waage.

2. Keine Garantie für Rechtevergabe

Auch die Lizenzen in der Version 4.0 enthalten keinerlei Rechtegarantie. Eine solche Garantie in den Lizenztext aufzunehmen, wurde und wird immer wieder gefordert, weil es im Lizenzrecht keinen gesetzlichen Schutz für gutgläubige Nutzer gibt, die sich fälschlich darauf verlassen, dass die per Lizenz angeblich eingeräumten Rechte vom Lizenzgeber überhaupt eingeräumt werden können.

Angesichts der massenhaften Vergabe von CC-Lizenzen in großen Sammlungen wie etwa den Wikimedia Commons würde eine solche Garantie und der damit einhergehende Prüfungs- und Versicherungsaufwand viele Lizenzgeber jedoch überfordern. Man müsse sich auch vor Augen halten, so die Argumentation weiter, dass es hier um kostenlos eingeräumte Rechte geht, bei denen ein Sicherheitsstandard wie im kommerziellen Rechtehandel weder finanzierbar ist noch ernsthaft erwartet werden kann. Es bleibt aber natürlich weiterhin möglich, parallel zur jeweiligen CC-Lizenz selbständige Garantien zu geben. Auch das spricht dagegen, diese verpflichtend mit in die Lizenzen einzubauen.

3. Kein automatisches Update auf Version 4

Es gibt weiterhin keine Auto-Update-Funktion. In einigen anderen Standardlizenzen ist vorgesehen, dass Nutzer bei Erscheinen einer neuen Lizenzversion ab diesem Zeitpunkt ungefragt nach den Regeln dieser neuen Version nutzen dürfen, dass bestehende Inhalte also automatisch auf die neue Lizenzversion umlizenziert werden. Diese Funktion gab es in den CC-Lizenzen nie, auch wenn einige Leute das immer dachten. Die Grundentscheidung des Urhebers ist in gewissem Sinne heilig. Die von ihm vergebene Lizenz-Version bleibt maßgeblich, auch wenn CC eine neue Version herausbringt. Dadurch soll der besonderen Bedeutung des Urhebers ausreichend Respekt entgegengebracht werden. Wer als Urheber dennoch ein automatisches Update möchte, kann das in seinem Lizenzhinweis vermerken und damit die gewünschte Wirkung erzielen.

4. Persönlichkeitsrechte nicht umfasst

Nach wie vor werden durch die CC-Lizenzen keine Persönlichkeitsrechte lizenziert. Persönlichkeitsrechte sind beispielsweise immer dann zu beachten, wenn echte Personen auf Bildern oder in Videos zu sehen oder in Audiomitschnitten zu hören sind. Zusätzlich hat auch jede Urheberin und jeder Urheber derartige Rechte, die als Teil des Urheberrechts mit jedem Werk zusammenhängen. Da für diese Rechte besondere und weltweit teils sehr unterschiedliche Regeln gelten, wurden sie schon in den ersten Versionen der Lizenzen komplett außen vor gelassen. Das bleibt so und hat zur Folge, dass Persönlichkeitsrechte – so vorhanden – nicht automatisch mit freigegeben, sondern vor der Nutzung zusätzlich zu klären sind.

Übrigens wird nicht nur die Lizenz neu gefasst, sondern auch das Lizenzauswahlprogramm auf der CC-Website erweitert, der sogenannte License Chooser. Er soll zukünftig deutlichere Hinweise dazu geben, welche möglicherweise ungewollten Konsequenzen etwa die Auswahl einer Lizenz mit dem Merkmal „Nicht kommerziell” hat. Wer unter diesem Lizenztyp lizenziert, sorgt damit zugleich rechtlich dafür, dass das Material beispielsweise nicht in die Wikipedia aufgenommen werden kann. Vielen ist diese Konsequenz jedoch verständlicherweise nicht bewusst, wenn sie den gewünschten Lizenztyp auswählen. Daher wird es nun entsprechende Textfelder geben, die darüber informieren.

John Weitzmann gehört als Projektleiter Recht für Creative Commons Deutschland zur Entwicklergruppe der CCPL4, die aus den In-house-Juristen von Creative Commons Inc., Aktiven aus rund 70 CC-Länderprojekten und interessierten Einzelpersonen verschiedener Communities besteht.

October 22 2013

Mining the social web, again

When we first published Mining the Social Web, I thought it was one of the most important books I worked on that year. Now that we’re publishing a second edition (which I didn’t work on), I find that I agree with myself. With this new edition, Mining the Social Web is more important than ever.

While we’re seeing more and more cynicism about the value of data, and particularly “big data,” that cynicism isn’t shared by most people who actually work with data. Data has undoubtedly been overhyped and oversold, but the best way to arm yourself against the hype machine is to start working with data yourself, to find out what you can and can’t learn. And there’s no shortage of data around. Everything we do leaves a cloud of data behind it: Twitter, Facebook, Google+ — to say nothing of the thousands of other social sites out there, such as Pinterest, Yelp, Foursquare, you name it. Google is doing a great job of mining your data for value. Why shouldn’t you?

There are few better ways to learn about mining social data than by starting with Twitter; Twitter is really a ready-made laboratory for the new data scientist. And this book is without a doubt the best and most thorough approach to mining Twitter data out there. But that’s only a starting point. We hear a lot in the press about sentiment analysis and mining unstructured text data; this book shows you how to do it. If you need to mine the data in web pages or email archives, this book shows you how. And if you want to understand how to people collaborate on projects, Mining the Social Web is the only place I’ve seen that analyzes GitHub data.

All of the examples in the book are available on Github. In addition to the example code, which is bundled into IPython notebooks, Matthew has provided a VirtualBox VM that installs Python, all the libraries you need to run the examples, the examples themselves, and an IPython server. Checking out the examples is as simple as installing Virtual Box, installing Vagrant, cloning the 2nd edition’s Github archive, and typing “vagrant up.” (This quick start guide summarizes all of that.) You can execute the examples for yourself in the virtual machine; modify them; and use the virtual machine for your own projects, since it’s a fully functional Linux system with Python, Java, MongoDB, and other necessities pre-installed. You can view this as a book with accompanying examples in a particularly nice package, or you can view the book as “premium support” for an open source project that consists of the examples and the VM.

If you want to engage with the data that’s surrounding you, Mining the Social Web is the best place to start. Use it to learn, to experiment, and to build your own data projects.

September 20 2013

Wem soll Big Data dienen?

Je mehr Daten, desto besser – das ist der Ansatz von „Big Data”. Ein Konzept, das zunehmend auf Skepsis zu stoßen scheint. Aber nicht die Daten an sich sind das Problem, sondern wer sie nutzen kann und welche Regeln dafür gelten. Denn Big Data hat die Tendenz, die digitale Spaltung zu verstärken.

Hinter „Big Data” steckt ein großes Versprechen. In den Daten, die digitale Welt unablässig produziert, schlummere ein Wissen, das nur noch gehoben werden muss – indem diese gesammelt, zusammengeführt und ausgewertet werden. „Wired”-Chef Chris Anderson glaubte in einem vielzitierten Essay sogar, die statistische Auswertung von Daten werde bald wissenschaftliche Theorien ersetzen.

Solche Heilsversprechen haben sich – wenig überraschend – nicht bewahrheitet, auch wenn die Techniken des Data Mining tatsächlich die Wissenschaft verändern. Big Data ist aber primär ein wirtschaftliches Thema: Mehr Effizienz für Unternehmen, zielgerichtete Werbung oder Vorhersagen über den Markt, wenn etwa eine Supermarkt-Kette die Äußerungen in sozialen Netzwerken auswertet und ihr Sortiment entsprechend anpasst. „Big Data zu nutzen, wird für Unternehmen zum Schlüsselfaktor für Wettbewerb und Wachstum”, heißt es etwa in einer McKinsey-Studie.

Was ist „Big Data”? Zu groß für Excel

Anschaulich wird das in einem Video der Firma Sqrrl, die unter diesem Namen ein Data-Mining-Tool anbietet. Wir sehen ein Daten-Eichhörnchen, das stapelweise Daten gehortet hat, aber nicht zu nutzen versteht, erklärt der Sprecher. Denn Datenschutz und andere Regulierungen verhindern, dass es die Daten auswerten kann. So bleiben sie im Silo ungenutzt eingesperrt. Doch die Entwickler von Sqrrl haben ein Werkzeug ersonnen, mit dem die Daten angeblich nicht mehr im Silo lagern müssen:

Das Programm „Sqrrl” ist eine kommerzielle Weiterentwicklung des Programms „Accumulo”. Entwickelt hat es der US-Geheimdienst NSA, um große Datenmassen verwalten zu können. Heute steht „Accumulo” als freie Software bereit. Man kann sich das Programm wie einige riesige Tabelle vorstellen – nur dass die Tabelle so groß ist, dass sie nicht als Datei auf einem Rechner am Schreibtisch, sondern übers Internet verteilt gespeichert und bearbeitet wird. Eine weit verbreitete, etwas saloppe Definition von „Big Data” heißt dann auch: Alles, was zu groß für eine Excel-Tabelle ist.

Die „Cell Level Security”, die von den Entwicklern angepriesen wird, erwuchs aus den Anforderungen der Arbeit der NSA: Jede Zelle der Tabelle kann nach Geheimdienstanforderungen klassifiziert werden, also zum Beispiel eine Einstufung als „streng geheim”, „vertraulich” und so weiter erhalten. Damit soll der Schatz von Big Data auch in der freien Wirtschaft gehoben werden – auch wenn Datenschützer durch eine Funktion wie „Cell Level Security” keineswegs beruhigt sein werden.

Mit dem Programm und seinen Auswertungsmöglichkeiten könnten Kundentransaktionen, E-Mail-Verkehr oder Aktivitäten in sozialen Netzwerken überwacht und „verdächtiges“ Verhalten erkannt werden, heißt es in einer Broschüre (PDF) des Unternehmens. Der typische Ansatz dabei: Daten verschiedener Quellen lassen sich kombinieren, statistisch auswerten und korrelieren – und man schaut, was sich ergibt. Gibt es etwa interessante Muster, die weiterverfolgt werden können?

Erst sammeln, später auswerten

„Indem wir Datensätze zusammenbringen, konnten wir mit Accumulo Dinge in den Daten erkennen, die wir nicht entdeckt hätten, wenn wir sie uns unter diesem und jenem Gesichtspunkt angesehen hätten“, erklärte Dave Hurry, Chef der Informatikforschungsabteilung der NSA, der Information Week. Es ist ein Ansatz, der sich im Kern nicht groß von demjenigen unterscheidet, den Google-Forscher vor einigen Jahren in einem Aufsatz über Sprachverarbeitung (PDF) vorschlugen, wenngleich mit anderem Ziel: „Gehen Sie raus, sammeln Sie ein paar Daten und schauen Sie dann, was man damit machen kann“.

Beide Zitate bringen den Paradigmenwechsel zu „Big Data” auf den Punkt. Datenschützer standen dem Konzept lange eher reserviert gegenüber. Denn mit den hergebrachten Grundprinzipen des Datenschutzes in Europa steht der Ansatz auf dem Kriegsfuß. Da wären etwa die Gründsätze der Einwilligung und der Zweckbindung, nach der Nutzer der Sammlung ihrer Daten zustimmen müssen und diese nicht für alle möglichen, sondern nur für genau definierte Zwecke verwendet werden können. Oder der Grundsatz der Erforderlichkeit: Daten sammeln, und später schauen, was man damit machen kann, das geht nicht.

Datenschutz entdeckt Big Data

In letzter Zeit scheint sich ein gewisser Wandel zu vollziehen: Thilo Weichert etwa, Chef des Schleswig-Holsteiner Datenschutzzentrums USD, betont, dass auch „Big Data”-Auswertungen datenschutzkonform möglich seien – wenn etwa die Daten soweit anonymisiert würden, dass sie Rückschlüsse auf einzelne Personen nicht mehr erlaubten. Dahinter steht wohl die Einsicht, dass sich der Trend zu immer größeren Datensammlungen kaum mehr stoppen lässt, weil technische Entwicklung und wirtschaftliche Verwertungsmöglichkeiten stärker wiegen. Weicherts Behörde hat etwa einem System zur Kassenauswertung eines Discounters oder Targeting-Systemen in der Online-Werbung ihr Gütesiegel zuerkannt.

Dennoch stößt „Big Data” nach wie vor auf Skepsis – was man gut oder schlecht finden kann. Glaubt man einer Untersuchung im Auftrag der Deutschen Telekom, dann ist infolge der Enthüllungen im Überwachungs- und Spionageskandal in der Bevölkerung die Bereitschaft zurückgegangen, an umfangreichen Datensammlungen und -auswertungen teilzunehmen, egal ob es staatliche oder privatwirtschaftliche Sammlungen sind. So gaben etwa im Juni noch eine knappe Mehrheit der Befragten an, sie fänden es in Ordnung, wenn Unternehmen Diskussionsforen im Internet auswerten, um Produkte zu verbessern. Im August zeigten sich 57 Prozent, also die Mehrheit der Befragten, kritisch.

Die digitale Spaltung

Die Diskussion über Chancen und Risiken von „Big Data” ist allerdings nicht neu: Danah Boyd, Internetforscherin bei Microsoft, stellt eine neue digitale Spaltung fest. „Wer hat Zugang? Für welche Zwecke? In welchem Zusammenhang? Mit welchen Begrenzungen?” fragt sie in einem Aufsatz. Und der Medienwissenschaftler Lev Manovich sah drei „Daten-Klassen” am Entstehen: Zu den Datenproduzenten gehöre praktisch jeder, der ein Handy besitzt oder das Web benutzt. Es folge die Klasse derjenigen, die die Mittel zum Datensammeln besitzen, noch kleiner aber sei die Gruppe derer, die über Zugang und Fähigkeiten zur Auswertung verfügten.

Nach den Erkenntnissen über Prism, Tempora & Co. lässt sich das Modell um eine weitere Klasse ergänzen: Zwar sitzen IT-Riesen wie Amazon oder Google bereits auf umfangreichen Datenbergen. Die am weitesten entwickelten Geheimdienste aber bilden eine Daten-Superelite. Sie können sich aussuchen, bei welchen IT-Unternehmen sie sich anstöpseln oder wo Internetknoten angebohrt werden. Aber auch innerhalb der Staaten, zwischen Regierungen und Behörden ist eine Spaltung in „Daten-Begüterte” und „Daten-Habenichtse” entstanden, wie der Internet-Rechtsprofessor Peter Swire konstatiert. Wer im technischen Wettrennen vorne liegt, hat Zugang zur Cloud, in der ein immer größerer Teil der Informationen lagert, die früher an anderen Stellen abgegriffen wurden.

Die Autoren Viktor Mayer-Schönberger und Kenneth Cukier sprechen sogar vor einer „Diktatur der Daten”, in der „wir uns von Daten derart regieren lassen, dass es mehr Schaden als Nutzen bringt”. Aber nicht „die Daten” regieren uns, sie sind ein Mittel für verschiedene Zwecke. Wer Zugang zu Daten hat und wer nicht, wer sie wann und wo erhebt, welche Regeln fürs Sammeln und Verarbeiten gelten, welche Rechte Nutzer haben, wer die Mittel zum Auswerten hat – all das wird darüber entscheiden, ob die Segnungen von „Big Data” nur ein Versprechen bleiben oder zum Nutzen für viele eingesetzt werden können.

September 03 2013

Demographics are dead: the new, technical face of marketing

Over the past five years, marketing has transformed from a primarily creative process into an increasingly data-driven discipline with strong technological underpinnings.

The central purpose of marketing hasn’t changed: brands still aim to tell a story, to emotionally connect with a prospective customer, with the goal of selling a product or service. But while the need to tell an interesting, authentic story has remained constant, customers and channels have fundamentally changed. Old Marketing took a spray-and-pray approach aimed at a broad, passive audience: agencies created demographic or psychographic profiles for theoretical consumers and broadcast ads on mass-consumption channels, such as television, print, and radio. “Targeting” was primarily about identifying high concentrations of a given consumer type in a geographic area.

The era of demographics is over. Advances in data mining have enabled marketers to develop highly specific profiles of customers at the individual level, using data drawn from actual personal behavior and consumption patterns. Now when a brand tells a story, it has the ability to tailor the narrative in such a way that each potential customer finds it relevant, personally. Users have become accustomed to this kind of sophisticated targeting; broad-spectrum advertising on the Internet is now essentially spam. At the same time, there is still a fine line between “well-targeted” and “creepy.”

As data availability has improved the quality of potential opportunities, perpetual connectivity has increased the quantity. The proliferation of mobile devices, decreasing cost of data access, and popularity of social platforms have increased the number of avenues that brands have at their disposal. However, these factors have also made it harder for them to actually connect; today’s audience has an ever-shorter attention span, as focus is split across an increasing number of channels. Consumers are better informed than ever before; a price- or fact-check is simply a Google search away, whether users are in front of their TV screens or walking around stores.

This changing ecosystem has already resulted in a shift from transaction-oriented “product-centric marketing” to a relationship-focused “human-centric” approach. Consumer loyalty to brands is a thing of the past; brands now demonstrate loyalty to their customers. Marketing campaigns must be time-, place-, and context-aware. It’s also important to be technologically on point: cross-device, multi-channel, constantly measuring results and refining campaigns. Today’s technology has largely mitigated the Wanamaker problem, but a Goldilocks problem remains: consumers don’t want to be inundated with marketing that is too obnoxiously broad or too creepily specific. Consumers want relevance.

The Radar team is interested in the progression of “reaching” passive audiences to “engaging” active ones, and in the technology that enables brands to break through the noise and find the people who are most likely to love them. In upcoming months, we’ll be investigating the continuing evolution of marketing, with a focus on fusing the art of storytelling with the promise of data and the objectivity of analytics. If you’re excited about this field, or know of someone doing interesting work in the area, let us know — drop a note in the comments section, or ping me via email or Twitter.

February 14 2013

Information Mining: Aus dem Steinbruch der Wissenschaft

Große Massen an Forschungsdaten werden mit Techniken des „Information Mining” maschinell ausgewertet, um neue statistische Muster zu entdecken. Das wirft technische und rechtliche Fragen und Probleme auf: In PDF-Dateien lässt sich schlecht nach Daten schürfen. Soll Information Mining in der Wissenschaft allgemein erlaubt oder lizenzrechtlich geregelt werden?

In nicht wenigen Wissenschaftsdisziplinen verschwimmen die Grenzen zwischen Text und Software, etwa wenn man living documents betrachtet, die Updates unterliegen, oder dazu übergeht, Texte in Umgebungen wie Github oder Figshare kollaborativ zu entwickeln. Wenn man Texte als eine Art kompilierte Software ansieht, sollte man auch deren Quelltexten, den Forschungsdaten, Aufmerksamkeit schenken. Denn wie Jenny Molloy von der Open Knowledge Foundation resümiert: „Science is built on data“.

Textpublikationen dokumentieren die Schaffung eines Wissensstands, die in Form von Zitaten oder Projektbewilligungen belohnt wird. Die zugrundeliegenden Daten bleiben oft verborgen – es sei denn, man stellt sie im Open Access bereit. Dies birgt gewisse Risiken: Wissenschaftler, die keinen Beitrag zur Erhebung leisteten, könnten die Daten auswerten und den ursprünglichen Datenproduzenten zur Konkurrenz werden.

Andererseits potenziert die offene Zugänglichkeit den wissenschaftlichen Fortschritt und die Verwertung der Daten, da unzählige Wissenschaftler sie auswerten können. Diese Crowd-Komponente der Datennutzung wird ergänzt durch die technischen Möglichkeiten des Data Mining. Digital vorliegendende Forschungsdaten werden automatisiert und rechnergestützt ausgewertet – ob Datenreihen, Tabellen, Graphen, Audio- und Videodateien, Software oder Texte.

Muster in Datenbergen entdecken

Digitale Verfügbarkeit und maschinelle Auswertungen kennzeichnen den Aufstieg der data-driven science, die statistische Muster in schier unendlichen Daten ausmacht, um diese anschließend wissenschaftlich zu erklären. Dieser Ansatz ergänzt die traditionelle theorie- und hypothesengetriebene Wissenschaft, die von Theorien ausgeht, Hypothesen ableitet, Erhebungsinstrumente entwirft, dann Daten erhebt und anschließend analysiert.

Um die Möglichkeiten der neuen Methoden auszuschöpfen, sollten die Daten jedoch offen verfügbar sein. So verlangen es zum Beispiel die Panton Principles, die fordern, dass Forschungsdaten auf jede mögliche Art offen genutzt, ausgewertet und weiterverbreitet werden dürfen, solange die Datenproduzenten genannt werden. Sogar diese Bedingungen entfallen, wenn die Resultate in die public domain, in die Gemeinfreiheit entlassen werden.

Stochern in PDF-Dateien

In der Praxis sind Forschungsdaten zwar teils verfügbar – sei es nur für Subskribenten wissenschaftlicher Journale oder auch für jedermann – offen sind sie jedoch nicht unbedingt: Weder rechtlich, denn selbst Informationen in auslesbaren Formaten stehen längst nicht immer unter einer Lizenz, die Data Mining ausdrücklich erlaubt. Noch technisch, denn oft finden sich Daten in versiegelten PDF-Dateien, die nicht maschinell ausgewertet werden können. Ein Umstand, den die Open-Science-Community pointiert mit der Analogie beschreibt, Daten aus einer PDF-Datei zu extrahieren gleiche dem Versuch, aus einem Hamburger wieder ein Rind zu machen.
Gegen das Text- und Data-Mining positionieren sich kommerzielle Akteure, deren Geschäftsmodell auf der Verknappung von Information basiert: In einer Konsultation (PDF) des Intellectual Property Office in Großbritannien sprachen sich zahlreiche dieser Informationsanbieter gegen eine Blankoerlaubnis zum Content-Mining copyright-belasteter Inhalte zu wissenschaftlichen Zwecken aus – selbst wenn die Institution eines Forschers auf die Inhalte via Subskription zugreifen darf und obwohl die Forschungsergebnisse mit öffentlichen Geldern produziert wurden.

Einige der Informationsanbieter schlugen vor, den Zugang über Lizenzierungen zu regeln, die allerdings vermutlich – dem traditionellen Geschäftsmodell folgend – kostenpflichtig sein dürften. Dem Chemiker Peter Murray-Rust etwa gestattete ein Verlag nach zwei Jahren zäher Verhandlung das Text-Mining von Publikationen, jedoch nur wenn die Rechte an den Resultaten an den Verlag fielen und nicht öffentlich zugänglich gemacht würden.

Nutzen der Offenheit

Volkswirtschaftlich betrachtet haben Data- und Text-Mining jedoch ungeheures Potential: Ihre Anwendung in der Wissenschaft könnte nach einer McKinsey-Studie der europäischen Wirtschaft eine Wertschöpfung von 250 Milliarden Euro pro Jahr bescheren. Das setzt aber voraus, dass Informationen offen verfügbar sind, denn der Ausschluss kommerzieller Daten-Nutzung verhindert, dass neue Dienste und Produkte entwickelt werden.

Murray-Rust etwa entwickelte Techniken zum Data-Mining kristallographischer Daten, deren Ergebnisse sehr fruchtbar für die Schaffung neuer medizinischer Wirkstoffe sein können. Wenn es nicht erlaubt ist, die ausgewerteten Daten kommerziell zu verwerten, werden Pharmafirmen vor der Verwendung Abstand nehmen. Nicht zuletzt ermöglicht Text- und Data-Mining auch effizienteres Information Retrieval, etwa wenn Forschern Empfehlungsdienste nach einer Analyse relevante Daten oder Texte vorschlagen und aufwändige Recherchen abkürzen.

Ulrich Herb ist Herausgeber des frei verfügbaren Sammelbandes „Open Initiatives: Offenheit in der digitalen Welt und Wissenschaft”, Promovend zum Thema „Open Social Science“, Open Access Experte der Universität des Saarlandes, freiberuflicher Wissenschafts- und Publikationsberater. Foto: Flickr/Born1945, CC BY-SA.

December 05 2012

Four short links: 5 December 2012

  1. The Benefits of Poetry for Professionals (HBR) — Harman Industries founder Sidney Harman once told The New York Times, “I used to tell my senior staff to get me poets as managers. Poets are our original systems thinkers. They look at our most complex environments and they reduce the complexity to something they begin to understand.”
  2. First Few Milliseconds of an HTTPS Connection — far more than you ever wanted to know about how HTTPS connections are initiated.
  3. Google Earth EngineDevelop, access and run algorithms on the full Earth Engine data archive, all using Google’s parallel processing platform. (via Nelson Minar)
  4. 3D Printing Popup Store Opens in NYC (Makezine Blog) — MAKE has partnered with 3DEA, a pop up 3D printing emporium in New York City’s fashion district. The store will sell printers and 3D printed objects as well as offer a lineup of classes, workshops, and presentations from the likes of jewelry maker Kevin Wei, 3D printing artist Josh Harker, and Shapeways’ Duann Scott. This. is. awesome!

October 04 2012

Four short links: 4 October 2012

  1. As We May Think (Vannevar Bush) — incredibly prescient piece he wrote for The Atlantic in 1945.
  2. Transparency and Topic Models (YouTube) — a talk from DataGotham 2012, by Hanna Wallach. She uses latent Dirichlet allocation topic models to mine text data in declassified documents where the metadata are useless. She’s working on predicting classification durations (AWESOME!). (via Matt Biddulph)
  3. Slippy Map of the Ancient World — this. is. so. cool!
  4. Technology in the NFLX2IMPACT’s Concussion Management System (CMS) is a great example of this trend. CMS, when combined with a digital mouth guard, also made by X2, enables coaches to see head impact data in real-time and asses concussions through monitoring the accelerometers in a players mouth guard. That data helps teams to decide whether to keep a player on the field or take them off for their own safety. Insert referee joke here.

August 25 2012

Four short links: 30 August 2012

  1. TOS;DR — terms of service rendered comprehensible. “Make the hard stuff easy” is a great template for good ideas, and this just nails it.
  2. Sick of Impact Factorstypically only 15% of the papers in a journal account for half the total citations. Therefore only this minority of the articles has more than the average number of citations denoted by the journal impact factor. Take a moment to think about what that means: the vast majority of the journal’s papers — fully 85% — have fewer citations than the average. The impact factor is a statistically indefensible indicator of journal performance; it flatters to deceive, distributing credit that has been earned by only a small fraction of its published papers. (via Sci Blogs)
  3. A Generation Lost in the Bazaar (ACM) — Today’s Unix/Posix-like operating systems, even including IBM’s z/OS mainframe version, as seen with 1980 eyes are identical; yet the 31,085 lines of configure for libtool still check if and exist, even though the Unixen, which lacked them, had neither sufficient memory to execute libtool nor disks big enough for its 16-MB source code. [...] That is the sorry reality of the bazaar Raymond praised in his book: a pile of old festering hacks, endlessly copied and pasted by a clueless generation of IT “professionals” who wouldn’t recognize sound IT architecture if you hit them over the head with it. It is hard to believe today, but under this embarrassing mess lies the ruins of the beautiful cathedral of Unix, deservedly famous for its simplicity of design, its economy of features, and its elegance of execution. (Sic transit gloria mundi, etc.)
  4. History as Science (Nature) — Turchin and his allies contend that the time is ripe to revisit general laws, thanks to tools such as nonlinear mathematics, simulations that can model the interactions of thousands or millions of individuals at once, and informatics technologies for gathering and analysing huge databases of historical information.

August 23 2012

Four short links: 23 August 2012

  1. Computational Social Science (Nature) — Facebook and Twitter data drives social science analysis. (via Vaughan Bell)
  2. The Single Most Important Object in the Global Economy (Slate) — Companies like Ikea have literally designed products around pallets: Its “Bang” mug, notes Colin White in his book Strategic Management, has had three redesigns, each done not for aesthetics but to ensure that more mugs would fit on a pallet (not to mention in a customer’s cupboard). (via Boing Boing)
  3. Narco Ultralights (Wired) — it’s just a matter of time until there are no humans on the ultralights. Remote-controlled narcodrones can’t be far away.
  4. Shortcut Foo — a typing tutor for editors, photoshop, and the commandline, to build muscle memory of frequently-used keystrokes. Brilliant! (via Irene Ros)

August 15 2012

Mining the astronomical literature

There is a huge debate right now about making academic literature freely accessible and moving toward open access. But what would be possible if people stopped talking about it and just dug in and got on with it?

NASA’s Astrophysics Data System (ADS), hosted by the Smithsonian Astrophysical Observatory (SAO), has quietly been working away since the mid-’90s. Without much, if any, fanfare amongst the other disciplines, it has moved astronomers into a world where access to the literature is just a given. It’s something they don’t have to think about all that much.

The ADS service provides access to abstracts for virtually all of the astronomical literature. But it also provides access to the full text of more than half a million papers, going right back to the start of peer-reviewed journals in the 1800s. The service has links to online data archives, along with reference and citation information for each of the papers, and it’s all searchable and downloadable.

Number of papers published in the three main astronomy journals each year
Number of papers published in the three main astronomy journals each year. CREDIT: Robert Simpson

The existence of the ADS, along with the arXiv pre-print server, has meant that most astronomers haven’t seen the inside of a brick-built library since the late 1990s.

It also makes astronomy almost uniquely well placed for interesting data mining experiments, experiments that hint at what the rest of academia could do if they followed astronomy’s lead. The fact that the discipline’s literature has been scanned, archived, indexed and catalogued, and placed behind a RESTful API makes it a treasure trove, both for hypothesis generation and sociological research.

For example, the .Astronomy series of conferences is a small workshop that brings together the best and the brightest of the technical community: researchers, developers, educators and communicators. Billed as “20% time for astronomers,” it gives these people space to think about how the new technologies affect both how research and communicating research to their peers and to the public is done.

[Disclosure: I'm a member of the advisory board to the .Astronomy conference, and I previously served as a member of the programme organising committee for the conference series.]

It should perhaps come as little surprise that one of the more interesting projects to come out of a hack day held as part of this year’s .Astronomy meeting in Heidelberg was work by Robert Simpson, Karen Masters and Sarah Kendrew that focused on data mining the astronomical literature.

The team grabbed and processed the titles and abstracts of all the papers from the Astrophysical Journal (ApJ), Astronomy & Astrophysics (A&A), and the Monthly Notices of the Royal Astronomical Society (MNRAS) since each of those journals started publication — and that’s 1827 in the case of MNRAS.

By the end of the day, they’d found some interesting results showing how various terms have trended over time. The results were similar to what’s found in Google Books’ Ngram Viewer.

The relative popularity of the names of telescopes in the literature
The relative popularity of the names of telescopes in the literature. Hubble, Chandra and Spitzer seem to have taken turns in hogging the limelight, much as COBE, WMAP and Planck have each contributed to our knowledge of the cosmic microwave background in successive decades. References to Planck are still on the rise. CREDIT: Robert Simpson.

After the meeting, however, Robert has taken his initial results and explored the astronomical literature and his new corpus of data on the literature. He’s explored various visualisations of the data, including word matrixes for related terms and for various astro-chemistry.

Correlation between terms related to Active Galactic Nuclei
Correlation between terms related to Active Galactic Nuclei (AGN). The opacity of each square represents the strength of the correlation between the terms. CREDIT: Robert Simpson.

He’s also taken a look at authorship in astronomy and is starting to find some interesting trends.

Fraction of astronomical papers published with one, two, three, four or more authors
Fraction of astronomical papers published with one, two, three, four or more authors. CREDIT: Robert Simpson

You can see that single-author papers dominated for most of the 20th century. Around 1960, we see the decline begin, as two- and three-author papers begin to become a significant chunk of the whole. In 1978, author papers become more prevalent than single-author papers.

Compare the number of active research astronomers to the number of papers published each year
Compare the number of “active” research astronomers to the number of papers published each year (across all the major journals). CREDIT: Robert Simpson.

Here we see that people begin to outpace papers in the 1960s. This may reflect the fact that as we get more technical as a field, and more specialised, it takes more people to write the same number of papers, which is a sort of interesting result all by itself.

Interview with Robert Simpson: Behind the project and what lies ahead

I recently talked with Rob about the work he, Karen Masters, and Sarah Kendrew did at the meeting, and the work he’s been doing since with the newly gathered data.

What made you think about data mining the ADS?

Robert Simpson: At the .Astronomy 4 Hack Day in July, Sarah Kendrew had the idea to try to do an astronomy version of BrainSCANr, a project that generates new hypotheses in the neuroscience literature. I’ve had a go at mining ADS and arXiv before, so it seemed like a great excuse to dive back in.

Do you think there might be actual science that could be done here?

Robert Simpson: Yes, in the form of finding questions that were unexpected. With such large volumes of peer-reviewed papers being produced daily in astronomy, there is a lot being said. Most researchers can only try to keep up with it all — my daily RSS feed from arXiv is next to useless, it’s so bloated. In amongst all that text, there must be connections and relationships that are being missed by the community at large, hidden in the chatter. Maybe we can develop simple techniques to highlight potential missed links, i.e. generate new hypotheses from the mass of words and data.

Are the results coming out of the work useful for auditing academics?

Robert Simpson: Well, perhaps, but that would be tricky territory in my opinion. I’ve only just begun to explore the data around authorship in astronomy. One thing that is clear is that we can see a big trend toward collaborative work. In 2012, only 6% of papers were single-author efforts, compared with 70+% in the 1950s.

The average number of authors per paper since 1827
The above plot shows the average number of authors, per paper since 1827. CREDIT: Robert Simpson.

We can measure how large groups are becoming, and who is part of which groups. In that sense, we can audit research groups, and maybe individual people. The big issue is keeping track of people through variations in their names and affiliations. Identifying authors is probably a solved problem if we look at ORCID.

What about citations? Can you draw any comparisons with h-index data?

Robert Simpson: I haven’t looked at h-index stuff specifically, at least not yet, but citations are fun. I looked at the trends surrounding the term “dark matter” and saw something interesting. Mentions of dark matter rise steadily after it first appears in the late ’70s.

Compare the term dark matter with related terms
Compare the term “dark matter” with a few other related terms: “cosmology,” “big bang,” “dark energy,” and “wmap.” You can see cosmology has been getting more popular since the 1990s, and dark energy is a recent addition. CREDIT: Robert Simpson.

In the data, astronomy becomes more and more obsessed with dark matter — the term appears in 1% of all papers by the end of the ’80s and 6% today.

Looking at citations changes the picture. The community is writing papers about dark matter more and more each year, but they are getting fewer citations than they used to (the peak for this was in the late ’90s). These trends are normalised, so the only regency effect I can think of is that dark matter papers take more than 10 years to become citable. Either that or dark matter studies are currently in a trough for impact.

Can you see where work is dropped by parts of the community and picked up again?

Robert Simpson: Not yet, but I see what you mean. I need to build a better picture of the community and its components.

Can you build a social graph of astronomers out of this data? What about (academic) family trees?

Robert Simpson: Identifying unique authors is my next step, followed by creating fingerprints of individuals at a given point in time. When do people create their first-author papers, when do they have the most impact in their careers, stuff like that.

What tools did you use? In hindsight, would you do it differently?

I’m using Ruby and Perl to grab the data, MySQL to store and query it, JavaScript to display it (Google Charts and D3.js). I may still move the database part to MongoDB because it was designed to store documents. Similarly, I may switch from ADS to arXiv as the data source. Using arXiv would allow me to grab the full text in many cases, even if it does introduce a peer-review issue.

What’s next?

Robert Simpson: My aim is still to attempt real hypothesis generation. I’ve begun the process by investigating correlations between terms in the literature, but I think the power will be in being able to compare all terms with all terms and looking for the unexpected. Terms may correlate indirectly (via a third term, for example), so the entire corpus needs to be processed and optimised to make it work comprehensively.

Science between the cracks

I’m really looking forward to seeing more results coming out of Robert’s work. This sort of analysis hasn’t really been possible before. It’s showing a lot of promise both from a sociological angle, with the ability to do research into how science is done and how that has changed, but also ultimately as a hypothesis engine — something that can generate new science in and of itself. This is just a hack day experiment. Imagine what could be done if the literature were more open and this sort of analysis could be done across fields?

Right now, a lot of the most interesting science is being done in the cracks between disciplines, but the hardest part of that sort of work is often trying to understand the literature of the discipline that isn’t your own. Robert’s project offers a lot of hope that this may soon become easier.

Older posts are this way If this message doesn't go away, click anywhere on the page to continue loading posts.
Could not load more posts
Maybe Soup is currently being updated? I'll try again automatically in a few seconds...
Just a second, loading more posts...
You've reached the end.

Don't be the product, buy the product!

Schweinderl