Newer posts are loading.
You are at the newest post.
Click here to check if anything new just came in.

November 11 2013

Four short links: 11 November 2013

  1. Living Light — 3D printed cephalopods filled with bioluminescent bacteria. PAGING CORY DOCTOROW, YOUR ORGASMATRON HAS ARRIVED. (via Sci Blogs)
  2. Repacking Lego Batteries with a CNC Mill — check out the video. Patrick programmed a CNC machine to drill out the rivets holding the Mindstorms battery pack together. Coding away a repetitive task like this is gorgeous to see at every scale. We don’t have to teach our kids a particular programming language, but they should know how to automate cruft.
  3. My Thoughts on Google+ (YouTube) — when your fans make hatey videos like this one protesting Google putting the pig of Google Plus onto the lipstick that was YouTube, you are Doin’ It Wrong.
  4. Presto: Interacting with Petabytes of Data at Facebooka distributed SQL query engine optimized for ad-hoc analysis at interactive speed. It supports standard ANSI SQL, including complex queries, aggregations, joins, and window functions. For details, see the Facebook post about its launch.

November 05 2013

Four short links: 5 November 2013

  1. Influx DBopen-source, distributed, time series, events, and metrics database with no external dependencies.
  2. Omega (PDF) — ���exible, scalable schedulers for large compute clusters. From Google Research.
  3. GraspJSSearch and replace your JavaScript code based on its structure rather than its text.
  4. Amazon Mines Its Data Trove To Bet on TV’s Next Hit (WSJ) — Amazon produced about 20 pages of data detailing, among other things, how much a pilot was viewed, how many users gave it a 5-star rating and how many shared it with friends.

October 31 2013

Four short links: 31 October 2013

  1. Insect-Inspired Collision-Resistant Robot — clever hack to make it stable despite bouncing off things.
  2. The Battle for Power on the Internet (Bruce Schneier) — the state of cyberspace. [M]ost of the time, a new technology benefits the nimble first. [...] In other words, there will be an increasing time period during which nimble distributed powers can make use of new technologies before slow institutional powers can make better use of those technologies.
  3. Cisco’s H.264 Good News (Brendan Eich) — Cisco is paying the license fees for a particular implementation of H.264 to be used in open source software, enabling it to be the basis of web streaming video across all browsers (even the open source ones). It’s not as ideal a solution as it might sound.
  4. Principal Component Analysis for DummiesThis post will give a very broad overview of PCA, describing eigenvectors and eigenvalues (which you need to know about to understand it) and showing how you can reduce the dimensions of data using PCA. As I said it’s a neat tool to use in information theory, and even though the maths is a bit complicated, you only need to get a broad idea of what’s going on to be able to use it effectively.

October 30 2013

Four short links: 30 October 2013

  1. Offline.js — Javascript library so web app developers can gracefully deal with users going offline.
  2. Android Guideslots of info on coding for Android.
  3. Statistics Done Wrong — learn from these failure modes. Not medians or means. Modes.
  4. Streaming, Sketching, and Sufficient Statistics (YouTube) — how to process huge data sets as they stream past your CPU (e.g., those produced by sensors). (via Ben Lorica)

October 29 2013

Four short links: 29 October 2013

  1. Mozilla Web Literacy Standard — things you should be able to do if you’re to be trusted to be on the web unsupervised. (via BoingBoing)
  2. Berg Cloud Platform — hardware (shield), local network, and cloud glue. Caution: magic ahead!
  3. Sharka large-scale data warehouse system for Spark designed to be compatible with Apache Hive. It can execute Hive QL queries up to 100 times faster than Hive without any modification to the existing data or queries. Shark supports Hive’s query language, metastore, serialization formats, and user-defined functions, providing seamless integration with existing Hive deployments and a familiar, more powerful option for new ones. (via Strata)
  4. The Malware of Thingsa technician opening up an iron included in a batch of Chinese imports to find a “spy chip” with what he called “a little microphone”. Its correspondent said the hidden devices were mostly being used to spread viruses, by connecting to any computer within a 200m (656ft) radius which were using unprotected Wi-Fi networks.

October 24 2013

Google: Ein Werkzeug des Wissens, eine technokratische Macht

Google durchsucht und akkumuliert das Wissen der Welt für gezielte, kapillare Werbung. Das Pagerank-Verfahren gilt als elektronische Variante der direkten Demokratie, doch seine genaue Funktionsweise bleibt uns verschlossen. Das italienische Autorenkollektiv Ippolita hält die kritische Neugier der Hackerethik dagegen.

Bei der Analyse des Phänomens Google zeigt sich schnell, dass die Ökonomie der Suche nur ein Element in einem wesentlich größeren und komplexeren Bild ist. Mountain View ist dabei – und Eric Schmidt sagt es selbst – eine globale Unternehmung in der Informationstechnologie voranzutreiben, einen Hundert-Milliarden-Dollar-Betrieb, der weit über eine bloße Suchmaschinen-Firma hinausgeht.

In der Tat verkörpert Google eher ein alles durchdringendes Wissensmanagement-System, das unter anderem folgende Entwicklungen und Methoden einschließt:

  • Strategien, die aggressives Marketing und clevere Imagepflege verbinden,
  • die Verbreitung umfassend konfigurierbarer, dennoch stets wiedererkennbarer Schnittstellen,
  • Instrumente, mit denen Nutzer und Entwickler Inhalte nach Google-Standards erstellen,
  • die Übernahme von kooperativen Entwicklungsmodellen aus dem Lehrbuch der Freien- und Open-Source-Software,
  • die Nutzung neuester Datenerhebungs- und -archivierungssysteme,
  • die Verbindung von Information Retrieval mit Profiling-Techniken, und last but not least:
  • die ausgefeilte und hochentwickelte Personalisierung von Anzeigen.

Aus der wissenschaftlichen Forschung hervorgegangen, ist Google heute ebenso zum allgemeinen Werkzeug der Wissensverwaltung wie zur technologischen Macht geworden; man kann sagen: zum direkten Ausdruck von Technokratie.

Die Autorität der Maschinen

Natürlich können wir alles im Internet veröffentlichen, was wir wollen, und Google wird es indexieren. Doch wir dürfen nicht erwähnen, dass Googles Akkumulationsstrategie perfekt zum System der Marktwirtschaft passt, das auf unendlichem Wachstum basiert. Insofern ist das Pagerank-Verfahren mehr als ein Algorithmus: Es wird zu einem kulturellen Prisma, durch das Google uns die Welt wahrnehmen lässt. In einem gewissen Sinn forciert es die Ausdehnung des Peer-Review-Systems – das innerhalb der akademischen Welt seine Berechtigung hat – auf die gesamte Skala des menschlichen Wissens.

Die traditionellen religiösen und politischen Autoritäten sind mit ihrer Glaubwürdigkeit am Tiefpunkt angelangt. Nun steht ihnen die Autorität der Maschinen gegenüber. Sie zeigt sich vor allem in den Suchergebnissen, die der wohlhabenden Klasse der ‚Prosumer’ geliefert werden; gespeist von einer Datenbasis, die die Hohepriester der Technologie, die Experten, bereitgestellt haben.

Charakteristisch für solche Verfahren, die vorgeben, aus der verfügbaren und vermeintlich grenzenlosen Menge an Daten „die Wahrheit” zu extrahieren, ist eine extreme Form des Relativismus. Schon an der Vielzahl von Algorithmen und Filtern, die Google verwendet, um diese Wahrheit zu gewinnen, lässt sich das erahnen. Die eigentliche Bedeutung der passenden Antwort auf eine Suchanfrage aber liegt darin, dass sie für jeden Konsumenten ein fertiges, personalisiertes Produkt liefert.

Technikhass und Technikeuphorie

Wo uns auf diese Weise die Erzeugung, Verwaltung und Anwendung von Wissen aus den Händen genommen wird, scheinen nur zwei Optionen übrig: Entweder die Ablehnung der Wissenschaftskultur überhaupt als Wurzel allen Übels; oder – im direkten Gegensatz dazu – das blinde und enthusiastische Akzeptieren jeglicher durch Technologie hervorgebrachter Innovation.

Doch zwischen diesen beiden Extrempositionen – Technikhass hier, Technikeuphorie dort – lässt sich eine Position entwickeln, die jene Neugier befördert, die wir aus der Hackerethik kennen. Sie steht ebenso für das Teilen von Wissen, die kritische Haltung gegenüber „Wahrheiten” wie für das rigorose Prüfen von Quellen und den freien Fluss von Information.

Ein fundamental wichtiges Thema in diesem Zusammenhang ist Bildung, doch es fehlen die Mittel, um Wissen in großem Maßstab zu verbreiten. Die Bildungsstrukturen in Europa und in Nordamerika sind nur darauf ausgerichtet, Spezialisten zu produzieren. Und ein pädagogisches Modell, das sich am Bedürfnis nach einer Art „dilettantischem” wissenschaftlichen Zugang zu Wissen orientiert, ist im Moment nicht in Sicht.

Die Logik der Informationstechnologie

Der Aufstieg der Informationstechnologie zum Motor technischer Innovation überhaupt hat neue Szenarien eröffnet: Informationstechnologie ist nicht nur ein Verfahren, um den Umgang mit Informationen zu automatisieren. Sie besitzt eine eigene Logik, die darin besteht, kontinuierlich ihre eigene Basis zu verändern. Informationstechnologie ist gleichzeitig physikalisch-materiell und experimentelle Theorie. Sie befasst sich mit der Formalisierung der Sprache, bringt diese mit physischen Komponenten der Elektronik zur Wirkung, woraus wiederum neue Sprachen entstehen, die erneut die Theorien des Wissens beeinflussen.

Vor zehn Jahren geschriebene Software unterscheidet sich strukturell von Software für einen heutigen Computer. Wir wissen, dass das, was wir gestern für wahr hielten, morgen nicht mehr stimmen wird, wenn wir stärkere Maschinen haben und mit ihnen völlig neue Dinge tun können.

Wunder der Technologie: Von subjektiven Meinungen zur objektiven Wahrheit

In dieser gigantischen Datenwelt nun taucht der gute Riese Google auf und erklärt uns, dass wir alle Teil einer großen, bislang nicht gekannten globalen elektronischen Demokratie seien. Und so seien auch die Ergebnisse von Pagerank korrekt, entspringen sie doch der direkten Demokratie der Links, die durch Googles Algorithmen validiert werden – und uns in gewisser Weise unser Recht zurückgeben, für uns selbst zu sprechen.

Epistemologisch betrachtet kann Popularität jedoch nie als Beleg für objektive Qualität gelten. Dann würde das Konzept der Objektivität auf der unausgesprochenen Annahme beruhen, dass eine Masse subjektiver Ideen – die Meinungen, die über Links ausgedrückt werden – sich scheinbar magisch in ihr exaktes Gegenteil verwandeln kann: in die aufscheinende objektive Wahrheit in dem Moment, da sie eine bestimmte Zahl überschreiten und zur Mehrheit werden. So wird das Ranking zum Ausweis von Qualität, weil es augenscheinlich das Ergebnis informationsverarbeitender Technologien darstellt.

Algorithmen und der Schein der Objektivität

Dennoch: Wie kann Quantität zu Qualität werden? Man geht davon aus – ohne es allzu offen zuzugeben – dass die technische Vermittlung durch den Algorithmus selbst bereits eine Garantie für „Objektivität” ist und assoziiert diese Objektivität mit „gut”, „besser” und schließlich mit „wahr”. Dieser Mechanismus der Konsensbildung, den Google als Manifestation direkter Demokratie betrachtet, da er über die Voten der User funktioniert, überzeugt aber aus zwei wesentlichen Gründen nicht: Erstens unterstellt er, dass die Mehrheit immer recht hat. Zweitens impliziert er, dass Meinungen mehrheitlich und notwendig eine technologische Vermittlung durchlaufen müssen, um dem User wirklich zu nutzen. Wie das genau funktioniert, wird aber nie erläutert.

Die Dichotomie zwischen dem Objektiven und dem Subjektiven und die Gegenüberstellung von Wahrheit und Meinung ist in der Welt der Netzwerke aber selbst völlig deplaziert. Bei genauerer Betrachtung hat die Wissenschaft, wenn sie Techniken erfunden und Technologien gefördert hat, immer Hybride aus Natur und Kultur erzeugt.

Die Technologie hinter den Netzwerken ist nur die gegenwärtige Anwendung der wissenschaftlichen Methode, die ‚Natur-Kultur-Hybride’ erschafft und zu unzähligen wissenschaftlichen Objekten führt, die sich – anstelle der Menschen – als brauchbarere Zeichen für die Wirklichkeit präsentieren. Der Algorithmus von Pagerank und sein Urteil gilt nunmehr als vertrauenswürdiger als die Meinung eines Individuums, selbst als die eines fachlichen Experten – und sei es, weil Pageranks Empfehlung immer nur einen Klick entfernt ist, im Gegensatz zu der des Experten.

Was ist für wen relevant?

Ein anderer möglicher Gesichtspunkt auf das Thema „Subjektivität vs. Objektivität” bezieht sich auf das Modell der Entscheidungsfindung: Wie entscheidet man, was relevant ist? In einem relativistischen Kontext kann man eher davon ausgehen, dass eine Information ‚objektiv’ ist, wenn sie von einer Website (oder einem Blog oder Google oder einer offiziellen Quelle) stammt, deren Bewertungskriterien auf klare Vorgaben, transparente Prozesse und eine begrenzte, lokale Perspektive zurückgehen.

Ein Netzwerk, das auf Vertrauen basiert – also eine Gruppe von Leuten, die untereinander Informationen, Meinungen und ganz allgemein Wissen teilen – kann problemlos seine Arbeitsweisen offenlegen, ebenso seine Hierarchie, wenn es eine hat; auch die Voraussetzungen, um Mitglied des Netzwerks oder des Projekts zu werden.

Opake Entscheidungsmechanismen

Wenn man die Antworten prüft, die von einem solchen Vertrauensnetzwerk gegeben werden, kann man diese immer als ‚objektiv’ betrachten: in dem Sinne, dass sie für und in diesem Netzwerk wahr und relevant in Bezug auf dessen Erfahrungen sind. Diese Objektivität und Relevanz ist das Ergebnis vieler verschiedener Subjektivitäten und des Austauschs zwischen den Mitgliedern dieses Netzwerks. Wenn man sich mit seiner Gemeinschaft in Übereinstimmung sieht, kann die jeweilige Information für einen von Interesse sein, oder man kann sie zugunsten anderer Netzwerke des Vertrauens verwerfen.

Folgt man diesem Ansatz, und wäre Google bereit, seine Entscheidungsmechanismen offenzulegen und damit die Internetuser in der Lage, sie nachzuvollziehen, dann könnte man das Problem „objektiv vs. subjektiv” leicht überwinden. Man würde sich nicht nur Schritt für Schritt, Suche für Suche in das jeweils bevorzugte Netzwerk hineinversetzen können, sondern wäre auch in der Lage, es direkt zu beeinflussen und es im Rahmen unserer Geschmäcker und unserer Vorlieben, unserer Ideen und Eigenheiten zu halten – oder kurz: in Übereinstimmung mit uns selbst.

Dieser Artikel ist ein gekürzter Auszug aus „Luci e ombre di Google/ The Dark Side of Google” von Ippolita. Ippolita versteht sich als Forschungsgruppe und „Kollektiv für geselliges Schreiben”. Zuerst auf Italienisch 2007 veröffentlicht, ist die Schrift jetzt in der Reihe „Theory on Demand” des Amsterdamer Institute of Network Cultures in neuer Fassung erschienen.

Übersetzung: Andreas Kallfelz. Lizenz: CC BY-NC-SA 2.5 IT

October 22 2013

Mining the social web, again

When we first published Mining the Social Web, I thought it was one of the most important books I worked on that year. Now that we’re publishing a second edition (which I didn’t work on), I find that I agree with myself. With this new edition, Mining the Social Web is more important than ever.

While we’re seeing more and more cynicism about the value of data, and particularly “big data,” that cynicism isn’t shared by most people who actually work with data. Data has undoubtedly been overhyped and oversold, but the best way to arm yourself against the hype machine is to start working with data yourself, to find out what you can and can’t learn. And there’s no shortage of data around. Everything we do leaves a cloud of data behind it: Twitter, Facebook, Google+ — to say nothing of the thousands of other social sites out there, such as Pinterest, Yelp, Foursquare, you name it. Google is doing a great job of mining your data for value. Why shouldn’t you?

There are few better ways to learn about mining social data than by starting with Twitter; Twitter is really a ready-made laboratory for the new data scientist. And this book is without a doubt the best and most thorough approach to mining Twitter data out there. But that’s only a starting point. We hear a lot in the press about sentiment analysis and mining unstructured text data; this book shows you how to do it. If you need to mine the data in web pages or email archives, this book shows you how. And if you want to understand how to people collaborate on projects, Mining the Social Web is the only place I’ve seen that analyzes GitHub data.

All of the examples in the book are available on Github. In addition to the example code, which is bundled into IPython notebooks, Matthew has provided a VirtualBox VM that installs Python, all the libraries you need to run the examples, the examples themselves, and an IPython server. Checking out the examples is as simple as installing Virtual Box, installing Vagrant, cloning the 2nd edition’s Github archive, and typing “vagrant up.” (This quick start guide summarizes all of that.) You can execute the examples for yourself in the virtual machine; modify them; and use the virtual machine for your own projects, since it’s a fully functional Linux system with Python, Java, MongoDB, and other necessities pre-installed. You can view this as a book with accompanying examples in a particularly nice package, or you can view the book as “premium support” for an open source project that consists of the examples and the VM.

If you want to engage with the data that’s surrounding you, Mining the Social Web is the best place to start. Use it to learn, to experiment, and to build your own data projects.

October 18 2013

Four short links: 18 October 2013

  1. Science Not as Self-Correcting As It Thinks (Economist) — REALLY good discussion of the shortcomings in statistical practice by scientists, peer-review failures, and the complexities of experimental procedure and fuzziness of what reproducibility might actually mean.
  2. Reproducibility Initiative Receives Grant to Validate Landmark Cancer StudiesThe key experimental findings from each cancer study will be replicated by experts from the Science Exchange network according to best practices for replication established by the Center for Open Science through the Center’s Open Science Framework, and the impact of the replications will be tracked on Mendeley’s research analytics platform. All of the ultimate publications and data will be freely available online, providing the first publicly available complete dataset of replicated biomedical research and representing a major advancement in the study of reproducibility of research.
  3. $20 SDR Police Scanner — using software-defined radio to listen to the police band.
  4. Reimagine the Chemistry Set — $50k prize in contest to design a “chemistry set” type kit that will engage kids as young as 8 and inspire people who are 88. We’re looking for ideas that encourage kids to explore, create, build and question. We’re looking for ideas that honor kids’ curiosity about how things work. Backed by the Moore Foundation and Society for Science and the Public.

October 14 2013

Four short links: 16 October 2013

  1. Scientific Data Has Become So Complex, We Have to Invent New Math to Deal With It (Jennifer Ouellette) — Yale University mathematician Ronald Coifman says that what is really needed is the big data equivalent of a Newtonian revolution, on par with the 17th century invention of calculus, which he believes is already underway.
  2. Is Google Jumping the Shark? (Seth Godin) — Public companies almost inevitably seek to grow profits faster than expected, which means beyond the organic growth that comes from doing what made them great in the first place. In order to gain that profit, it’s typical to hire people and reward them for measuring and increasing profits, even at the expense of what the company originally set out to do. Eloquent redux.
  3. textteaser — open source text summarisation algorithm.
  4. Clipping MagicInstantly create masks, cutouts, and clipping paths online.

October 07 2013

Four short links: 9 October 2013

  1. Android Malware Numbers — (Quartz) less than an estimated 0.001% of app installations on Android are able to evade the system’s multi-layered defenses and cause harm to users, based on Google’s analysis of 1.5B downloads and installs.
  2. Facebook Operations Chief Reveals Open Networking Plan — long interview about OCP’s network project. The specification that we are working on is essentially a switch that behaves like compute. It starts up, it has a BIOS environment to do its diagnostics and testing, and then it will look for an executable and go find an operating system. You point it to an operating system and that tells it how it will behave and what it is going to run. In that model, you can run traditional network operating systems, or you can run Linux-style implementations, you can run OpenFlow if you want. And on top of that, you can build your protocol sets and applications.
  3. How Red Bull Dominates F1 (Quartz) — answer: data, and lots of it.
  4. Ground-Level Air Pollution Sensor (Make) — neat sensor project from Make.

October 03 2013

Four short links: 3 October 2013

  1. Hyundia Replacing Cigarette Lighters with USB Ports (Quartz) — sign of the times. (via Julie Starr)
  2. Freeseerfree, open source, cross-platform application that captures or streams your desktop—designed for capturing presentations. Would you like freedom with your screencast?
  3. Amazon Redshift: What You Need to Know — good write-up of experience using Amazon’s column database.
  4. GroupTweetAllow any number of contributors to Tweet from a group account safely and securely. (via Jenny Magiera)

September 24 2013

September 20 2013

Wem soll Big Data dienen?

Je mehr Daten, desto besser – das ist der Ansatz von „Big Data”. Ein Konzept, das zunehmend auf Skepsis zu stoßen scheint. Aber nicht die Daten an sich sind das Problem, sondern wer sie nutzen kann und welche Regeln dafür gelten. Denn Big Data hat die Tendenz, die digitale Spaltung zu verstärken.

Hinter „Big Data” steckt ein großes Versprechen. In den Daten, die digitale Welt unablässig produziert, schlummere ein Wissen, das nur noch gehoben werden muss – indem diese gesammelt, zusammengeführt und ausgewertet werden. „Wired”-Chef Chris Anderson glaubte in einem vielzitierten Essay sogar, die statistische Auswertung von Daten werde bald wissenschaftliche Theorien ersetzen.

Solche Heilsversprechen haben sich – wenig überraschend – nicht bewahrheitet, auch wenn die Techniken des Data Mining tatsächlich die Wissenschaft verändern. Big Data ist aber primär ein wirtschaftliches Thema: Mehr Effizienz für Unternehmen, zielgerichtete Werbung oder Vorhersagen über den Markt, wenn etwa eine Supermarkt-Kette die Äußerungen in sozialen Netzwerken auswertet und ihr Sortiment entsprechend anpasst. „Big Data zu nutzen, wird für Unternehmen zum Schlüsselfaktor für Wettbewerb und Wachstum”, heißt es etwa in einer McKinsey-Studie.

Was ist „Big Data”? Zu groß für Excel

Anschaulich wird das in einem Video der Firma Sqrrl, die unter diesem Namen ein Data-Mining-Tool anbietet. Wir sehen ein Daten-Eichhörnchen, das stapelweise Daten gehortet hat, aber nicht zu nutzen versteht, erklärt der Sprecher. Denn Datenschutz und andere Regulierungen verhindern, dass es die Daten auswerten kann. So bleiben sie im Silo ungenutzt eingesperrt. Doch die Entwickler von Sqrrl haben ein Werkzeug ersonnen, mit dem die Daten angeblich nicht mehr im Silo lagern müssen:

Das Programm „Sqrrl” ist eine kommerzielle Weiterentwicklung des Programms „Accumulo”. Entwickelt hat es der US-Geheimdienst NSA, um große Datenmassen verwalten zu können. Heute steht „Accumulo” als freie Software bereit. Man kann sich das Programm wie einige riesige Tabelle vorstellen – nur dass die Tabelle so groß ist, dass sie nicht als Datei auf einem Rechner am Schreibtisch, sondern übers Internet verteilt gespeichert und bearbeitet wird. Eine weit verbreitete, etwas saloppe Definition von „Big Data” heißt dann auch: Alles, was zu groß für eine Excel-Tabelle ist.

Die „Cell Level Security”, die von den Entwicklern angepriesen wird, erwuchs aus den Anforderungen der Arbeit der NSA: Jede Zelle der Tabelle kann nach Geheimdienstanforderungen klassifiziert werden, also zum Beispiel eine Einstufung als „streng geheim”, „vertraulich” und so weiter erhalten. Damit soll der Schatz von Big Data auch in der freien Wirtschaft gehoben werden – auch wenn Datenschützer durch eine Funktion wie „Cell Level Security” keineswegs beruhigt sein werden.

Mit dem Programm und seinen Auswertungsmöglichkeiten könnten Kundentransaktionen, E-Mail-Verkehr oder Aktivitäten in sozialen Netzwerken überwacht und „verdächtiges“ Verhalten erkannt werden, heißt es in einer Broschüre (PDF) des Unternehmens. Der typische Ansatz dabei: Daten verschiedener Quellen lassen sich kombinieren, statistisch auswerten und korrelieren – und man schaut, was sich ergibt. Gibt es etwa interessante Muster, die weiterverfolgt werden können?

Erst sammeln, später auswerten

„Indem wir Datensätze zusammenbringen, konnten wir mit Accumulo Dinge in den Daten erkennen, die wir nicht entdeckt hätten, wenn wir sie uns unter diesem und jenem Gesichtspunkt angesehen hätten“, erklärte Dave Hurry, Chef der Informatikforschungsabteilung der NSA, der Information Week. Es ist ein Ansatz, der sich im Kern nicht groß von demjenigen unterscheidet, den Google-Forscher vor einigen Jahren in einem Aufsatz über Sprachverarbeitung (PDF) vorschlugen, wenngleich mit anderem Ziel: „Gehen Sie raus, sammeln Sie ein paar Daten und schauen Sie dann, was man damit machen kann“.

Beide Zitate bringen den Paradigmenwechsel zu „Big Data” auf den Punkt. Datenschützer standen dem Konzept lange eher reserviert gegenüber. Denn mit den hergebrachten Grundprinzipen des Datenschutzes in Europa steht der Ansatz auf dem Kriegsfuß. Da wären etwa die Gründsätze der Einwilligung und der Zweckbindung, nach der Nutzer der Sammlung ihrer Daten zustimmen müssen und diese nicht für alle möglichen, sondern nur für genau definierte Zwecke verwendet werden können. Oder der Grundsatz der Erforderlichkeit: Daten sammeln, und später schauen, was man damit machen kann, das geht nicht.

Datenschutz entdeckt Big Data

In letzter Zeit scheint sich ein gewisser Wandel zu vollziehen: Thilo Weichert etwa, Chef des Schleswig-Holsteiner Datenschutzzentrums USD, betont, dass auch „Big Data”-Auswertungen datenschutzkonform möglich seien – wenn etwa die Daten soweit anonymisiert würden, dass sie Rückschlüsse auf einzelne Personen nicht mehr erlaubten. Dahinter steht wohl die Einsicht, dass sich der Trend zu immer größeren Datensammlungen kaum mehr stoppen lässt, weil technische Entwicklung und wirtschaftliche Verwertungsmöglichkeiten stärker wiegen. Weicherts Behörde hat etwa einem System zur Kassenauswertung eines Discounters oder Targeting-Systemen in der Online-Werbung ihr Gütesiegel zuerkannt.

Dennoch stößt „Big Data” nach wie vor auf Skepsis – was man gut oder schlecht finden kann. Glaubt man einer Untersuchung im Auftrag der Deutschen Telekom, dann ist infolge der Enthüllungen im Überwachungs- und Spionageskandal in der Bevölkerung die Bereitschaft zurückgegangen, an umfangreichen Datensammlungen und -auswertungen teilzunehmen, egal ob es staatliche oder privatwirtschaftliche Sammlungen sind. So gaben etwa im Juni noch eine knappe Mehrheit der Befragten an, sie fänden es in Ordnung, wenn Unternehmen Diskussionsforen im Internet auswerten, um Produkte zu verbessern. Im August zeigten sich 57 Prozent, also die Mehrheit der Befragten, kritisch.

Die digitale Spaltung

Die Diskussion über Chancen und Risiken von „Big Data” ist allerdings nicht neu: Danah Boyd, Internetforscherin bei Microsoft, stellt eine neue digitale Spaltung fest. „Wer hat Zugang? Für welche Zwecke? In welchem Zusammenhang? Mit welchen Begrenzungen?” fragt sie in einem Aufsatz. Und der Medienwissenschaftler Lev Manovich sah drei „Daten-Klassen” am Entstehen: Zu den Datenproduzenten gehöre praktisch jeder, der ein Handy besitzt oder das Web benutzt. Es folge die Klasse derjenigen, die die Mittel zum Datensammeln besitzen, noch kleiner aber sei die Gruppe derer, die über Zugang und Fähigkeiten zur Auswertung verfügten.

Nach den Erkenntnissen über Prism, Tempora & Co. lässt sich das Modell um eine weitere Klasse ergänzen: Zwar sitzen IT-Riesen wie Amazon oder Google bereits auf umfangreichen Datenbergen. Die am weitesten entwickelten Geheimdienste aber bilden eine Daten-Superelite. Sie können sich aussuchen, bei welchen IT-Unternehmen sie sich anstöpseln oder wo Internetknoten angebohrt werden. Aber auch innerhalb der Staaten, zwischen Regierungen und Behörden ist eine Spaltung in „Daten-Begüterte” und „Daten-Habenichtse” entstanden, wie der Internet-Rechtsprofessor Peter Swire konstatiert. Wer im technischen Wettrennen vorne liegt, hat Zugang zur Cloud, in der ein immer größerer Teil der Informationen lagert, die früher an anderen Stellen abgegriffen wurden.

Die Autoren Viktor Mayer-Schönberger und Kenneth Cukier sprechen sogar vor einer „Diktatur der Daten”, in der „wir uns von Daten derart regieren lassen, dass es mehr Schaden als Nutzen bringt”. Aber nicht „die Daten” regieren uns, sie sind ein Mittel für verschiedene Zwecke. Wer Zugang zu Daten hat und wer nicht, wer sie wann und wo erhebt, welche Regeln fürs Sammeln und Verarbeiten gelten, welche Rechte Nutzer haben, wer die Mittel zum Auswerten hat – all das wird darüber entscheiden, ob die Segnungen von „Big Data” nur ein Versprechen bleiben oder zum Nutzen für viele eingesetzt werden können.

September 16 2013

Four short links: 16 September 2013

  1. UAV Offers of Assistance in Colorado Rebuffed by FEMAwe were told by FEMA that anyone flying drones would be arrested. [...] Civil Air Patrol and private aircraft were authorized to fly over the small town tucked into the base of Rockies. Unfortunately due to the high terrain around Lyons and large turn radius of manned aircraft they were flying well out of a useful visual range and didn’t employ cameras or live video feed to support the recovery effort. Meanwhile we were grounded on the Lyons high school football field with two Falcons that could have mapped the entire town in less than 30 minutes with another few hours to process the data providing a near real time map of the entire town.
  2. Texas Bans Some Private Use of Drones (DIY Drones) — growing move for govt to regulate drones.
  3. IETF PRISM-Proof Plans (Parity News) — Baker starts off by listing out the attack degree including he likes of information / content disclosure, meta-data analysis, traffic analysis, denial of service attacks and protocol exploits. The author than describes the different capabilities of an attacker and the ways in which an attack can be carried out – passive observation, active modification, cryptanalysis, cover channel analysis, lawful interception, Subversion or Coercion of Intermediaries among others.
  4. Data Mining and Analysis: Fundamental Concepts and Algorithms (PDF) — 650 pages on cluster, sequence mining, SVNs, and more. (via author’s page)

September 13 2013

Four short links: 13 September 2013

  1. Fog Creek’s Remote Work PolicyIn the absence of new information, the assumption is that you’re producing. When you step outside the HQ work environment, you should flip that burden of proof. The burden is on you to show that you’re being productive. Is that because we don’t trust you? No. It’s because a few normal ways of staying involved (face time, informal chats, lunch) have been removed.
  2. Coder (GitHub) — a free, open source project that turns a Raspberry Pi into a simple platform that educators and parents can use to teach the basics of building for the web. New coders can craft small projects in HTML, CSS, and Javascript, right from the web browser.
  3. MillWheel (PDF) — a framework for building low-latency data-processing applications that is widely used at Google. Users specify a directed computation graph and application code for individual nodes, and the system manages persistent state and the continuous ���ow of records, all within the envelope of the framework’s fault-tolerance guarantees. From Google Research.
  4. Probabilistic Scraping of Plain Text Tablesthe method leverages topological understanding of tables, encodes it declaratively into a mixed integer/linear program, and integrates weak probabilistic signals to classify the whole table in one go (at sub second speeds). This method can be used for any kind of classification where you have strong logical constraints but noisy data.

September 12 2013

Four short links: 12 September 2013

  1. Amazon Compute Numbers (ReadWrite) — AWS offers five times the utilized compute capacity of each of its other 14 top competitors—combined. (via Matt Asay)
  2. MIT Educational MMOThe initial phase will cover topics in biology, algebra, geometry, probability, and statistics, providing students with a collaborative, social experience in a systems-based game world where they can explore how the world works and discover important scientific concepts. (via KQED)
  3. Changing Norms (Atul Gawande) — neither penalties nor incentives achieve what we’re really after: a system and a culture where X is what people do, day in and day out, even when no one is watching. “You must” rewards mere compliance. Getting to “X is what we do” means establishing X as the norm.
  4. The Mythologies of Big Data (YouTube) — Kate Crawford at UC Berkeley iSchool. The six months: ‘Big data are new’, ‘Big data is objective’, ‘Big data don’t discriminate’, ‘Big data makes cities smart’, ‘Big data is anonymous’, ‘You can opt out of big data’. (via Sam Kinsley)

September 08 2013

September 05 2013

Four short links: 6 September 2013

  1. In Search of the Optimal Cheeseburger (Hilary Mason) — playing with NYC menu data. There are 5,247 cheeseburgers you can order in Manhattan. Her Ignite talk from Ignite NYC15.
  2. James Burke Predicting the Future — spoiler: massive disruption from nano-scale personal fabbing.
  3. Stanford Javascript Crypto Librarya project by the Stanford Computer Security Lab to build a secure, powerful, fast, small, easy-to-use, cross-browser library for cryptography in Javascript.
  4. The STEM Crisis is a Myth (IEEE Spectrum) — Every year U.S. schools grant more STEM degrees than there are available jobs. When you factor in H-1B visa holders, existing STEM degree holders, and the like, it’s hard to make a case that there’s a STEM labor shortage.

Four short links: 5 September 2013

  1. Bezos at the Post (Washington Post) — “All businesses need to be young forever. If your customer base ages with you, you’re Woolworth’s,” added Bezos.[...] “The number one rule has to be: Don’t be boring.” (via Julie Starr)
  2. How Carnegie-Mellon Increased Women in Computer Science to 42% — outreach, admissions based on potential not existing advantage, making CS classes practical from the start, and peer support.
  3. Summingbird (Github) — Twitter open-sourced library that lets you write streaming MapReduce programs that look like native Scala or Java collection transformations and execute them on a number of well-known distributed MapReduce platforms like Storm and Scalding.
  4. aws-cli (Github) — commandline for Amazon Web Services. (via AWS Blog)

August 23 2013

Four short links: 23 August 2013

  1. Bradley Manning and the Two Americas (Quinn Norton) — The first America built the Internet, but the second America moved onto it. And they both think they own the place now. The best explanation you’ll find for wtf is going on.
  2. Staggering Cost of Inventing New Drugs (Forbes) — $5BB to develop a new drug; and subject to an inverse-Moore’s law: A 2012 article in Nature Reviews Drug Discovery says the number of drugs invented per billion dollars of R&D invested has been cut in half every nine years for half a century.
  3. Who’s Watching You — (Tim Bray) threat modelling. Everyone should know this.
  4. Data Mining with Weka — learn data mining with the popular open source Weka platform.
Older posts are this way If this message doesn't go away, click anywhere on the page to continue loading posts.
Could not load more posts
Maybe Soup is currently being updated? I'll try again automatically in a few seconds...
Just a second, loading more posts...
You've reached the end.

Don't be the product, buy the product!

Schweinderl