Newer posts are loading.
You are at the newest post.
Click here to check if anything new just came in.

February 26 2014

February 19 2014

Sponsored post

February 17 2014

February 10 2014

Four short links: 10 February 2014

  1. Bruce Sterling at transmediale 2014 (YouTube) — “if it works, it’s already obsolete.” Sterling does a great job of capturing the current time: spies in your Internet, lost trust with the BigCos, the impermanence of status quo, the need to create. (via BoingBoing)
  2. No-one Should Fork Android (Ars Technica) — this article is bang on. Google Mobile Services (the Play functionality) is closed-source, what makes Android more than a bare-metal OS, and is where G is focusing its development. Google’s Android team treats openness like a bug and routes around it.
  3. Data Pipelines (Hakkalabs) — interesting overview of the data pipelines of Stripe, Tapad, Etsy, and Square.
  4. Visualising Salesforce Data in Minecraft — would almost make me look forward to using Salesforce. Almost.

February 05 2014

Four short links: 5 February 2014

  1. sigma.js — Javascript graph-drawing library (node-edge graphs, not charts).
  2. DARPA Open Catalog — all the open source published by DARPA. Sweet!
  3. Quantified Vehicle Meetup — Boston meetup around intelligent automotive tech including on-board diagnostics, protocols, APIs, analytics, telematics, apps, software and devices.
  4. AT&T See Future In Industrial Internet — partnering with GE, M2M-related customers increased by more than 38% last year. (via Jim Stogdill)

January 28 2014

Four short links: 28 January 2014

  1. Intel On-Device Voice Recognition (Quartz) — interesting because the tension between client-side and server-side functionality is still alive and well. Features migrate from core to edge and back again as cycles, data, algorithms, and responsiveness expectations change.
  2. Meet Microsoft’s Personal Assistant (Bloomberg) — total information awareness assistant. By Seeing, Hearing, and Knowing All, in the future even elevators will be trying to read our minds. (via The Next Web)
  3. Microsoft Contributes Cloud Server Designs to Open Compute ProjectAs part of this effort, Microsoft Open Technologies Inc. is open sourcing the software code we created for the management of hardware operations, such as server diagnostics, power supply and fan control. We would like to help build an open source software community within OCP as well. (via Data Center Knowledge)
  4. Open Tissue Wiki — open source (ZLib license) generic algorithms and data structures for rapid development of interactive modeling and simulation.

January 22 2014

Four short links: 22 January 2014

  1. How a Math Genius Hacked OkCupid to Find True Love (Wired) — if he doesn’t end up working for OK Cupid, productising this as a new service, something is wrong with the world.
  2. Humin: The App That Uses Context to Enable Better Human Connections (WaPo) — Humin is part of a growing trend of apps and services attempting to use context and anticipation to better serve users. The precogs are coming. I knew it.
  3. Spoiled Onions — analysis identifying bad actors in the Tor network, Since September 2013, we discovered several malicious or misconfigured exit relays[...]. These exit relays engaged in various attacks such as SSH and HTTPS MitM, HTML injection, and SSL stripping. We also found exit relays which were unintentionally interfering with network traffic because they were subject to DNS censorship.
  4. My Mind (Github) — a web application for creating and managing Mind maps. It is free to use and you can fork its source code. It is distributed under the terms of the MIT license.

January 21 2014

Four short links: 21 January 2014

  1. On Being a Senior Engineer (Etsy) — Mature engineers know that no matter how complete, elegant, or superior their designs are, it won’t matter if no one wants to work alongside them because they are assholes.
  2. Control Theory (Coursera) — Learn about how to make mobile robots move in effective, safe, predictable, and collaborative ways using modern control theory. (via DIY Drones)
  3. US Moves Towards Open Access (WaPo) — Congress passed a budget that will make about half of taxpayer-funded research available to the public.
  4. NHS Patient Data Available for Companies to Buy (The Guardian) — Once live, organisations such as university research departments – but also insurers and drug companies – will be able to apply to the new Health and Social Care Information Centre (HSCIC) to gain access to the database, called If an application is approved then firms will have to pay to extract this information, which will be scrubbed of some personal identifiers but not enough to make the information completely anonymous – a process known as “pseudonymisation”. Recipe for disaster as it has been repeatedly shown that it’s easy to identify individuals, given enough scrubbed data. Can’t see why the NHS just doesn’t make it an app in Facebook. “Nat’s Prostate status: it’s complicated.”

January 15 2014

Four short links: 15 January 2014

  1. Hackers Gain ‘Full Control’ of Critical SCADA Systems (IT News) — The vulnerabilities were discovered by Russian researchers who over the last year probed popular and high-end ICS and supervisory control and data acquisition (SCADA) systems used to control everything from home solar panel installations to critical national infrastructure. More on the Botnet of Things.
  2. mclMarkov Cluster Algorithm, a fast and scalable unsupervised cluster algorithm for graphs (also known as networks) based on simulation of (stochastic) flow in graphs.
  3. Facebook to Launch Flipboard-like Reader (Recode) — what I’d actually like to see is Facebook join the open web by producing and consuming RSS/Atom/anything feeds, but that’s a long shot. I fear it’ll either limit you to whatever circle-jerk-of-prosperity paywall-penetrating content-for-advertising-eyeballs trades the Facebook execs have made, or else it’ll be a leech on the scrotum of the open web by consuming RSS without producing it. I’m all out of respect for empire-builders who think you’re a fool if you value the open web. AOL might have died, but its vision of content kings running the network is alive and well in the hands of Facebook and Google. I’ll gladly post about the actual product launch if it is neither partnership eyeball-abuse nor parasitism.
  4. Map Projections Illustrated with a Face (Flowing Data) — really neat, wish I’d had these when I was getting my head around map projections.

January 08 2014

Four short links: 8 January 2014

  1. Launching the Wolfram Connected Devices Project — Wolfram Alpha is cognition-as-a-service, which they hope to embed in devices. This data-powered Brain-in-the-Cloud play will pit them against Google, but G wants to own the devices and the apps and the eyeballs that watch them … interesting times ahead!
  2. How the USA Almost Killed the Internet (Wired) — “At first we were in an arms race with sophisticated criminals,” says Eric Grosse, Google’s head of security. “Then we found ourselves in an arms race with certain nation-state actors [with a reputation for cyberattacks]. And now we’re in an arms race with the best nation-state actors.”
  3. Intel Edison — SD-card sized, with low-power 22nm 400MHz Intel Quark processor with two cores, integrated Wi-Fi and Bluetooth.
  4. N00b 2 L33t, Now With Graphs (Tom Stafford) — open science research validating many of the findings on learning, tested experimentally via games. In the present study, we analyzed data from a very large sample (N = 854,064) of players of an online game involving rapid perception, decision making, and motor responding. Use of game data allowed us to connect, for the first time, rich details of training history with measures of performance from participants engaged for a sustained amount of time in effortful practice. We showed that lawful relations exist between practice amount and subsequent performance, and between practice spacing and subsequent performance. Our methodology allowed an in situ confirmation of results long established in the experimental literature on skill acquisition. Additionally, we showed that greater initial variation in performance is linked to higher subsequent performance, a result we link to the exploration/exploitation trade-off from the computational framework of reinforcement learning.

January 02 2014

The Snapchat Leak

The number of Snapchat users by area code.The number of Snapchat users by area code.

The number of Snapchat users by geographic location. Users are predominately located in New York, San Francisco and the surrounding greater New York and Bay Areas.

While the site crumbled quickly under the weight of so many people trying to get to the leaked data—and has now been suspended—there isn’t really such a thing as putting the genie back in the bottle on the Internet.

Just before Christmas the Australian based Gibson Security published a report highlighting two exploits in the Snapchat API claiming that hackers could easily gain access to users’ personal data. Snapchat dismissed the report, responding that,

Theoretically, if someone were able to upload a huge set of phone numbers, like every number in an area code, or every possible number in the U.S., they could create a database of the results and match usernames to phone numbers that way.

Adding that they had various “safeguards” in place to make it difficult to do that. However it seems likely that—despite being explicitly mentioned in the initial report four months previously—none of these safeguards included rate limiting requests to their server, because someone seems to have taken them up on their offer.

Data Release

Earlier today the creators of the now defunct SnapchatDB site released 4.6 million records—both as an SQL dump and as a CSV file. With an estimated 8 million users (May, 2013) of the app this represents around half the Snapchat user base.

Each record consists of a Snapchat user name, a geographical location for the user, and partially anonymised phone number—the last two digits of the phone number having been obscured.

While Gibson Security’s find_friends exploit has been patched by Snapchat, minor variations on the exploit are reported to still function, and if this data did come from the exploit—or a minor variation on it—uncovered by Gibson, then the dataset published by SnapchatDB is only part of the data the hackers now hold.

In addition to the data already released they would have the full phone number of each user, and as well as the user name they should also have the—perhaps more revealing—screen name.

Data Analysis

Taking an initial look at the data, there are no international numbers in the leaked database. All entries are US numbers, with the bulk of the users from—as you might expect—the greater New York, San Francisco and Bay areas.

However I’d assume that the absence of international numbers is  an indication of laziness rather than due to any technical limitation. For US based hackers it would be easy to iterate rapidly through the fairly predictable US number space, while foreign” numbers formats might present more of a challenge when writing a script to exploit the hole in Snapchat’s security.

Only 76 of the 322 area codes in the United States appear in the leaked database, alongside another two Canadian area codes, mapping to 67 discrete geographic locations—although not all the area codes and locations match suggesting that perhaps the locations aren’t derived directly from the area code data.

Despite some initial scepticism about the provenance of the data I’ve confirmed that this is a real data set. A quick trawl through the data has got multiple hits amongst my own friend group, including some I didn’t know were on Snapchat—sorry guys.

Since the last two digits were obscured in the leaked dataset are obscured the partial phone number string might—and frequently does—generate multiple matches amongst the 4.6 million records against a comparison number.

I compared the several hundred US phone numbers amongst my own contacts against the database—you might want to do that yourself—and generated several spurious hits where the returned user names didn’t really seem to map in any way to my contact. That said, as I already mentioned, I found several of my own friends amongst the leaked records, although I only knew it was them for sure because I knew both their phone number and typical choices of user names.


As it stands therefore this data release is not—yet—critical, although it is certainly concerning, and for some individuals it might well be unfortunate. However if the SnapchatDB creators choose to release their full dataset things might well get a lot more interesting.

If the full data set was released to the public, or obtained by a malicious third party, then the username, geographic location, phone number, and screen name—which might, for a lot of people, be their actual full name—would be available.

This eventuality would be bad enough. However taking this data and cross-correlating it with another large corpus of data, say from Twitter or Gravatar, by trying to find matching user or real names on those services—people tend to reuse usernames on multiple services after all—you might end up with a much larger aggregated data set including email addresses, photographs, and personal information.

While there would be enough false positives—if matching solely against user names—that you’d have a interesting data cleaning task afterwards, it wouldn’t be impossible. Possibly not even that difficult.

I’m not interested in doing that correlation myself. But others will.


December 26 2013

Four short links: 26 December 2013

  1. Nest Protect Teardown (Sparkfun) — initial teardown of another piece of domestic industrial Internet.
  2. LogsThe distributed log can be seen as the data structure which models the problem of consensus. Not kidding when he calls it “real-time data’s unifying abstraction”.
  3. Mining the Web to Predict Future Events (PDF) — Mining 22 years of news stories to predict future events. (via Ben Lorica)
  4. Nanocubesa fast datastructure for in-memory data cubes developed at the Information Visualization department at AT&T Labs – Research. Nanocubes can be used to explore datasets with billions of elements at interactive rates in a web browser, and in some cases it uses sufficiently little memory that you can run a nanocube in a modern-day laptop. (via Ben Lorica)

December 19 2013

Wie weit darf Big Data gehen?

Körperdaten kündigen früh eine Infektion an. Facebook-Likes verraten den IQ der Nutzer. Big-Data-Analysen versprechen neue Erkenntnisse für Wissenschaft und Wirtschaft. Warum von einer Revolution zu sprechen ist, erläutert der Internetforscher Viktor Mayer-Schönberger im Interview. In Ihrem Buch beschreiben Sie, wie die Analyse großer Datenmengen aus allen Lebensbereichen bestimmte Zusammenhänge erst sichtbar macht. So weiß etwa die US-Supermarktkette Walmart, dass ein bestimmter Frühstückssnack immer dann besonders nachgefragt wird, wenn ein Unwetter droht. Welche Zusammenhänge haben Sie bei Ihren Recherchen am meisten überrascht?


Viktor Mayer-Schönberger ist Professor für Internet Governance und -Regulierung am Oxford Internet Institute. Jüngst erschien sein Buch „Big Data. Die Revolution, die unser Leben verändern wird“ (gemeinsam mit Kenneth Cukier, Redline Verlag). Foto: Privat

Viktor Mayer-Schönberger: Besonders eindrücklich fand ich die Arbeiten von Dr. Carolyn McGregor an der Uniklinik in Toronto, die in den Daten der Vitalfunktionen von Frühgeborenen Muster erkennen konnte, die mit hoher Wahrscheinlichkeit eine Infektion vorhersagen, 24 Stunden bevor noch erste Symptome auftreten. Das hilft in Zukunft ganz unmittelbar Menschenleben zu retten. Die neue Verfügbarkeit von großen Datenmengen und kostengünstiger Analysetechnik machen prinzipiell neuartige Prognosen möglich. Welchen Einfluss haben diese Vorhersagen auf das Wirtschaftsleben und was wäre möglich?

Viktor Mayer-Schönberger: Schon heute erlaubt uns Big Data, menschliches Verhalten relativ gut vorherzusagen. Das ist hilfreich in der Planung und für bessere Entscheidungen. Denn Tatsache ist, dass wir bis zu Big Data viel weniger Daten über unser wirtschaftliches Handeln hatten, als wir glaubten. Bessere Vorhersehbarkeit bedeutet geringeres Risiko – und das wiederum bedeutet geringere Volatilität. Die Märkte wären damit also weniger starken Schwankungen ausgesetzt. Eine Vorhersage der Börsenkurse, worauf manche hoffen, ist freilich in weiter Ferne, denn dazu ist die Vorhersage des Verhaltens sehr vieler Entscheidungsträger notwendig, und das ist auch in absehbarer Zukunft nicht zu stemmen. Neben ökonomischen Chancen verspricht Big Data Fortschritte für die Allgemeinheit. Wo können die Analysen segensreich sein?

Viktor Mayer-Schönberger: Big Data kann uns in vielen Bereichen nutzen. In der Medizin kann Big Data zum Beispiel helfen, zu einer individualisierten und personalisierten Diagnose und Behandlung zu gelangen, die noch nicht möglich ist – wir nehmen ja heute immer noch die Standard-Dosis von Medikamenten, obwohl jeder Mensch und jeder Krankheitsfall anders ist. In der Bildung können wir mit Big Data die Chance haben, endlich besser zu verstehen, welche Lernmaterialen und Lernwerkzeuge, aber auch Lernkontexte für welche Lerngruppen optimal sind. Sie betonen, dass Big-Data-Analysen zwar Zusammenhänge aufzeigen, nicht aber über ihre Ursachen Aufschluss geben. Daraus leiten Sie eine „Abwendung von der jahrtausendealten Suche nach kausalen Zusammenhängen“ ab. Umgekehrt ließe sich doch auch argumentieren, die neuen Big-Data-Beobachtungen verleihen der Suche nach ihren Ursachen erst einen neuen Schub…

Viktor Mayer-Schönberger: Beides ist zutreffend. Aber der Kernpunkt ist: Wir müssen nicht mehr für alles Kausalzusammenhänge ermittelt haben, bevor wir daraus Einsichten gewinnen und Handlungsanweisungen ableiten können. Das Online-Versandhaus Amazon muss nicht wissen, warum manche Bücher mir empfohlen werden sollen und andere nicht – es reicht für Amazon, wenn ich relativ häufig aus den mir empfohlenen Büchern welche kaufe. Die Gesundheitsbehörden müssen auch nicht wissen, warum Internetsuchen mit der Verbreitung der Grippe korrelieren – wie Google Flu Trends es gezeigt hat. Es reicht zu wissen, dass anhand der Suchabfragen die Grippeverbreitung vorhergesagt werden kann.

Das ist insofern auch von Vorteil, weil wir in der Vergangenheit oftmals weniger erfolgreich in der Ursachenforschung waren, als wir glaubten, und uns mit Scheinursachen zufrieden gegeben haben. Hier zu verstehen, dass das „Was“ bereits hilfreich ist, und das „Warum“ danach kommen kann, aber nicht immer muss, erlaubt uns auch etwas demütiger zu sein. Es lehrt uns zu akzeptieren, dass wir weniger von der Welt wissen als wir glauben.

Black Box der Big-Data-Prognosen Nun hat die Wissenschaft schon lange mit statistischen Methoden gearbeitet, um Erkenntnisse zu überprüfen oder erst zu gewinnen. Warum sprechen Sie in Punkto Big Data gleich von einer Revolution und nicht von einer Evolution?

Viktor Mayer-Schönberger: Weil bisher das Sammeln und Auswerten von Daten sehr zeitaufwändig und kostenintensiv war, und wir deshalb all unsere Mechanismen und Institutionen, unsere Verfahren, darauf ausgelegt haben, Antworten auf unsere Fragen aus der geringstmöglichen Menge an Daten zu gewinnen. Das bedeutet aber auch, dass wir nur jene Fragen beantworten konnten, die uns schon vor der Sammlung der Daten bekannt waren. Stehen hingegen nahezu alle Daten eines Phänomens zur Verfügung, können wir damit auch Fragen beantworten, die bei Sammlung noch gar nicht offenkundig waren.

Das ist tatsächlich ein anderer Ansatz. Es werden nicht mehr basierend auf einer Theorie Hypothesen erdacht und dann mit Daten geprüft. Hypothesen können jetzt parametrisch generiert und getestet werden. Statt also bloß eine bestimmte Hypothese zu bestätigen,  können wir aus einer großen Menge an Hypothesen die optimale finden. Nun gibt es Zusammenhänge in den Daten, die intuitiv Unwohlsein hervorrufen. So ergibt etwa eine britische Untersuchung von „Gefällt mir“-Angaben auf Facebook: Fans der Motorradmarke Harley Davidson weisen eher einen niedrigeren IQ auf. Besteht die Gefahr, dass unser digitales Profil uns stigmatisiert und schließlich dazu genutzt wird, uns zu diskriminieren?

Viktor Mayer-Schönberger: Ja, diese Gefahr besteht – insbesondere wenn dank Big Data die Analyse genauer wird und damit nicht mehr so leicht vom Tisch gewischt werden kann. Es bedarf klarer gesetzlicher und gesellschaftlicher Rahmenbedingungen, wie weit Big Data gehen darf, und für welche Zwecke eine Anwendung nicht oder nur unter ganz bestimmten Bedingungen zulässig ist. Was ist, wenn wir gar nicht bemerken, wie sich Algorithmen auf Entscheidungen auswirken. Vielleicht wundern wir uns irgendwann: „Warum bekomme ich keinen Kredit?“ Oder: „Warum lädt mich niemand zum Vorstellungsgespräch ein?“ Muss der Einsatz von Big-Data-Erkenntnissen in sensiblen Lebensbereichen transparent gemacht werden?

Viktor Mayer-Schönberger: Ja, es muss mehr Transparenz geben – wobei wir selbst als Betroffene mit der formalen Transparenz nicht viel anfangen können werden, weil die Zusammenhänge zu komplex sind. Dafür brauchen wir eine eigene neue Gruppe an Experten – die Algorithmiker – die diese Black Box der Big-Data-Prognosen für Betroffene öffnen können, um die Vorhersage in ihrem Namen einer Überprüfung zuzuführen.

„Wir verstecken uns heute schon” Big Data kann helfen, die Lebensrisiken des Einzelnen besser einzuschätzen – etwa die Wahrscheinlichkeit eines Autounfalls, einer Sucht oder einer Krebs-Erkrankung. Versicherungskonzerne könnten diese Erkenntnisse nutzen und bei höheren Risiken höhere Prämien verlangen. Gerät so das Solidaritätsprinzip von Versicherungen in Gefahr?

Viktor Mayer-Schönberger: Das ist eine konkrete Gefahr. Auch hier müssen wir wohl gesetzliche Maßnahmen ergreifen, die es Versicherungen verbieten, mittels Big-Data-Analyse zwischen den einzelnen Menschen zu differenzieren. Denkbar wäre auch, dass Menschen auf ihren Datenschatten besser Acht geben, weil sie die Analyse fürchten. Um nicht „dumm“ zu wirken, könnten sie eben auf den „Like“ der Motorradmarke Harley Davidson verzichten – um in diesem einfachen Beispiel zu bleiben. Führen die Big-Data-Analysen bald zur Unfreiheit des Einzelnen, zum großen Versteckspiel vor den Maschinen?

Viktor Mayer-Schönberger: Wir verstecken uns heute schon ganz regelmäßig – nicht vor der Maschine, sondern vor den anderen. Menschen schauen links und rechts, ob jemand sie beobachtet, bevor sie ein Stück Papiermüll einfach auf den Boden fallen lassen. Das Versteckspiel ist also uralt und geht natürlich auch in Zukunft weiter. Wer auf die Ergebnisse einer Big-Data-Analyse vertrauen möchte, sollte deshalb zusehen, dass dafür nur „Honest Signals“ verwendet wurden, also Signale, die zu fälschen aufwändig ist. Das Sammeln von Daten ist auch eine große Wette auf die Zukunft. Google und Facebook könnten dank ihrer datenbasierten Prognose-Fähigkeiten irgendwann sagen: Jetzt steigen wir in den Aktienhandel ein oder in die Personalvermittlung. Muss der Staat die großen Daten-Sammler von heute präventiv regulieren, damit sie nicht zu Monoplisten in allen möglichen Geschäftsfeldern aufsteigen?

Viktor Mayer-Schönberger: Ja, das muss er – nicht primär wegen der Datenmonopole, obwohl es auch diese zu vermeiden gilt, sondern um zu verhindern, dass Big-Data-Infrastrukturen geschaffen werden, die nur unter großem Aufwand rückgebaut werden können. Denken Sie an die Datencenter der NSA. Setzt mit dem NSA-Skandal nun das große Nachdenken über Big Data ein?

Viktor Mayer-Schönberger: Das hoffe ich – auch wenn die NSA nur die Spitze des Eisbergs ist. Mit unserem Buch wollten wir jedenfalls einen Beitrag zur Diskussion leisten.

December 16 2013

Four short links: 16 December 2013

  1. Suro (Github) — Netflix data pipeline service for large volumes of event data. (via Ben Lorica)
  2. NIPS Workshop on Data Driven Education — lots of research papers around machine learning, MOOC data, etc.
  3. Proofist — crowdsourced proofreading game.
  4. 3D-Printed Shoes (YouTube) — LeWeb talk from founder of the company, Continuum Fashion). (via Brady Forrest)

December 10 2013

Four short links: 10 December 2013

  1. ArangoDBopen-source database with a flexible data model for documents, graphs, and key-values. Build high performance applications using a convenient sql-like query language or JavaScript extensions.
  2. Google’s Seven Robotics Companies (IEEE) — The seven companies are capable of creating technologies needed to build a mobile, dexterous robot. Mr. Rubin said he was pursuing additional acquisitions. Rundown of those seven companies.
  3. Hebel (Github) — GPU-Accelerated Deep Learning Library in Python.
  4. What We Learned Open Sourcing — my eye was caught by the way they offered APIs to closed source code, found and solved performance problems, then open sourced the fixed code.

December 09 2013

Four short links: 9 December 2013

  1. Reform Government Surveillance — hard not to view this as a demarcation dispute. “Ruthlessly collecting every detail of online behaviour is something we do clandestinely for advertising purposes, it shouldn’t be corrupted because of your obsession over national security!”
  2. Brian Abelson — Data Scientist at the New York Times, blogging what he finds. He tackles questions like what makes a news app “successful” and how might we measure it. Found via this engaging interview at the quease-makingly named Content Strategist.
  3. StageXL — Flash-like 2D package for Dart.
  4. BayesDBlets users query the probable implications of their data as easily as a SQL database lets them query the data itself. Using the built-in Bayesian Query Language (BQL), users with no statistics training can solve basic data science problems, such as detecting predictive relationships between variables, inferring missing values, simulating probable observations, and identifying statistically similar database entries. Open source.

December 07 2013

Wie man Aufwieglern mit Metadaten auf die Spur kommt

Mithilfe einer tragbaren Rechenmaschine ist es mir gelungen, unter knapp 260 verdächtigen Personen in den Kolonien den Gefährder Paul Revere auszumachen. Eine Demonstration der neuesten Errungenschaften auf dem Gebiete der Rechenkunſt.

London, 1772

Meine Vorgesetzten ersuchten mich, kurz und knapp die vortreffliche Leistungsfähigkeit der simpelsten Methoden der neumodischen sozialen Netzwerkanalyse zu demonstrieren, mit der wir jenen auf die Spur kommen können, die danach trachten, die von den Untertanen Seiner Majestät genossene Freiheit zu unterminieren.

Dies steht im Zusammenhang mit der Debatte über die Rolle von „Metadaten“ bei gewissen Vorkommnissen in jüngerer Vergangenheit und der Versicherung verschiedener respektabler Beteiligter, dass die Regierung nichts weiter täte, als „diese sogenannten Metadaten zu durchsieben“ und dass „mit den gesammelten Daten nicht die Inhalte der Gespräche erfasst würden“. Ich werde zeigen, wie wir diese „Metadaten“ nutzen können, um Schlüsselgestalten aufzuspüren, die sich in terroristischen Gruppen betätigen, welche derzeit in den Kolonien ihr Unwesen treiben. Ich werde mich auch darum bemühen, darzulegen, wie diese Methoden in einer Art und Weise wirken, die man als relational bezeichnen könnte.

Die Analyse in diesem Bericht beruht auf den Daten, die unser Repräsentant vor Ort – Mr. David Hackett ­Fischer – sammelte und im Anhang seines ausführlichen Berichts an die Regierung veröffentlichte. Wie Sie vielleicht wissen, ist Mr. Fischer ein angesehener Repräsentant mit breiten und fundierten Kenntnissen über die Kolonien. Ich selbst dagegen habe mich hochgearbeitet; in Irland hatte ich nur eine kurze quantitativ-methodische Ausbildung absolviert und während meiner Zeit in Cambridge rangierte ich in der Bestenliste der Mathematikstudenten der höheren Semester mehrere hundert Plätze hinter dem Erstplatzierten.

Jetzt arbeite ich als analytischer Skri­bent von niederem Rang in der guten alten National Security Agency – ich bitte um Nachsicht, ich meine natürlich die Royal Security­ Agency (RSA). Und ich möchte nicht versäumen, nochmals kundzutun, dass ich nichts über die derzeitigen Vorkommnisse in den Kolonien weiß. Unsere aktuelle, in diesem unseren 18. Jahrhundert entwickelte Beta-Version von PRISM wurde jedoch dazu genutzt, Daten von knapp 260 mehr oder weniger verdächtigen Personen, die sieben verschiedenen Organisationen im Raum Boston angehören, zu sammeln und zu analysieren.

Seien Sie versichert, dass wir ausschließlich Metadaten über diese Personen sammelten, dass keine Gespräche auf Versammlungen mitgeschrieben wurden. Meine Kenntnisse beschränken sich darauf, ob jemand Mitglied einer Organisation war oder nicht. Das ist doch nun wirklich nur ein kleiner Eingriff in die Freiheitsrechte der Untertanen der Krone! Ich wurde beauftragt, anhand dieser spärlichen Daten einige Namen herauszufinden, denen unsere Repräsentanten in den Kolonien nachgehen können. Dies scheint eine nicht ganz leichte Aufgabe.

Wenn Sie das ganze Unterfangen mit verfolgen wollen, gibt es ein geheimes Repositorium, in dem alle Daten und entsprechenden Befehle für Ihre tragbare Rechenmaschine enthalten sind. Und so sehen unsere Daten aus (siehe Tab. 1):

St Andrews LodgeLoyal NineNorth CaucusLong Room ClubTea PartyBoston Commit teeLondon Enemies Adams. John0011000 Adams. Samuel0011011 Allen. Dr.0010000 Appleton. Nathaniel0010010 Ash. Gilbert1000000 Austin. Benjamin0000001 Austin. Samuel0000001 Avery. John0100001 Baldwin. Cyrus0000001 Ballard. John0010000

Tabelle 1: Mitgliedschaften in Organisationen

In den Spalten sind die Organisationen aufgelistet und in den Zeilen die Namen der Personen. Die Mitgliedschaft wird durch eine „1“ angezeigt. Also ist ein gewisser Samuel Adams (wer auch immer er sein mag) Mitglied im North Caucus, im Long Room Club, im Boston Committee und bei der London Enemies List. Ich muss sagen, dass die Namen dieser Organisationen recht kampfeslustig klingen.

Was können wir aus diesen dürftigen Metadaten überhaupt erschließen? Diese Tabelle ist groß und sperrig und ich bin nur ein kleiner Angestellter in der guten alten RSA, weshalb ich mich nur schlichter Mittel bedienen kann. Ich bin ziemlich sicher, dass meinen Vorgesetzten viel ausgereiftere analytische Methoden zur Verfügung stehen. Ich folge nun einer Methode, die mein hervorragender einstmaliger Kollege Ron Breiger in einer Abhandlung mit dem Titel „The Duality of Persons and Groups“ dargelegt hat. Er verfasste dieses Papier vor etwa 35 Jahren als Doktorand in Harvard. (Sie erinnern sich vielleicht, dass Harvard in den Kolonien als Universität angesehen war. Egal.)

In dem Papier wird das beschrieben, was heute als Grundmethode der Datenrepräsentation gilt, mit der Daten über Verbindungen zwischen Menschen und anderen Dingen dargestellt werden – wie etwa die Teilnahme an Veranstaltungen oder die Mitgliedschaft in Gruppierungen. In dieser neuen Wissenschaft geht es in der Tat fast immer darum, was man über Personen ausschließlich anhand von Metadaten aussagen kann, ohne auf Äußerungen dieser Personen einzugehen.

Mr. Breigers Erkenntnis bestand darin, dass unsere Tabelle aus 254 Zeilen und sieben Spalten eine sogenannte Nachbarschafts- oder Adjazenzmatrix ist und dass ein wenig Multiplikation Daten hervorbringen kann, die in der Tabelle stecken, aber möglicherweise nur schwer zu erkennen sind. Nimmt man diese Matrix und dreht sie so um, dass die Zeilen zu Spalten werden und umgekehrt, so hat man zwei Tabellen oder Matrizen: Erstens eine 254×7-Tabelle, in der die Namen in Zeilen den Organisationen in Spalten gegenüberstehen. Zweitens eine 7×254-Tabelle, in der die Organisationen in Zeilen und die Namen in Spalten dargestellt sind.

Nennen wir die erste Adjazenzmatrix A und die transponierte Matrix AT. Nun gibt es, wie Sie sich vielleicht erinnern, Regeln für die Multiplikation von Matrizen. Das Ausmultiplizieren von A(AT) ergibt eine große Matrix von 254 Zeilen und 254 Spalten, in der sowohl die Zeilen als auch die Spalten Personen sind und die Ziffern in den Zellen die Anzahl der Organisationen angibt, in denen beide Männer des jeweiligen Personenpaares Mitglied sind. Ist das nicht wunderbar? Ich habe immer das Gefühl, diese Opera­tion grenzt an Zauberei, insbesondere weil sie damit einhergeht, eine Hand von oben nach unten und die andere von links nach rechts zu bewegen, was einer Beschwörungsgeste ähnelt.

Ich kann Ihnen die gesamte Personen-gegenüber-Personen-Matrix nicht zeigen, weil ich Sie damit erschlagen würde. Nur ein Scherz, nur ein Scherz! Aber sie ist tatsächlich ziemlich groß. Sehen Sie hier einen kleinen Ausschnitt davon (siehe Tab. 2). Wir können eine solche 254×254-Matrix als Bigge Data bezeichnen. Ich werde demnächst einen EDWARDx-Vortrag darüber halten. Sie sollten kommen!

Zurück zur Matrix:

Adams. JohnAdams. SamuelAllen. Dr.Appleton. Nathaniel Adams. John-211 Adams. Samuel2-12 Allen. Dr.11-1 Appleton. Nathaniel121- Ash. Gilbert0000 Austin. Benjamin0100

Tabelle 2: Personen-gegenüber-Personen-Matrix

Man sieht, dass Mr. Appleton und Mr. John Adams dadurch miteinander verbunden sind, dass sie beide derselben Organisation angehören, während Mr. John Adams und Mr. Samuel Adams sogar in zwei unserer sieben Gruppen gemeinsam Mitglied sind. Mr. Ash stand dagegen mit keinem der vier erstgenannten Männer durch Mitgliedschaft in derselben Organisation in Verbindung.

Führen Sie sich das noch einmal vor Augen! Wir begannen nicht mit einem sozialen Netzwerk, in dem Einzelpersonen miteinander verbunden sind. Unser Ausgangspunkt war eine Liste von Mitgliedschaften in mehreren Organisationen. Aber jetzt haben wir plötzlich ein soziales Netzwerk von Einzelpersonen, in dem die Verbindung durch die gemeinsame Mitgliedschaft in einer Organisation definiert ist. Das ist ein wahrlich großmächtiger Zaubertrick.

Und dabei fangen wir gerade erst an. Bei der Multiplikation von Matrizen ist zu beachten, dass die Reihenfolge eine Rolle spielt; es ist daher nicht wie bei der Multiplikation von zwei Zahlen. Wenn wir bei der Multiplikation die transponierte Matrix an die erste Stelle setzen, bekommen wir ein anderes Ergebnis. Aus dieser Multiplikation ergibt sich eine 7×7-Matrix der Organisationen. Die Ziffern in den Zellen zeigen, wie viele Personen jedes Organisationspaar gemeinsam hat. Und das sieht dann so aus. Da diese Tabelle klein ist, können wir sie in ihrer Gesamtheit betrachten.

St Andrews LodgeLoyal NineNorth CaucusLong Room ClubTea PartyBoston Commit-teeLondon Enemies St Andrews Lodge-132305 Loyal Nine1-50508 North Caucus35-8151120 Long Room Club208-155 Tea Party35151-510 Boston Committee001155-14 London Enemies582051014-

Tabelle 3: Verbindungen zwischen Organisationen

Auch interessant! Statt zu sehen, welche Personen durch gemeinsame Mitgliedschaft in Organisationen miteinander verbunden sind, sehen wir hier, welche Organisationen durch Personen miteinander verbunden sind, die beiden Gruppierungen angehören. Personen sind also durch Gruppen, denen sie angehören, miteinander verbunden. Gruppen sind durch die Personen, die sie gemeinsam haben, miteinander verbunden. Das ist die im Titel von Mr. Breigers Abhandlung genannte „Dualität von Personen und Gruppen“.

Statt sich nur auf Tabellen zu stützen, können wir auch ein Bild der Beziehungen zwischen den Gruppen malen, indem wir die Anzahl der gemeinsamen Mitglieder als Index der Stärke der Verbindung zwischen den aufwieglerischen Gruppen nutzen. Das sieht dann so aus:


Natürlich können wir auch die Verbindungen zwischen den Personen auf diese Weise darstellen, indem wir die 254×254-Tabelle nutzen. Daraus ergibt sich folgendes Bild:


Was für ein schönes Bild! Die Rechenmaschine hat alle Personen übersichtlich angeordnet und dabei Cluster von Individuen entdeckt. Es werden sowohl am Rand stehende Personen gezeigt als auch – viel spannender! – Menschen, die eine Verbindung zwischen verschiedenen Gruppen herstellen und daher für die nationale Sicherheit relevant sein könnten. Sehen Sie die Person, die ganz in der Mitte steht. Dieser Mann scheint auf ungewöhnliche (wenn auch vielleicht nicht einzigartige) Weise eine Brücke über mehrere Gruppen zu schlagen. Sein Name ist Paul Revere.

Paul Revere (1734-1818) war Silberschmied, Buchdrucker, Grafiker und US-ameri­kanischer Revolutionär. Seine Rolle als Nachrichtenkurier für die „Bostoner Patrioten” im Unabhängkeitskrieg machte ihn später zum Nationalhelden. Bekannt wurde auch sein Kupferstich des „Boston Massacre” (s.o.). Porträt: John Singleton Copley.

Paul Revere (1735-1818) war Silberschmied, Buchdrucker, Grafiker und US-ameri­ka­­nischer Revolutionär. Seine Rolle als Nachrichtenkurier für die „Bostoner Patrioten” im Unabhängkeitskrieg machte ihn zum Nationalhelden. Bekannt wurde auch sein Kupferstich des „Boston Massacre” (s.o.).

Ich möchte Sie nochmals daran erinnern, dass ich nichts über Mr. Revere weiß, weder über seine Gespräche noch über seine Gewohnheiten, Überzeugungen und auch seine Schriften (wenn es denn welche geben sollte). Alles, was ich weiß, ist dieses Quäntchen an Metadaten. Und doch scheint meine Rechenmaschine aus unseren 254 Namen ihn als Person von besonderem Interesse herausgefischt zu haben.

Wir müssen uns hier nicht mit einem Bild begnügen. Jetzt, wo wir unsere Tabelle ausgewertet haben, um eine „Person-gegenüber-Person“-Matrix zu erzeugen, können wir weitere Operationen durchführen: Zentralitätsmaße berechnen; her­ausfinden, ob es Banden und Rotten gibt und andere Muster untersuchen. Beispielsweise könnten wir für jede Person in unserer Matrix ein „Intermediations-Zentralitätsmaß” errechnen, das ungefähr der Anzahl der kürzesten Wege zwischen jeweils zwei Personen in unserem Netzwerk entspricht, die über die verdächtige Person verlaufen. Es ist eine Fragestellung der Art „Wenn ich von Person A zu Person Z muss, wie wahrscheinlich ist es, dass der kürzeste Weg über Person X verläuft?“ Hier die höchsten Intermediationsmaße für unsere Liste mutmaßlicher Terroristen.

>round(btwn.person[ind][1:10].0) Revere. PaulUrann. ThomasWarren. JosephPeck. Samuel 3839218518171150 Barber. NathanielCooper. WilliamHoffins. JohnBass. Henry 931931931852 Chase. ThomasDavis. Caleb 852852

Tabelle 4: Betweenness-Zentralität

Vielleicht sollte ich ja nicht so voreilig von Terroristen reden. Aber Sie verstehen sicherlich, dass die Versuchung groß ist. Und siehe da – hier ist wieder unser Mr. Revere! Sehr interessant! Es gibt auch raffiniertere Wege als diesen, die Wichtigkeit einer Person in einem Netzwerk zu messen. Beispielsweise ist da die sogenannte „Eigenvektor-Zentralität”, über die mir meine Freunde aus der Naturphilosophie erzählen, sie sei ein kleiner Teil der Mathematik, der vermutlich nie eine praktische Anwendung in der weiten Welt finden werde. Man kann sie sich als ein Maß der Zentralität vorstellen, das durch die Verbindung zu anderen zentralen Personen gewichtet wird. Unsere Spitzenreiter nach diesem Maß sind:

>round(cent.eig$vector[ind][1:10].2) Barber. NathanielHoffins. JohnCooper. WilliamRevere. Paul 1,001,001,000,99 Bass. HenryDavis. CalebChase. ThomasGreenleaf. William 0,950,950,950,95 Hopkins. CalebProctor. Edward 0,950,90

Tabelle 5: Eigenvektor-Zentralität

Auch hier erscheint unser Mr. Revere neben einigen anderen verdächtigen Personen oben auf der Liste. Als letzte Demonstration widme ich mich kurz der Berechnung von Macht und Zentralität nach Bonacich, einem höher entwickelten Messverfahren. Hier zeigt ein niedrigerer Wert eine zentrale Stellung an.

>round(cent.bonpow[ind][1:10].2) Revere. PaulUrann. ThomasWarren. JosephProctor. Edward -1,51-1,44-1,42-1,40 Barber. NathanielHoffins. JohnCooper.WilliamPeck. Samuel -1,36-1,36-1,36-1,33 Davis. CalebChase. Thomas -1,31-1,31

Tabelle 6: Bonacich-Zentralität

Und wieder taucht Mr. Revere – neben den Herren Urann, Proctor und Barber – ziemlich weit oben auf unserer Liste auf.

Da haben wir es. Aus einer Tabelle über die Mitgliedschaft in verschiedenen Gruppen lassen sich diverse Dinge eruieren: ein Bild des sozialen Netzwerks zwischen Individuen, Hinweise auf den Grad der Verbundenheit zwischen Organisationen und einige klare Anhaltspunkte, wer in diesem Zusammenhang die wichtigsten Akteure sind. Und all das – wirklich alles! – anhand von ein paar Metadaten.

Ich möchte den meinen Auftragsrahmen nicht überschreiten, aber ich muss Sie doch bitten, sich vorzustellen, was möglich sein könnte, wenn wir erst in der Lage wären, Daten über sehr viel mehr Menschen zu sammeln und Daten aus verschiedenen Arten von Verbindungen zwischen Menschen zusammenzufassen! Denn die hier von mir beschriebenen einfachen Methoden sind auf andere Analysen übertragbar; ihre Leistungsfähigkeit wird mit dem Umfang und der Bandbreite der zu verarbeitenden Daten noch besser erkennbar. Wir müssten nicht wissen, was zwischen den Individuen geflüstert wurde, nur dass sie auf verschiedene Arten miteinander verbunden sind. Die Rechenmaschine würde den Rest erledigen!

Ich wage daher zu behaupten, dass die Form und Struktur der sozialen Beziehungen nach und nach aus unseren Berechnungen ersichtlich werden, zuerst lediglich als Umriss, aber schließlich immer deutlicher und zum Schluss in wunderschönen Einzelheiten – wie ein großes, lautloses Schiff, das aus dem grauen Nebel Neuenglands auftaucht. Ich räume ein, dass es neben der Möglichkeit, etwas Interessantes herauszufinden, auch dazu kommen könnte, dass sich suggestive, aber letztlich unrichtige und irreführende Muster herauskristallisieren. Ich glaube aber, dass diese Problematik gewiss durch größere und bessere Datenmengen weitgehend ausgeräumt werden wird.

Momentan verfügen wir noch nicht über die für eine automatische Sammlung der nötigen Daten erforderlichen Werkzeuge. Aber ich sage es noch einmal: Wenn ein bloßer Schreiberling wie ich die einfachsten dieser Methoden einsetzen kann, um den Namen eines Verräters wie Paul Revere unter 254 anderen Namen herauszupicken – indem er sich nichts weiter als eine Liste von Mitgliedschaften und eine tragbare Rechenmaschine zunutze macht – dann stelle man sich nur vor, welche Waffen uns in ein oder zwei Jahrhunderten zum Schutze der Freiheit zur Verfügung stehen werden.

foto_kieran-healyKieran Healy ist Professor für Soziologie an der Duke University in Durham, North Carolina und arbeitet unter anderem am Duke Network Analysis Center. Zu seinen Veröffentlichungen gehört „Last Best Gifts, Altruism and the Market for Human Blood and Organs”. Der Artikel erschien zuerst auf, aus dem Englischen von Ina Goertz.

Dieser Text ist auch im Magazin „Das Netz – Jahresrückblick Netzpolitik 2013-2014“ erschienen. Sie können das Heft für 14,90 EUR bei iRights.Media bestellen. „Das Netz – Jahresrückblick Netzpolitik 2013-2014“ gibt es auch als E-Book, zum Beispiel bei Amazon*, beim Apple iBook-Store* (Affiliate-Link) oder bei Beam.

December 06 2013

Four short links: 6 December 2013

  1. Society of Mind — Marvin Minsky’s book now Creative-Commons licensed.
  2. Collaboration, Stars, and the Changing Organization of Science: Evidence from Evolutionary BiologyThe concentration of research output is declining at the department level but increasing at the individual level. [...] We speculate that this may be due to changing patterns of collaboration, perhaps caused by the rising burden of knowledge and the falling cost of communication, both of which increase the returns to collaboration. Indeed, we report evidence that the propensity to collaborate is rising over time. (via Sciblogs)
  3. As Engineers, We Must Consider the Ethical Implications of our Work (The Guardian) — applies to coders and designers as well.
  4. Eyewire — a game to crowdsource the mapping of 3D structure of neurons.

December 05 2013

Four short links: 5 December 2013

  1. DeducerAn R Graphical User Interface (GUI) for Everyone.
  2. Integration of Civil Unmanned Aircraft Systems (UAS) in the National Airspace System (NAS) Roadmap (PDF, FAA) — first pass at regulatory framework for drones. (via Anil Dash)
  3. Bitcoin Stats — $21MM traded, $15MM of electricity spent mining. Goodness. (via Steve Klabnik)
  4. iOS vs Android Numbers (Luke Wroblewski) — roundup comparing Android to iOS in recent commerce writeups. More Android handsets, but less revenue per download/impression/etc.

December 03 2013

Four short links: 3 December 2013

  1. SAMOA — Yahoo!’s distributed streaming machine learning (ML) framework that contains a programming abstraction for distributed streaming ML algorithms. (via Introducing SAMOA)
  2. madliban open-source library for scalable in-database analytics. It provides data-parallel implementations of mathematical, statistical and machine-learning methods for structured and unstructured data.
  3. Data Portraits: Connecting People of Opposing Views — Yahoo! Labs research to break the filter bubble. Connect people who disagree on issue X (e.g., abortion) but who agree on issue Y (e.g., Latin American interventionism), and present the differences and similarities visually (they used wordclouds). Our results suggest that organic visualisation may revert the negative effects of providing potentially sensitive content. (via MIT Technology Review)
  4. Disguise Detection — using Raspberry Pi, Arduino, and Python.
Older posts are this way If this message doesn't go away, click anywhere on the page to continue loading posts.
Could not load more posts
Maybe Soup is currently being updated? I'll try again automatically in a few seconds...
Just a second, loading more posts...
You've reached the end.
No Soup for you

Don't be the product, buy the product!

YES, I want to SOUP ●UP for ...