Newer posts are loading.
You are at the newest post.
Click here to check if anything new just came in.

February 13 2014

Four short links: 13 February 2014

  1. The Common Crawl WWW Ranking — open data, open methodology, behind an open ranking of the top sites on the web. Preprint paper available. (via Slashdot)
  2. Felton’s Sensors (Quartz) — inside the gadgets Nicholas Felton uses to quantify himself.
  3. Myo Armband (IEEE Spectrum) — armband input device with eight EMG (electromyography) muscle activity sensors along with a nine-axis inertial measurement unit (that’s three axes each for accelerometer, gyro, and magnetometer), meaning that you get forearm gesture sensing along with relative motion sensing (as opposed to absolute position). The EMG sensors pick up on the electrical potential generated by muscle cells, and with the Myo on your forearm, the sensors can read all of the muscles that control your fingers, letting them spy on finger position as well as grip strength.
  4. Bitcoin Exchanges Under Massive and Concerted Attack — he who lives by the network dies by the network. a DDoS attack is taking Bitcoin’s transaction malleability problem and applying it to many transactions in the network, simultaneously. “So as transactions are being created, malformed/parallel transactions are also being created so as to create a fog of confusion over the entire network, which then affects almost every single implementation out there,” he added. Antonopoulos went on to say that Blockchain.info’s implementation is not affected, but some exchanges have been affected – their internal accounting systems are gradually going out of sync with the network.

January 30 2014

Four short links: 30 January 2014

  1. $200k of Spaceships Destroyed (The Verge) — More than 2,200 of the game’s players, members of EVE’s largest alliances, came together to shoot each other out of the sky. The resultant damage was valued at more than $200,000 of real-world money. [...] Already, the battle has had an impact on the economics and politics of EVE’s universe: as both side scramble to rearm and rebuild, the price of in-game resource tritanium is starting to rise. “This sort of conflict,” Coker said, “is what science fiction warned us about.”
  2. Google Now Has an AI Ethics Committee (HufPo) — sorry for the HufPo link. One of the requirements of the DeepMind acquisition was that Google agreed to create an AI safety and ethics review board to ensure this technology is developed safely. Page’s First Law of Robotics: A robot may not block an advertisement, nor through inaction, allow an advertisement to come to harm.
  3. Academic Torrentsa scalable, secure, and fault-tolerant repository for data, with blazing fast download speeds built on BitTorrent.
  4. Hack Schools Meet California Regulators (Venturebeat) — turns out vocational training is a regulated profession. Regulation meets disruption, annihilate in burst of press releases.

January 21 2014

Four short links: 21 January 2014

  1. On Being a Senior Engineer (Etsy) — Mature engineers know that no matter how complete, elegant, or superior their designs are, it won’t matter if no one wants to work alongside them because they are assholes.
  2. Control Theory (Coursera) — Learn about how to make mobile robots move in effective, safe, predictable, and collaborative ways using modern control theory. (via DIY Drones)
  3. US Moves Towards Open Access (WaPo) — Congress passed a budget that will make about half of taxpayer-funded research available to the public.
  4. NHS Patient Data Available for Companies to Buy (The Guardian) — Once live, organisations such as university research departments – but also insurers and drug companies – will be able to apply to the new Health and Social Care Information Centre (HSCIC) to gain access to the database, called care.data. If an application is approved then firms will have to pay to extract this information, which will be scrubbed of some personal identifiers but not enough to make the information completely anonymous – a process known as “pseudonymisation”. Recipe for disaster as it has been repeatedly shown that it’s easy to identify individuals, given enough scrubbed data. Can’t see why the NHS just doesn’t make it an app in Facebook. “Nat’s Prostate status: it’s complicated.”

December 23 2013

Four short links: 23 December 2013

  1. DelFly Explorer — 20 grams, 9 minutes of autonomous flight, via barometer and new stereo vision system. (via Wayne Radinsky)
  2. Banning Autonomous Killing Machines (Tech Republic) — While no autonomous weapons have been built yet, it’s not a theoretical concern, either. Late last year, the U.S. Department of Defense (DoD) released its policy around how autonomous weapons should be used if they were to be deployed in the battlefield. The policy limits how they should operate, but definitely doesn’t ban them. (via Slashdot)
  3. Scientific Data Lost at Alarming Rate — says scientific paper PUBLISHED BEHIND A PAYWALL.
  4. Security of Browser Extension Password Managers (PDF) — This research shows that the examined password managers made design decisions that greatly increase the chance of users unknowingly exposing their passwords through application-level flaws. Many of the flaws relate to the browser-integrated password managers that don’t follow the same-origin policy that is crucial to browser security. In the case of password managers, this means that passwords could be filled into unintended credential forms, making password theft easier.

December 19 2013

Art of the State – Von der Kunst, staatliche Werke in Gebrauch zu nehmen

Staatliche Werke sind in Deutschland urheberrechtlich geschützt, auch wenn sie mit Steuergeldern finanziert wurden. Das muss nicht sein, wie das Beispiel USA zeigt. 

Das Urheberrecht schützt nicht nur die Arbeitsleistung des privaten Autors, auch staatliche Werke werden davon erfasst: von der Rede der Bundeskanzlerin auf einem Festbankett bis hin zum Gutachten der Bundesnetzagentur. Für alle diese urheberrechtlich geschützten Werke gilt, dass jede Nutzung, Verbreitung oder Bearbeitung einer Genehmigung bedarf. Diese Genehmigung kann sich entweder aus dem Urheberrecht selbst ergeben, zum Beispiel in Form des Zitatrechts, oder sie ergibt sich aus der Einräumung von Nutzungsrechten durch Urheber oder Rechteinhaber.

Fragt man nach dem Zweck des Urheberrechts insgesamt, geht es meist um den Schutz des Urhebers, um die Sicherung seiner finanziellen Existenz und um die Schaffung von Anreizen für die Entstehung neuer Werke. Keiner dieser Gründe erklärt, warum staatliche Werke urheberrechtlich geschützt sind. Niemand glaubt, dass ein Gesetz dadurch besser, gerechter oder sorgfältiger formuliert würde, wenn es ausreichend lange urheberrechtlich geschützt wäre. Und in der Tat findet sich im deutschen Urheberrechtsgesetz in Paragraf 5 zu „amtlichen Werken“ eine entsprechende Vorschrift, die Gesetze, Verordnungen, Erlasse und Urteile vom urheberrechtlichen Schutz ausnimmt. Das Gesetz wird aber sehr eng ausgelegt, sodass alle anderen staatlichen Werke unters Urheberrecht fallen.

Dass es auch anders geht, zeigt ein Blick über den Atlantik. Alle Werke von US-amerikanischen Bundesangestellten sind urheberrechtlich nicht geschützt und können beliebig nachgenutzt werden. Das gilt auch für Fotos von NASA-Astronauten und führte dazu, dass mit dem Foto „Earthrise“ ein Bild entstehen konnte, das nicht nur zu den meist ­reproduzierten Werken der Menschheitsgeschichte zählt, sondern den Blick auf unseren Planeten ganz entscheidend geprägt hat. Ohne diese Freigabe hätte das Bild wahrscheinlich nie so weit verbreitet.

Der Staat nutzt den urheberrechtlichen Schutz zu systemwidrigen Zwecken

Wie nutzt der Staat den urheberrechtlichen Schutz? Er tut dies manchmal zu systemwidrigen Zwecken, die keinesfalls der Intention des Urheberrechts entsprechen. Ein besonders prominenter Fall im Jahr 2013 war die Abmahnung und später die Einreichung einer Klage gegen die WAZ-Mediengruppe (inzwischen Funke-Mediengruppe) wegen der Veröffent­lichung einer Reihe von „Unterrichtungen des Parlaments“. Die Bundeswehr erstellt diese über ihre Auslandseinsätze, stuft sie jedoch als Verschlusssache ein.

Das Verteidigungsministerium stützte seinen Anspruch auf die Löschung der Daten aus dem Internet einzig auf den urheberrechtlichen Schutz dieser Berichte, wie das Blog Netzpolitik.org berichtete. Eine solche Indienstnahme des Urheberrechts zu rein politischen Zwecken ist in einer freiheitlichen Gesellschaft sehr bedenklich und hat deshalb den Argwohn der Journalistenverbände erregt. Der Deutsche Journalisten-Verband kritisiert die Klage als einen Einschüchterungsversuch gegen Journalistinnen und Journalisten, die ihren Informa­tionsauftrag gegenüber der Öffentlichkeit ernst nehmen.

Open-Government-Initiativen bleiben bloße Lippenbekenntnisse, wenn man sich in diesem Zusammenhang nicht ebenfalls über das Schutzniveau von Werken verständigt, die der Staat beauftragt hat oder die in öffentlichen Einrichtungen vorgehalten werden. Bislang verwiesen Bedenkenträger stets auf die Einnahmen, die dem Staat durch eine liberalere Haltung in der Freigabepolitik entgingen. In den letzten 18 Monaten hat Wikimedia Deutschland Parlamentarier verschiedener Parteien gebeten, durch kleine Anfragen die jeweiligen Landesregierungen und die Bundesregierung nach Zahlen dazu zu bitten, insbesondere zu den Einnahmen aus der Einräumung von Nutzungsrechten an Dritte.

Für den Bund und die Länder war das Ergebnis ernüchternd. Gemessen am Gesamthaushalt, dem Aufwand zur Erstellung der jeweiligen Werke und den Kosten für das Aushandeln von individuellen Nutzungsverträgen sind die Einnahmen verschwindend gering. Selbst wenn man großzügig alle Buchungen und Abkommen mit bundeseigenen Unternehmen hinzunimmt, machen diese Einnahmen im Jahr 2013 einen Bruchteil des Bundeshaushalts aus: lediglich 5,7 Millionen Euro.

Wenn es die künftige Bundesregierung mit Open Data ernst meint, wird sie ihre Liebe für die Gemeinfreiheit amtlicher Werke entdecken müssen. Ein kleiner Eingriff – die Ausweitung von Paragraf 5 des Urheberrechtsgesetzes auf mehr staatliche Werke als bisher – wäre kostenneutral, verwaltungsentlastend und würde mit einem Federstrich eine große Zahl an Werken in die allgemeine Nachnutzbarkeit überführen.

Foto: Nina Gerlach, CC BY-SA

Foto: Nina Gerlach, CC BY-SA

Mathias Schindler ist seit 2003 Autor bei Wikipedia. 2004 gründete er zusammen mit anderen Wikipedianern in Berlin den Verein Wikimedia Deutschland und gehörte seitdem mehrfach dem ehrenamtlichen Vorstand als Beisitzer an. Er ist heute Mitglied im Communications Committee der Wikimedia Foundation und hilft dort bei der Pressearbeit. In seiner Freizeit bloggt er unter anderem auf Netzpolitik.org. Seit 2009 arbeitet er als Projektmanager für Wikimedia Deutschland. 

Dieser Text ist auch im Magazin „Das Netz – Jahresrückblick Netzpolitik 2013-2014“ erschienen. Sie können das Heft für 14,90 EUR bei iRights.Media bestellen. „Das Netz – Jahresrückblick Netzpolitik 2013-2014“ gibt es auch als E-Book, zum Beispiel bei Amazon*, beim Apple iBook-Store* oder bei Beam.
* Affiliate-Link

December 04 2013

Four short links: 4 December 2013

  1. Skyjack — drone that takes over other drones. Welcome to the Malware of Things.
  2. Bootstrap Worlda curricular module for students ages 12-16, which teaches algebraic and geometric concepts through computer programming. (via Esther Wojicki)
  3. Harvestopen source BSD-licensed toolkit for building web applications for integrating, discovering, and reporting data. Designed for biomedical data first. (via Mozilla Science Lab)
  4. Project ILIAD — crowdsourced antibiotic discovery.

November 28 2013

November 26 2013

Lizzy Jongma: Das digitale Publikum ist für Museen wichtig

Lizzy Jongma ist Datenmanagerin am Rijksmuseum in Amsterdam. Sie rät Kultureinrichtungen zur Öffnung digitalisierter Bestände auch für kommerzielle Nutzung, weist der Mediathek Europeana eine wichtige Rolle zu, auch für Open Data, und setzt auf langfristige Effekte, die das digitale Publikum den Museen und Sammlungen bringt.

Anlässlich der Konferenz „Zugang gestalten“* befragt iRights.info die Expertin für die Online-Präsentation von kulturellem Erbe zu den Herausforderungen der Digitalisierung.

iRights.info: Das staatliche Rijksmuseum hat Teile seiner Bestände digitalisiert und zur freien, auch kommerziellen Nutzung bereitgestellt. Welche Hürden mussten dafür genommen werden?

Lizzy JongmaLizzy Jongma: Die erste große Herausforderung betraf uns selbst: Wir mussten uns von unseren gewohnten Denkweisen verabschieden und auch von unseren Geschäftsmodellen, die auf dem Bilderverkauf beruhten. Die zweite Herausforderung waren all die rechtlichen Fragen, die wir zu berücksichtigen hatten. Das heißt, wir mussten buchstäblich alle Gesetze lesen, die für Museen maßgeblich sind, und wir mussten unseren kompletten Bestand durchgehen. Wir können ja nur das copyright-freie Material benutzen. Zurzeit haben wir zahlreiche Debatten mit Entleihern. Sie haben zwar keine rechtliche Handhabe, doch einige wollen keine Kunstwerke mehr ausleihen, wenn wir von diesen hochaufgelöste Bilder online stellen.

iRights.info: Wie reagieren die Politiker, die für Museen zuständig sind?

Lizzy Jongma: Mit den Politikern ist es schwierig. Einerseits loben sie uns für die Öffnung unserer Bestände ins Digitale und preisen unser Vorgehen gerne an. Andererseits ändern sie die Urheberrechtsgesetze nicht. Bei Kunstwerken geht es ohnehin schon sehr streng zu, was die Prüfung der Rechtslage betrifft. Für uns bedeutet die jetzige Situation, dass wir zwar die großen Kunstwerke des goldenen Zeitalters zeigen können, doch unsere Sammlungen des 20. Jahrhunderts bleiben fürs Digitale praktisch gesperrt und damit unsichtbar. Ich befürchte, zukünftige Generationen erfahren niemals etwas über die moderne Kunst des 20. Jahrhunderts, weil sie im Internet nichts dazu finden werden.

iRights.info: Mit der Beteiligung an der digitalen Mediathek Europeana sind Sie auf europäischer Ebene aktiv – wie beurteilen Sie dieses Projekt?

Lizzy Jongma: Europeana hat uns beim Implementieren der öffentlichen Lizenzen (CC Zero) und bei vielen rechtlichen Diskussionen enorm geholfen. Wir wollten unsere Bestände öffnen und sie unterstützten uns bei der Wahl der Lizenzen. Sie berieten uns auch bezüglich der Wahrung unserer Rechte. Zudem nutzt Europeana zahlreiche Bilder von uns für ihre Facebook- und Pinterest-Auftritte und das sorgt für sehr viele Besuche auf unsere Website. Insofern ist die Europeana ein wichtiger Partner für das Rijksmuseum.

iRights.info: Hat die Europeana das Potenzial, noch mehr für Open Access zu leisten?

Lizzy Jongma: Ja, die Europeana hat großes Potenzial, Open Access voranzubringen. Die europäischen Kultureinrichtungen sollten sich ihr mehr zuwenden, denn sie hat großartige Pläne. Die Botschaft der Europeana ist, dass die alten Geschäftsmodelle des Bilderverkaufs im digitalen Zeitalter nicht mehr funktionieren und wir uns öffnen müssen, um von zukünftigen Generationen gesehen zu werden. Doch diese Botschaft muss noch tiefer ins Bewusstsein der Kulturinstitutionen eindringen.

iRights.info: Erfährt die Europeana europaweit genügend Aufmerksamkeit und Unterstützung?

Lizzy Jongma: So betrachtet muss ich sagen: nein. Allerdings kümmern sie sich dort auch um zu viele Projekte gleichzeitig.

iRights.info: In Deutschland erklärten vor kurzem fünf bedeutende Kultureinrichtungen, ihre Sammlungen für Open Access zu öffnen – allerdings erlauben sie kommerzielle Nutzung nur gegen Entgelt. Auf diese Weise wollen sie ihre Aufwände für die Digitalisierung refinanzieren. Was halten Sie davon?

Lizzy Jongma: Damit schließt man sich von Anbietern wie Wikipedia, Facebook, Pinterest, Twitter und so weiter aus. Wir hingegen wollen, dass man unsere Sammlungen auch auf diesen kommerziellen Plattformen sieht und benutzt. Dafür mussten wir auf unser alleiniges Recht zur kommerziellen Nutzung verzichten. So büßen wir zwar Umsatz ein, weil wir die Bilder nicht mehr verkaufen. Doch Einbußen hatten wir zuvor auch schon, durch Piraterie. Wenn man beispielsweise nach Johannes Vermeers’ „Dienstmagd mit Milchkrug“ (Het Melkmeisje) googelt, stößt man auf tausende Webshops, die das Werk auf Leinwand oder in anderer Form anbieten. Doch für uns zählen die langfristigen Effekte. Gerade weil unsere Sammlungen offen zugänglich sind, kommen die Leute von überall auf der Welt, um unser Museum zu besuchen. Und weil wir die digitalisierten Werke frei anbieten, melden sich viele, die uns fördern und bei der Digitalisierung finanziell unterstützen wollen.

iRights.info: Was sind aus Ihrer Sicht die drei dringlichsten nächsten Schritte, um den Zugang zu den digitalen Archiven der Gedächtnisorganisationen zu verbessern und zu erweitern?

Lizzy Jongma: Wir brauchen mehr solche Entwicklungen wie im Rijksmuseum. So können andere Einrichtungen sehen, dass man durch die Freigabe digitaler Sammlungen relevant ist und gewinnen kann. Zudem ist mehr Aufklärung darüber erforderlich, wie wichtig das digitale Publikum für Museen ist. Es gilt, Sammlungen nicht hinter komplizierten Suchwerkzeugen zu verstecken und keine niedrig aufgelösten Bilder auf die Website zu stellen. Die jeweiligen Kultureinrichtungen müssen technisch kompetenter werden, etwa bezüglich der Darstellungsqualitäten digitaler Bilder und der beschreibenden Meta-Informationen über ihre Sammlungen. Auch sollte sich die Zusammenarbeit zwischen Institutionen und Politik verbessern. Wir alle können so viel voneinander lernen, etwa von erfolgreichen Praxisbeispielen. Nicht zuletzt ist mehr Geld für das Digitalisieren notwendig, wobei dieses wiederum Hand in Hand mit den zuvor genannten Entwicklungen gehen muss.

iRights.info: Angenommen, es gibt 2015 und 2020 weitere „Zugang gestalten“-Konferenzen, wo werden wir europaweit Ihrer Meinung nach stehen?

Lizzy Jongma: Das ist sehr schwer zu sagen. In drei Jahren wird die digitale Welt wohl komplett anders aussehen als heute. Es ist zu hoffen, dass noch mehr Einrichtungen offenen und freien Zugang bieten und dass wir dann noch viel mehr über die Qualität der digitalen Sammlungen reden. Denn momentan sind wir zwar alle dabei, unsere Bestände zu öffnen, doch wir denken zu wenig über die Qualität und die Brauchbarkeit der offen zugänglichen Daten nach. Ein großer Teil der verfügbaren Werke ist technisch und visuell unzulänglich und enthält kaum verwertbare Beschreibungsdaten. Darüber hinaus interessiere ich mich sehr für semantische Verknüpfungen. Denn bisher ist das Freigeben eine sehr isolierte Angelegenheit: Man öffnet seine Sammlung und das war’s. Viel interessanter finde ich die zusätzlichen Informationen und die Beziehungen, die sich in den digitalen Räumen herstellen lassen. Ich hoffe also, dass wir schon bald unsere Sammlungen noch besser miteinander vernetzen.

* Die Konferenz „Zugang gestalten. Mehr Verantwortung für das kulturelle Erbe“  findet am 28. und 29. November in Berlin statt. iRights.Lab gehört zu den Veranstaltern. Als eine der zahlreichen Referenten geht Lizzy Jongma näher auf die Open Data-Strategie und die offene Datenbank-Schnittstelle (API) ein, die sie – neben vielen weiteren Projekten und der Website – für das Rijksmuseum in Amsterdam betreut.

Four short links: 26 November 2013

  1. The Death and Life of Great Internet Cities“The sense that you were given some space on the Internet, and allowed to do anything you wanted to in that space, it’s completely gone from these new social sites,” said Scott. “Like prisoners, or livestock, or anybody locked in institution, I am sure the residents of these new places don’t even notice the walls anymore.”
  2. What You’re Not Supposed To Do With Google Glass (Esquire) — Maybe I can put these interruptions to good use. I once read that in ancient Rome, when a general came home victorious, they’d throw him a triumphal parade. But there was always a slave who walked behind the general, whispering in his ear to keep him humble. “You are mortal,” the slave would say. I’ve always wanted a modern nonslave version of this — a way to remind myself to keep perspective. And Glass seemed the first gadget that would allow me to do that. In the morning, I schedule a series of messages to e-mail myself throughout the day. “You are mortal.” “You are going to die someday.” “Stop being a selfish bastard and think about others.” (via BoingBoing)
  3. Neural Networks and Deep Learning — Chapter 1 up and free, and there’s an IndieGogo campaign to fund the rest.
  4. What We Know and Don’t KnowThat highly controlled approach creates the misconception that fossils come out of the ground with labels attached. Or worse, that discovery comes from cloaked geniuses instead of open discussion. We’re hoping to combat these misconceptions by pursuing an open approach. This is today’s evolutionary science, not the science of fifty years ago We’re here sharing science. [...] Science isn’t the answers, science is the process. Open science in paleoanthropology.

November 19 2013

Faire Entscheidung dank Fair Use

Google verletzt nicht die Rechte von Autoren und Verlagen, indem es deren Bücher einscannt und auszugsweise zugänglich macht. Das hat am Donnerstag ein New Yorker Gericht unter Berufung auf die amerikanische Fair Use Doktrin entschieden. Ein Erfolg für die Informationsfreiheit, der jedoch die Durchsetzbarkeit von Urheberrechten bei neuen Verwertungsmodellen in Frage stellt. 

Viele Internetnutzer kennen und lieben Google Books. Dort können sie eine gigantische Datenbank von mittlerweile über 20 Millionen Büchern nach Stichworten durchsuchen, und neben den Angaben zu Buchtitel, Verlag, Autor usw. auch Auszüge aus den gefundenen Werken („Snippets“) lesen. Der Service wird rege genutzt, doch nur wenige, die in dem digitalen Archiv stöbern, wissen, dass das Google Book Project (GBP) Gegenstand eines erbitterten Gerichtsverfahrens ist, das sich bereits über acht Jahre zieht.

Im Jahr 2005 gingen eine Reihe einzelner Autoren und die „Authors Gilde“ in den USA gegen Google vor, weil sie fanden, dass die Nutzung von Büchern im Rahmen des GBP ihre Urheberrechte verletze. Google habe Millionen von Büchern eingescannt, digitale Kopien an Bibliotheken weitergegeben, Bücherinformationen auf seiner Webseite gezeigt, und Textabschnitte zugänglich gemacht. All das sei ohne die Zustimmung der Rechteinhaber erfolgt. Und Google sei auch nicht bereit, Autoren und Verlage für diese Nutzung zu bezahlen.

Zähe Verhandlungen seit 2005

Drei Jahre nach Prozessbeginn schlossen die Parteien einen Vergleich, der unter anderem einen zentralen Rechte-Wahrnehmungsmechanismus vorsah. Damit wollten sie Vergütungsansprüche für Rechteinhaber schaffen, ohne dass Google für jedes einzelne Werk Nutzungsrechte erwerben oder sichern müsste. Da es sich um eine so genannte Sammelklage handelte, hätte sich der vorgeschlagene Vergleich grundsätzlich auch auf Werke ausgewirkt, deren Rechteinhaber mit der Überlassung an Google nicht einverstanden gewesen wären. Solche Rechteinhaber hätten ihre Bücher allerdings im Einzelfall vom Vergleich ausschließen können („Opt-Out“). Trotz dieser Möglichkeit des Opt-Outs war der Vergleich auf vehemente Kritik gestoßen, unter anderem von Seiten europäischer Rechteinhaber, die behaupteten, dass ihre Interessen  nicht angemessen berücksichtigt würden.

Tatsächlich brachte der Vergleich einige rechtliche Probleme mit sich. Insbesondere war fraglich, ob die Sammelklage – und damit der Vergleich – die betroffenen Personenkreise hinreichend eindeutig identifizierte (sogenannte „Class Certification“). Dies bestätigte schließlich der zuständige Richter am Federal District Court for the Southern District of New York nach Vorlage einer modifizierten Vergleichsversion von Ende 2009. Die Entscheidung wurde indes Anfang Juli 2013 vom Berufungsgericht auf Googles Einspruch hin kassiert; dem District Court wurde nun aufgegeben, zunächst zu prüfen, ob Googles Gebrauch der Bücher nicht bereits nach der amerikanischen Fair Use Doktrin gerechtfertigt sei, in welchem Fall das Problem der Class Certification und letztlich die Sammelklage sich ohnehin erledigt hätten.

Das Urteil des District Court: Google haftet nicht für Urheberrechtsverletzung

Vor diesem Hintergrund musste der District Court nun eingehend prüfen, ob die angeblichen Urheberrechtsverletzungen durch die Prinzipien des Fair Use gerechtfertigt sind. Tatsächlich berührt das GBP mehrere zum Urheberrecht gehörende Rechte, namentlich die Rechte zur Vervielfältigung, zur Verbreitung und zur öffentlichen Darstellung („Public Display“). Fair Use stellt eine sogenannte “affirmative defense” dar: Wenn eine Handlung, die die genannten Rechte eigentlich verletzt, als Fair Use angesehen wird, gilt sie als rechtmäßig, und die Inhaber der Rechte an den betroffenen Werken können weder Unterlassung noch einen finanziellen Ausgleich verlangen.

Generell ist Fair Use eine im US-amerikanischen Urheberrechtsgesetz verankerte, offen ausgestaltete Ausnahmeregelung, deren Anwendbarkeit vom Einzelfall abhängt. Ob eine Handlung Fair Use ist, wird mittels einer Abwägung von vier Faktoren beurteilt. Maßstäbe für die Bewertung der Nutzung sind: der Zweck und die Art der Nutzung – wobei es maßgeblich darauf ankommt, ob diese „transformative“ (also umgestaltend) ist -, die Art des geschützten Werkes, das Ausmaß der Nutzung im Vergleich zu dem gesamten Werk, und die Auswirkung der Nutzung auf potenzielle Märkte und Verwertungsmöglichkeiten oder auf den kommerziellen Wert des Werkes.

Zunächst schilderte der District Court ausführlich die Vorteile des GBP für Wissenschaftler, Bibliotheken, Menschen mit Lesebehinderungen und für die Allgemeinheit. Die vier Fair Use-Faktoren würden alle in eine für Google günstige Richtung weisen: Die Nutzung sei „highly transformative“, weil die Indexierung von Bücher und Texten diese für Leser und Wissenschaftler auffindbar gemacht habe. Zudem seien die Bücher durch die Digitalisierung zu elektronisch nutzbaren und nützlichen Quellen für Textanalyse oder Data Mining geworden. Darüber hinaus könne das Anzeigen von Snippets das Lesen des vollständigen Buches nicht ersetzen.

Kommerzielle Motive nicht maßgeblich

Die Tatsache, dass Google profitgetrieben sei, sei im Ergebnis nicht maßgeblich. Fair Use setze eine nicht-kommerzielle Nutzung nicht zwingend voraus. Jedenfalls habe Google die digitalen Scans nicht verkauft, und auf den Google Books-Seiten sei keine Werbung geschaltet. Die Nutzung sei also bloß indirekt kommerziell. Google habe zwar gesamte Bücher eingescannt und verwertet, aber auch dies schließe Fair Use nicht von vornherein aus. Schließlich habe das GBP keine negativen Auswirkungen auf das Verwertungspotenzial geschützter Werke, da bestehende Märkte für Bücher nicht beeinträchtigt würden. Vielmehr habe Google den Verkauf von Büchern sogar gefördert, weil eventuelle Käufer zuweilen erst durch Google Books davon erfahren würden, dass bestimmte Werke überhaupt existieren.

Google hafte auch nicht für die Überlassung von digitalen Kopien an Bibliotheken. Die Bücher seien ohnehin im Besitz der Bibliotheken, und Google habe den Bibliotheken die Scans lediglich zur Verfügung gestellt, damit diese sie zu Zwecken verwenden könnten, die ihrerseits Fair Use darstellten – also zum Beispiel zur elektronischen Indexierung ihrer Bestände. Im Ergebnis hat das Gericht nach Anwendung aller Fair Use-Maßstäbe zu Gunsten von Google entschieden und die Nutzung im Rahmen des GBP ohne Einschränkung als Fair Use anerkannt.

Wie ein roter Faden ziehen sich durch das gesamte Urteil Verweise auf die Vorteile des GBP für die Wissenschaft und die Informationsgesellschaft insgesamt. Der Zweck des Urheberrechts, wie er bereits in der Verfassung der Vereinigten Staaten verankert ist, sei die Förderung des kreativen Schaffens, wovon die Allgemeinheit schließlich profitieren solle. Das Gericht hat das GBP als technologisches Instrument betrachtet, das genau diesem Zweck diene, und daher nicht durch Verbotsrechte gehemmt werden sollte.

Für Google hätte das Verfahren nicht besser ausgehen können. Seit Anfang des Rechtsstreits hatte das Unternehmen mit Nachdruck versucht, gemeinsam mit Rechteinhabern ein Vergütungsmodell zu erarbeiten, wohlwissend, dass die Fair Use-Verteidigung allein möglicherweise nicht ausreichen würde. Nach Scheitern der Vergleichsverhandlungen und mit dem nun ergangenen Urteil hat Google kaum noch Gründe, Autoren für die Nutzung ihrer Werke zu kompensieren.

Technologieentwickler schaffen innovative Nutzungsarten für Werke und damit neue Verwertungsmöglichkeiten. Die Botschaft des District Courts ist klar: Von dem neuen Geldtopf profitieren zunächst diejenigen technologisch kompetenten Unternehmen, die solche Nutzungsarten entwickeln und auf den Markt bringen. Im Fair Use-Jargon sind zum Beispiel Nutzungen wie die Anzeige von Snippets oder verkleinerten Versionen von Bildern (Thumbnails) in den Suchergebnissen einer Suchmaschine hochgradig umgestaltend und deshalb legitim.

Gesetzgeberische Lösung und internationale Kooperation sind erwünscht

Vor diesem Hintergrund ist der Frust der Rechteinhaber nachvollziehbar. Schließlich genießen sie kraft Gesetzes Rechte an den Werken, die Gegenstand all dieser neuen Nutzungsarten sind. In einer Pressemitteilung hat die Autorengilde bereits angekündigt, in Berufung gehen zu wollen. Viel mehr können Autoren und Verlage augenblicklich nicht tun, selbst wenn sie sich in Teilen der Erde befinden, wo es einen Rechtsbegriff wie Fair Use überhaupt nicht gibt.

An den Vorteilen des GBP für Forscher und Leser kann nicht gezweifelt werden. Dessen Potenzial ist aber noch viel größer: Technisch betrachtet kann Google mit einem Knopfdruck diesen ganzen Wissensschatz nicht nur auszugsweise, sondern sogar im Volltext für alle Internetnutzer zugänglich machen. Dies würde allerdings den Rahmen des Fair Use sprengen, weshalb die Vision einer globalen Online-Bibliothek weiterhin utopisch scheint.

Der Weg bis zur Verwirklichung des Gesamtpotenzials der Bücherdigitalisierung ist noch lang. Massengerichtsverfahren und privatrechtliche Vereinbarungen scheinen der falsche Weg zu sein. Vielmehr sollte es eine gesetzgeberische Lösung geben, in der auch den Ansprüchen der Rechteinhaber Rechnung getragen wird. In Anbetracht der grenzübergreifenden Auswirkungen einer solchen Lösung, und hinsichtlich der erwünschten Beteiligung von möglichst zahlreichen Autoren am Projekt, werden dabei eine internationale Zusammenarbeit und wahrscheinlich auch völkerrechtliche Lösungsansätze unentbehrlich sein.

Zohar Efroni ist in New York zugelassener Rechtsanwalt und forscht zu Immaterialgütern und Internetrecht. Er ist Lehrbeauftragter an der juristischen Fakultät der Humboldt Universität in Berlin und an der Dualen Hochschule Baden Württemberg in Stuttgart.

November 18 2013

Four short links: 18 November 2013

  1. The Virtuous Pipeline of Code (Public Resource) — Chicago partnering with Public Resource to open its legal codes for good. “This is great! What can we do to help?” Bravo Chicago, and everyone else—take note!
  2. Smithsonian’s 3D Data — models of 21 objects, from a gunboat to the Wright Brothers’ plane, to a wooly mammoth skeleton, to Lincoln’s life masks. I wasn’t able to find a rights statement on the site which explicitly governed the 3D models. (via Smithsonian Magazine)
  3. Anki’s Robot Cars (Xconomy) — The common characteristics of these future products, in Sofman’s mind: “Relatively simple and elegant hardware; incredibly complicated software; and Web and wireless connectivity to be able to continually expand the experience over time.” (via Slashdot)
  4. An Empirical Evaluation of TCP Performance in Online GamesWe show that because TCP was originally designed for unidirectional and network-limited bulk data transfers, it cannot adapt well to MMORPG traffic. In particular, the window-based congestion control and the fast retransmit algorithm for loss recovery are ineffective. Furthermore, TCP is overkill, as not every game packet needs to be transmitted in a reliably and orderly manner. We also show that the degraded network performance did impact users’ willingness to continue a game.

November 05 2013

Deutsche Digitale Bibliothek jetzt mit API

Seit knapp einem Jahr steht die Deutsche Digitale Bibliothek als Betaversion online, seit Montag nun bietet sie auch eine API an. Über die Schnittstelle können Entwickler Daten aus dem Katalog der DDB auslesen und für weitere Anwendungen verwenden.

Was in der Welt der Softwareprojekte und Plattformen kaum erwähnenswert wäre – die pure Existenz einer Schnittstelle –, ist bei Bibliotheken und anderen Kultureinrichtungen noch eine Besonderheit. Wie auch bei offenen Daten in Politik und Verwaltung gilt: Wertvolle Metadaten „einfach so” und maschinenlesbar herauszugeben, stellt nicht nur technische und rechtliche Fragen. Es steht auch für einen Kulturwandel: Da könnte ja jeder kommen und die Daten verwenden. Bei der Deutschen Digitalen Bibliothek kann jetzt jeder kommen.

Metadaten unter CC-Zero-Widmung

Weitergenutzt werden können die Metadaten der DDB unter den Bedingungen der Creative-Commons-Zero-Widmung, was einem Verzicht auf alle Rechte entspricht. Zwar ist ein einzelnes Datum für sich nicht schutzfähig, mit der „CC0”-Widmung stellt die DDB aber klar, dass auch die Datenbank nicht eigens geschützt werden soll.

Allerdings stehen nicht alle Metadaten der DDB unter CC0, nur die entsprechend lizenzierten sind über die API ansprechbar. Hintergrund: Ausgenommen wurden diejenigen Datensätze, die neben Erschließungsinformationen auch Beschreibungen von Werken und Objekten enthalten. Da solche Beschreibungen urheberrechtlich geschützt sein können, fehlen diese Datensätze vorerst. Auf Nachfrage erklärt die DDB, dass auch diese Datensätze zugänglich gemacht werden sollen, indem Erschließungs- und Beschreibungsinformationen getrennt werden.

Bibliotheken und Museen mit APIs

Wie sich die Daten nutzen lassen, zeigen andere Projekte von Bibliotheken und Kultureinrichtungen. Naheliegend ist es etwa, die Daten in weitere Kataloge aufzunehmen oder mit Geodaten und Karten zu kombinieren – der Idee nach nichts anderes als die Erweiterung des klassischen Bibliothekskatalogs, der zeigt, was sich wo finden lässt. Die aus einem Wettbewerb resultierende (und noch rudimentäre) DPLA Map der Digital Public Library of America zum Beispiel zeigt an, was sich an Werken mit Bezug auf den eigenen Standort in der digitalen Bibliothek findet:

dplamap-berlin

Wo die Metadaten mit den Inhalten selbst kombiniert werden können, sind Anwendungen wie „Vistory” vom Rijksmuseum Amsterdam möglich. Das Programm zeigt unter anderem an, welche historischen Filmszenen in der Nähe gedreht wurden:

Der experimentelle Dienst Serendipomatic wiederum analysiert ganze Texte und durchsucht darauf basierend die Bestände der Europeana, der Digital Public Library of America und des Commons-Pools bei Flickr. Die Idee ist, mit den im Text enthaltenen Stichworten Zufallsfunde zu ermöglichen, die man sonst übersehen hätte.

Was mit den Daten der DDB möglich ist, muss sich noch zeigen. Man kann jedenfalls gespannt sein. Die DDB-API kann nach formloser Anmeldung bei der DDB genutzt werden und ist im dortigen Entwickler-Wiki näher dokumentiert.

Zukunftsfragen der Netzpolitik – Veranstaltung in Tutzing

Wer noch nicht in Tutzing war, kennt Bayern nicht. Am Westufer des Starnberger Sees lässt es sich nicht nur gut spazieren, sondern auch wichtige netzpolitische Fragen diskutieren. Ein guter Anlass ist die Veranstaltung “Politik 2.0? Herausforderungen an die Netzpolitik”.

Ende November vom 29. November bis 1. Dezember 2013 versammelt sich in der Evangelischen Akademie Tutzing ein illustrer Kreis an spannenden Referenten um einen Parforce-Ritt durch netzpolitische Fragen vorzunehmen. In der Einladung heißt es zu den Inhalten der Veranstaltung:

Netzneutralität, Open Data, Urheberrecht – Begriffe, die die öffentliche Diskussion um Netzpolitik bestimmen. Doch die Anforderungen wachsen rasant: Welche Auswirkungen hat das Internet auf Bildungs- und Kulturpolitik? Welche Voraussetzungen sind nötig für Open Governance und Digitale Demokratie? Ein Streifzug durch die Schwerpunkte eines jungen Politikbereichs.

Das interessante Programm beinhaltet nicht nur hochrangige Referenten, sondern auch eine Morgenandacht in der Schlosskapelle. Noch sind ein paar Plätze frei und man kann sich via Online-Formular anmelden.

September 29 2013

Four short links: 1 October 2013

  1. Farmbot Wikiopen-source, scalable, automated precision farming machines.
  2. Amazon’s Chaotic Storage — photos from inside an Amazon warehouse. At the heart of the operation is a sophisticated database that tracks and monitors every single product that enters/leaves the warehouse and keeps a tally on every single shelf space and whether it’s empty or contains a product. Software-optimised spaces, for habitation by augmented humans.
  3. Public Safety Codes of the World — Kickstarter project to fund the release of public safety codes.
  4. #xoxo Thoreau Talk (Maciej Ceglowski) — exquisitely good talk by the Pinboard creator, on success, simplicity, and focus.

August 01 2013

Four short links: 2 August 2013

  1. Unhappy Truckers and Other Algorithmic ProblemsEven the insides of vans are subjected to a kind of routing algorithm; the next time you get a package, look for a three-letter letter code, like “RDL.” That means “rear door left,” and it is so the driver has to take as few steps as possible to locate the package. (via Sam Minnee)
  2. Fuel3D: A Sub-$1000 3D Scanner (Kickstarter) — a point-and-shoot 3D imaging system that captures extremely high resolution mesh and color information of objects. Fuel3D is the world’s first 3D scanner to combine pre-calibrated stereo cameras with photometric imaging to capture and process files in seconds.
  3. Corporate Open Source Anti-Patterns (YouTube) — Brian Cantrill’s talk, slides here. (via Daniel Bachhuber)
  4. Hacking for Humanity) (The Economist) — Getting PhDs and data specialists to donate their skills to charities is the idea behind the event’s organizer, DataKind UK, an offshoot of the American nonprofit group.

June 17 2013

Reaktionen auf Prism, Open-Data-Richtlinie, Filehoster als Gehilfe

Das Überwachungsprogramm Prism zeitigt weltweit Reaktionen, das EU-Parlament hat die novellierte Richtlinie für Informationen des öffentlichen Sektors beschlossen, ein Filehoster kann als Gehilfe einer Urheberrechtsverletzung handeln. Außerdem im Wochenrückblick: Telekom-Drosselung, Vorratsdaten am EuGH, Amazon-Doku.

Weltweite Reaktionen auf Prism

Die Internetüberwachung durch die USA ruft weiterhin weltweit ein großes Echo hervor. Die EU-Kommission forderte Aufklärung, inwieweit die Rechte von EU-Bürgern verletzt seien. Kommissarin Reding betonte, dass Fragen des Datenschutzes „für uns Europäer sehr wichtig” und dass „die Grundrechte der Bürger nicht verhandelbar” seien. Die Financial Times berichtet im Gegensatz dazu, dass auf Druck der USA aus dem Entwurf der Datenschutz-Grundverordnung eine Klausel gegen „NSA-Spionage” gerade erst gestrichen wurde.
Zur Übersicht bei Heise online.
Zur EU-Datenschutzverordnung bei Telemedicus.

EU-Parlament verabschiedet Open-Data-Richtlinie

Am Donnerstag hat das EU-Parlament den Vorschlag der EU-Kommission zur Richtlinie über die Weiterverwendung von Informationen des öffentlichen Sektors beschlossen. Öffentliche Daten der Verwaltung dürfen danach zu beliebigen Zwecken weiterverwendet werden. Die Richtlinie regelt ebenfalls, wie die Daten zur Verfügung gestellt werden müssen. Sie müssen maschinenlesbar sein und es dürfen keine Formate verwendet werden, die das Weiterreichen erschweren.
Pressemitteilung der Europäischen Union.

OLG Hamburg: Sharehoster kann auch als Gehilfe haften

Ein Sharehoster haftet bei Urheberrechtsverletzungen seiner Nutzer auch auf Schadensersatz, wenn er eine rechtswidrige Datei trotz Kenntnis über einen längeren Zeitraum online lässt. Das hat das Oberlandesgericht Hamburg in einem Beschluss von Mitte Mai entschieden. Im konkreten Fall hatte ein Host-Provider eine Abuse-Meldung eines Rechteinhabers zwar zur Kenntnis genommen, die Datei aber wochenlang nicht entfernt. Das führe zu Vorsatz, so das Gericht – und damit zu einer Haftung nicht nur als Mitstörer, sondern sogar als Gehilfe.
Mehr bei Telemedicus.
iRights.info: Wie legal sind Filehoster?

Telekom reagiert auf Kritik an Internet-Drossel

Die Telekom hat auf die anhaltende Kritik an ihren Plänen zur Geschwindigkeitsdrosselung reagiert – wenn auch verhalten. Es soll weiterhin gedrosselt werden, sofern ein User ein gewisses Datenvolumen überschreitet. Die Geschwindigkeitsbegrenzung soll aber geringer ausfallen als ursprünglich geplant. Auch die Bevorzugung eigener Dienste, insbesondere des Unterhaltungsangebotes, soll bleiben. Das Bundeswirtschaftsministerium hat derweil eine Verordnung angekündigt, die genau das verhindern soll.
Bericht bei FAZ.net.
Zum Bericht bei Heise online.

Vorratsdatenspeicherung: EuGH verhandelt am 9. Juli

Die Richtlinie zur Vorratsdatenspeicherung gibt es seit 2006 – erst jetzt prüft der Europäische Gerichtshof, ob sie mit den EU-Grundrechten vereinbar ist. Am 9. Juli wird der Gerichtshof zu mehreren Vorlageverfahren mündlich verhandeln, die auf diese Frage abzielen. Im Vorfeld der Verhandlung hat das Gericht bereits Fragen an die Verfahrensbeteiligten verschickt. Aus diesem Fragenkatalog ergibt sich, dass der Europäische Gerichtshof vor allem die Verhältnismäßigkeit der Richtlinie prüfen will. Auch will er prüfen, ob sich der europäische Gesetzgeber bei Erlass der Richtlinie an „objektiven Kriterien” orientiert hatte.
Bericht bei E-Comm.

Landgericht Hamburg: Amazon-Dokumentation darf ausgestrahlt werden

Anfang des Jahres sorgte eine ARD-Dokumentation über die Arbeitsverhältnisse bei Amazon für großes Aufsehen. Amazon ging zunächst erfolgreich mit einer einstweiligen Verfügung gegen den Hessischen Rundfunk vor. Nun hat das Landgericht Hamburg diese einstweilige Verfügung wieder aufgehoben: Die Äußerungen seien vom Grundrecht auf freie Meinungsäußerung gedeckt.
Bericht bei Telemedicus.

April 30 2013

Linking open data to augmented intelligence and the economy

After years of steady growth, open data is now entering into public discourse, particularly in the public sector. If President Barack Obama decides to put the White House’s long-awaited new open data mandate before the nation this spring, it will finally enter the mainstream.

As more governments, businesses, media organizations and institutions adopt open data initiatives, interest in the evidence behind  release and the outcomes from it is similarly increasing. High hopes abound in many sectors, from development to energy to health to safety to transportation.

“Today, the digital revolution fueled by open data is starting to do for the modern world of agriculture what the industrial revolution did for agricultural productivity over the past century,” said Secretary of Agriculture Tom Vilsack, speaking at the G-8 Open Data for Agriculture Conference.

As other countries consider releasing their public sector information as data and machine-readable formats onto the Internet, they’ll need to consider and learn from years of effort at data.gov.uk, data.gov in the United States, and Kenya in Africa.

nigel_shadboltnigel_shadboltOne of the crucial sources of analysis for the success or failure of open data efforts will necessarily be research institutions and academics. That’s precisely why research from the Open Data Institute and Professor Nigel Shadbolt (@Nigel_Shadbolt) will matter in the months and years ahead.

In the following interview, Professor Shadbolt and I discuss what lies ahead. His responses were lightly edited for content and clarity.

How does your research on artificial intelligence (AI) relate to open data?

AI has always fascinated me. The quest for understanding what makes us smart and how we can make computers smart has always engaged me. While we’re trying to understand the principles of human intelligence and build a “brain in a box, smarter robots” or better speech processing algorithms, the world’s gone and done a different kind of AI: augmented intelligence. The web, with billions of human brains, has a new kind of collective and distributive capability that we couldn’t even see coming in AI. A number of us have coined a phrase, “Web science,” to understand the Web at a systems level, much as we do when we think about human biology. We talk about “systems biology” because there are just so many elements: technical, organizational, cultural.

The Web really captured my attention ten years ago as this really new manifestation of collective problem-solving. If you think about the link into earlier work I’d done, in what was called “knowledge engineering” or knowledge-based systems, there the problem was that all of the knowledge resided on systems on people’s desks. What the web has done is finish this with something that looks a lot like a supremely distributed database. Now, that distributed knowledge base is one version of the Semantic Web. The way I got into open data was the notion of using linked data and semantic Web technologies to integrate data at scale across the web — and one really high value source of data is open government data.

What was the reason behind the founding and funding of the Open Data Institute (ODI)?

The open government data piece originated in work I did in 2003 and 2004. We were looking at this whole idea of putting new data-linking standards on the Web. I had a project in the United Kingdom that was working with government to show the opportunities to use these techniques to link data. As in all of these things, that work was reported to Parliament. There was real interest in it, but not really top-level heavy “political cover” interest. Tim Berners-Lee’s engagement with the previous prime minister led to Gordon Brown appointing Tim and I to look at setting up data.gov.uk, getting data released and then the current coalition government taking that forward.

Throughout this time, Tim and I have been arguing that we could really do with a central focus, an institute whose principle motivation was working out how we could find real value in this data. The ODI does exactly that. It’s got about $60 million of public money over five years to incubate companies, build capacity, train people, and ensure that the public sector is supplying high quality data that can be consumed. The fundamental idea is that you ensure high quality supply by generating a strong demand side. The good demand side isn’t just public sector, it’s also the private sector.

What have we learned so far about what works and what doesn’t? What are the strategies or approaches that have some evidence behind them?

I think there are some clear learnings. One that I’ve been banging on about recently has been that yes, it really does matter to turn the dial so that governments have a presumption to publish non-personal public data. If you would publish it anyway, under a Freedom of Information request or whatever your local legislative equivalent is, why aren’t you publishing it anyway as open data? That, as a behavioral change. is a big one for many administrations where either the existing workflow or culture is, “Okay, we collect it. We sit on it. We do some analysis on it, and we might give it away piecemeal if people ask for it.” We should construct publication process from the outset to presume to publish openly. That’s still something that we are two or three years away from, working hard with the public sector to work out how to do and how to do properly.

We’ve also learned that in many jurisdictions, the amount of [open data] expertise within administrations and within departments is slight. There just isn’t really the skillset, in many cases. for people to know what it is to publish using technology platforms. So there’s a capability-building piece, too.

One of the most important things is it’s not enough to just put lots and lots of datasets out there. It would be great if the “presumption to publish” meant they were all out there anyway — but when you haven’t got any datasets out there and you’re thinking about where to start, the tough question is to say, “How can I publish data that matters to people?”

The data that matters is revealed in the fact that if we look at the download stats on these various UK, US and other [open data] sites. There’s a very, very distinctive parallel curve. Some datasets are very, very heavily utilized. You suspect they have high utility to many, many people. Many of the others, if they can be found at all, aren’t being used particularly much. That’s not to say that, under that long tail, there isn’t large amounts of use. A particularly arcane open dataset may have exquisite use to a small number of people.

The real truth is that it’s easy to republish your national statistics. It’s much harder to do a serious job on publishing your spending data in detail, publishing police and crime data, publishing educational data, publishing actual overall health performance indicators. These are tough datasets to release. As people are fond of saying, it holds politicians’ feet to the fire. It’s easy to build a site that’s full of stuff — but does the stuff actually matter? And does it have any economic utility?

Page views and traffic aren’t ideal metrics for measuring success for an open data platform. What should people measure, in terms of actual outcomes in citizens’ lives? Improved services or money saved? Performance or corrupt politicians held accountable? Companies started or new markets created?

You’ve enumerated some of them. It’s certainly true that one of the challenges is to instrument the effect or the impact. Actually, it’s the last thing that governments, nation states, regions or cities who are enthused to do this thing do. It’s quite hard.

Datasets, once downloaded, may then be virally reproduced all over the place, so that you don’t notice it from a government site. One of the requirements in most of the open licensing which is so essential to this effort is usually has a requirement for essential attribution. Those licenses should be embedded in the machine readable datasets themselves. Not enough attention is paid to that piece of process, to actually noticing when you’re looking at other applications, other data and publishing efforts, that attribution is there. We should be smarter about getting better sense from the attribution data.

The other sources of impact, though: How do you evidence actual internal efficiencies and internal government-wide benefits of open data? I had an interesting discussion recently, where the department of IT had said, “You know, I thought this was all stick and no carrot. I thought this was all in overhead, to get my data out there for other people’s benefits, but we’re now finding it so much easier to re-consume our own data and repurpose it in other contexts that it’s taken a huge amount of friction out of our own publication efforts.”

Quantified measures would really help, if we had standard methods to notice those kinds of impacts. Our economists, people whose impact is around understanding where value is created, really haven’t embraced open markets, particularly open data markets, in a very substantial way. I think we need a good number of capable economists pilling into this, trying to understand new forms of value and what the values are that are created.

I think a lot of the traditional models don’t stand up here. Bizarrely, it’s much easier to measure impact when information scarcity exists and you have something that I don’t, and I have to pay you a certain fee for that stuff. I can measure that value. When you’ve taken that asymmetry out, when you’ve made open data available more widely, what are the new things that flourish? In some respects, you’ll take some value out of the market, but you’re going to replace it by wider, more distributed, capable services. This is a key issue.

The ODI will certainly be commissioning and is undertaking work in this area. We published a piece of work jointly with Deloitte in London, looking at evidence-linked methodology.

You mentioned the demand-side of open data. What are you learning in that area — and what’s being done?

There’s an interesting tension here. If we turn the dial in the governmental mindset to the “presumption to publish” — and in the UK, our public data principles actually embrace that as government policy — you are meant to publish unless there’s an issue in personal information or national security why you would not. In a sense, you say, “Well, we just publish everything out there? That’s what we’ll do. Some of it will have utility, and some of it won’t.”

When the Web took off, and you offered pages as a business or an individual, you didn’t foresee the link-making that would occur. You didn’t foresee that PageRank would ultimately give you a measure of your importance and relevance in the world and could even be monetized after the fact. You didn’t foresee that those pages have their own essential network effect, that the more pages there are that interconnect, that there’s value being created out of it and so there’s is a strong argument [for publishing them].

So, you know, just publish. In truth, the demand side is an absolutely great and essential test of whether actually [publishing data] does matter.

Again, to take the Web as an analogy, large amounts of the Web are unattended to, neglected, and rot. It’s just stuff nobody cares about, actually. What we’re seeing in the open data effort in the UK is that it’s clear that some data is very privileged. It’s at the center of lots of other datasets.

In particular, [data about] location, occurrence, and when things occurred, and stable ways of identifying those things which are occurring. Then, of course, the data space that relates to companies, their identifications, the contracts they call, and the spending they engage in. That is the meat and drink of business intelligence apps all across the planet. If you started to turn off an ability for any business intelligence to access legal identifiers or business identifiers, all sorts of oversight would fall apart, apart from anything else.

The demand side [of open data] can be characterized. It’s not just economic. It will have to do with transparency, accountability and regulatory action. The economic side of open data gives you huge room for maneuver and substantial credibility when you can say, “Look, this dataset of spending data in the UK, published by local authorities, is the subject of detailed analytics from companies who look at all data about how local authorities and governments are spending their data. They sell procurement analysis insights back to business and on to third parties and other parts of the business world, saying ‘This is the shape of how the UK PLC is buying.’”

What are some of the lessons we can learn from how the World Wide Web grew and the value that it’s delivered around the world?

That’s always a worry, that, in some sense, the empowered get more powerful. What we do see is that, in open data in particular, new sorts of players couldn’t enter the game at all.

My favorite example is in mass transportation. In the UK, we have to fight quite hard to get some of the data from bus, rail and other forms of transportation made openly available. Until that was done, there was a pretty small number of supplies from this market.

In London, where all of it was made available from the Transport for London Authority, there’s just been an explosion of apps and businesses who are giving you subtly and distinct experiences as users of that data. I’ve got about eight or nine apps on my phone that give me interestingly distinctive views of moving about the city of London. I couldn’t have predicted or anticipated many of those exist.

I’m sure the companies who held that data could’ve spent large amounts of money and still not given me anything like the experience I now have. The flood of innovation around the data has really been significant and many, many more players and stakeholders in that space.

The Web taught us that serendipitous reuse, where you can’t anticipate where the bright idea comes from, is what is so empowering. The flipside of that is that it also reveals that, in some cases, the data isn’t necessarily of a quality that you might’ve thought. This effort might allow for civic improvement or indeed, business improvement in some cases, where businesses come and improve the data the state holds.

What’s happening in the UK with the so-called “MiData Initiative,” which posits that people have a right to access and use personal data disclosed to them?

I think this is every bit as potentially disruptive and important as open government data. We’re starting to see the emergence of what we might think of as a new class of important data, “personal assets.”

People have talked about “personal information management systems” for a long time now. Frequently, it’s revolved around managing your calendar or your contact list, but it’s much deeper. Imagine that you, the consumer, or you, the citizen, had a central locus of authority around data that was relevant to you: consumer data from retail, from the banks that you deal with, from the telcos you interact with, from the utilities you get your gas, water and electricity from. Imagine if that data infosphere was something that you could access easily, with a right to reuse and redistribute it as you saw fit.

The canonical example, of course, is health data. It isn’t all data that business holds, it’s also data the state holds, like your health records, educational transcript, welfare, tax, or any number of areas.

In the UK, we’ve been working towards empowering consumers, in particular through this MiData program. We’re trying to get to a place where consumers have a right to data held about their transactions by businesses, [released] back to them in a reusable and flexible way. We’ve been working on a voluntary program in this area for the last year. We have a consultation on taking up power to require large companies to give that information back. There is a commitment to the UK, for the first time, to get health records back to patients as data they control, but I think it has to go much more widely.

Personal data is a natural complement to open data. Some of the most interesting applications I’m sure we’re going to see in this area are where you take your personal data and enrich it with open data relating to businesses, the services of government, or the actual trading environment you’re in. In the UK, we’ve got six large energy companies that compete to sell energy to you.

Why shouldn’t groups and individuals be able to get together and collectively purchase in the same way that corporations can purchase and get their discounts? Why can’t individuals be in a spot market, effectively, where it’s easy to move from one supplier to another? Along with those efficiencies in the market and improvements in service delivery, it’s about empowering consumers at the end of the day.

This post is part of our ongoing series on the open data economy.

April 18 2013

Sprinting toward the future of Jamaica

Creating the conditions for startups to form is now a policy imperative for governments around the world, as Julian Jay Robinson, minister of state in Jamaica’s Ministry of Science, Technology, Energy and Mining, reminded the attendees at the “Developing the Caribbean” conference last week in Kingston, Jamaica.

photo-22photo-22

Robinson said Jamaica is working on deploying wireless broadband access, securing networks and stimulating tech entrepreneurship around the island, a set of priorities that would have sounded of the moment in Washington, Paris, Hong Kong or Bangalore. He also described open access and open data as fundamental parts of democratic governance, explicitly aligning the release of public data with economic development and anti-corruption efforts. Robinson also pledged to help ensure that Jamaica’s open data efforts would be successful, offering a key ally within government to members of civil society.

The interest in adding technical ability and capacity around the Caribbean was sparked by other efforts around the world, particularly Kenya’s open government data efforts. That’s what led the organizers to invite Paul Kukubo to speak about Kenya’s experience, which Robinson noted might be more relevant to Jamaica than that of the global north.

Kukubo, the head of Kenya’s Information, Communication and Technology Board, was a key player in getting the country’s open data initiative off the ground and evangelizing it to developers in Nairobi. At the conference, Kukubo gave Jamaicans two key pieces of advice. First, open data efforts must be aligned with national priorities, from reducing corruption to improving digital services to economic development.

“You can’t do your open data initiative outside of what you’re trying to do for your country,” said Kukubo.

Second, political leadership is essential to success. In Kenya, the president was personally involved in open data, Kukubo said. Now that a new president has been officially elected, however, there are new questions about what happens next, particularly given that pickup in Kenya’s development community hasn’t been as dynamic as officials might have hoped. There’s also a significant issue on the demand-side of open data, with respect to the absence of a Freedom of Information Law in Kenya.

When I asked Kukubo about these issues, he said he expects a Freedom of Information law will be passed this year in Kenya. He also replied that the momentum on open data wasn’t just about the supply side.

“We feel that in the usage side, especially with respect to the developer ecosystem, we haven’t necessarily gotten as much traction from developers using data and interpreting cleverly as we might have wanted to have,” he said. “We’re putting putting more into that area.”

With respect to leadership, Kukubo pointed out that newly elected Kenyan President Uhuru Kenyatta drove open data release and policy when he was the minister of finance. Kukubo expects him to be very supportive of open data in office.

The development of open data in Jamaica, by way of contrast, has been driven by academia, said professor Maurice McNaughton, director of the Center of Excellence at the Mona School of Business at the University of the West Indies (UWI). The Caribbean Open Institute, for instance, has been working closely with Jamaica’s Rural Agriculture Development Authority (RADA). There are high hopes that releases of more data from RADA and other Jamaican institutions will improve Jamaica’s economy and the effectiveness of its government.

Open data could add $35 million annually to the Jamaican economy, said Damian Cox, director of the Access to Information Unit in the Office of the Prime Minister, citing a United Nations estimate. Cox also explicitly aligned open data with measuring progress toward Millennium Development Goals, positing that increasing the availability of data will enable the civil society, government agencies and the UN to more accurately assess success.

The development of (open) data-driven journalism

Developing the Caribbean focused on the demand side of open data as well, particularly the role of intermediaries in collecting, cleaning, fact checking, and presenting data, matched with necessary narrative and context. That kind of work is precisely what data-driven journalism does, which is why it was one of the major themes of the conference. I was invited to give an overview of data-driven journalism that connected some trends and highlighted the best work in the field.

I’ve written quite a bit about how data-driven journalism is making sense of the world elsewhere, with a report yet to come. What I found in Jamaica is that media there have long since begun experimenting in the field, from the investigative journalism at Panos Caribbean to the relatively recent launch of diGJamaica by the Gleaner Company.

diGJamaica is modeled upon the Jamaican Handbook and includes more than a million pages from The Gleaner newspaper, going back to 1834. The site publishes directories of public entities and public data, including visualizations. It charges for access to the archives.

Legends and legacies

Usain Bolt in JamaicaUsain Bolt in Jamaica

Olympic champion Usain Bolt, photographed in his (fast) car at the UWI/Usain Bolt Track in Mona, Jamaica.

Normally, meeting the fastest man on earth would be the most memorable part of any trip. The moment that left the deepest impression from my journey to the Caribbean, however, came not from encountering Usain Bolt on a run but from within a seminar room on a university campus.

As a member of a panel of judges, I saw dozens of young people present after working for 30 hours at a hackathon at the University of the West Indies. While even the most mature of the working apps was still a prototype, the best of them were squarely focused on issues that affect real Jamaicans: scoring the risk of farmers that needed banking loans and collecting and sharing data about produce.

The winning team created a working mobile app that would enable government officials to collect data at farms. While none of the apps are likely to be adopted by the agricultural agency in its current form, or show up in the Google Play store this week, the experience the teams gained will help them in the future.

As I left the island, the perspective that I’d taken away from trips to Brazil, Moldova and Africa last year was further confirmed: technical talent and creativity can be found everywhere in the world, along with considerable passion to apply design thinking, data and mobile technology to improve the societies people live within. This is innovation that matters, not just clones of popular social networking apps — though the judges saw more than a couple of those ideas flow by as well.

In the years ahead, Jamaican developers will play an important role in media, commerce and government on the island. If attracting young people to engineering and teaching them to code is the long-term legacy of efforts like Developing the Caribbean, it will deserve its own thumbs up from Mr. Bolt. The track to that future looks wide open.

photo-23photo-23

Disclosure: the cost of my travel to Jamaica was paid for by the organizers of the Developing the Caribbean conference.

March 28 2013

Four short links: 28 March 2013

  1. What American Startups Can Learn From the Cutthroat Chinese Software IndustryIt follows that the idea of “viral” or “organic” growth doesn’t exist in China. “User acquisition is all about media buys. Platform-to-platform in China is war, and it is fought viciously and bitterly. If you have a Gmail account and send an email to, for example, NetEase163.com, which is the local web dominant player, it will most likely go to spam or junk folders regardless of your settings. Just to get an email to go through to your inbox, the company sending the email needs to have a special partnership.” This entire article is a horror show.
  2. White House Hangout Maker Movement (Whitehouse) — During the Hangout, Tom Kalil will discuss the elements of an “all hands on deck” effort to promote Making, with participants including: Dale Dougherty, Founder and Publisher of MAKE; Tara Tiger Brown, Los Angeles Makerspace; Super Awesome Sylvia, Super Awesome Maker Show; Saul Griffith, Co-Founder, Otherlab; Venkatesh Prasad, Ford.
  3. Municipal Codes of DC Freed (BoingBoing) — more good work by Carl Malamud. He’s specifically providing data for apps.
  4. The Modern Malware Review (PDF) — 90% of fully undetected malware was delivered via web-browsing; It took antivirus vendors 4 times as long to detect malware from web-based applications as opposed to email (20 days for web, 5 days for email); FTP was observed to be exceptionally high-risk.

March 22 2013

Sensoring the news

When I went to the 2013 SXSW Interactive Festival to host a conversation with NPR’s Javaun Moradi about sensors, society and the media, I thought we would be talking about the future of data journalism. By the time I left the event, I’d learned that sensor journalism had long since arrived and been applied. Today, inexpensive, easy-to-use open source hardware is making it easier for media outlets to create data themselves.

“Interest in sensor data has grown dramatically over the last year,” said Moradi. “Groups are experimenting in the areas of environmental monitoring, journalism, human rights activism, and civic accountability.” His post on what sensor networks mean for journalism sparked our collaboration after we connected in December 2011 about how data was being use in the media.

AP Beijing Air Quality graphicAP Beijing Air Quality graphic

Associated Press visualization of Beijing air quality. See related feature.

At a SXSW panel on “sensoring the news,” Sarah Williams, an assistant professor at MIT, described how the Civic Data Design Project had partnered with the Associated Press to independently measure air quality in Beijing.

Prior to the 2008 Olympics, the coaches of the Olympic teams had expressed serious concern about the impact of air pollution on the athletes. That, in turn, put pressure on the Chinese government to take substantive steps to improve those conditions. While the Chinese government released an index of air quality, explained Williams, they didn’t explain what went into it, nor did they provide the raw data.

The Beijing Air Tracks project arose from the need to determine what the conditions on the ground really were. AP reporters carried sensors connected to their cellphones to detect particulate and carbon monoxide levels, enabling them to report air quality conditions back in real-time as they moved around the Olympic venues and city.

The sensor data helped the AP measure the effect of policy decisions that the Chinese government made, said Williams, from closing down factories to widespread shutdowns of different kinds of industries. The results from the sensor journalism project, which showed a decrease in particulates but conditions 12 to 25 times worse than New York City on certain days, were published as an interactive data visualization.

AP Beijing mash-up of particulate levels and photography in Beijing.AP Beijing mash-up of particulate levels and photography in Beijing.

Associated Press mashup of particulate levels and photography at the Olympic stadium in Beijing over time.

This AP project is a prime example of how sensors, data journalism, and old-fashioned, on-the-ground reporting can be combined to shine a new level of accountability on official reports. It won’t be the last time this happens, either. Around the world, from the Amazon to Los Angeles to Japan, sensor data is now being put to use by civic media and journalists.

Sensing civic media

There are an increasing number of sensors in our lives, said John Keefe, a data news editor for WNYC, speaking at his SXSW panel in Austin. From the physical sensors in smartphones to new possibilities built with Arduino or Raspberry Pi hardware, Keefe highlighted how journalists could seize hold of new possibilities.

“Google takes data from maps and Android phones and creates traffic data,” Keefe said. “In a sense, that’s sensor data being used live in a public service. What are we doing in journalism like that? What could we do?”

The evolution of Safecast offers a glimpse of networked accountability, collecting and publishing radiation data through sensors, citizen science and the Internet. The project, which won last year’s Knight News Challenge on data, is now building the infrastructure to enable people to help monitor air quality in Los Angeles.

Sensor journalism is also being applied to make sense of the world in using remote sensing data and satellite imagery. The director of that project, Gustavo Faleiros, recently described how environmental reporting can be combined with civic media to collect data, with relevant projects in Asia, Africa and the Americas. For instance, Faleiros cited an environmental monitoring project led by Eric Paulos of the University of California at Berkeley’s Center for New Media, where sensors on taxis were used to gather data in Accra, Ghana.

Another direction that sensor data could be applied lies in social justice and education. At SXSW, Sarah Williams described [slides] how the Air Quality Egg, an open source hardware device, is being used to make an argument for public improvements. At the Cypress Hills Community School, kids are bringing the eggs home, measuring air quality and putting data online, said Williams.

Air Quality Eggs at Cypress Hill Community SchoolAir Quality Eggs at Cypress Hill Community School

Air Quality Eggs at Cypress Hill Community School.

“Health sensors are useful when they can compare personal real-time data against population-wide data,” said Nadav Aharony, who also spoke on our panel in Austin.

Aharony talked about how Behavio, a startup based upon his research on smartphones and data at MIT, has created funf, an open source sensing toolkit for Android devices. Aharony’s team has now deployed an integration with Dropbox that requires no coding ability to use.

According to Aharony, the One Laptop Per Child project is using funf in tablets deployed in Africa, in areas where there are no schools. Researchers will use funf as a behavioral tool to sense how children are interacting with the devices, including whether tablets are next to one another.

Sensing citizen science

While challenges lie ahead, it’s clear that sensors will be used to create data where there was none before. At SXSW, Williams described a project in Nairobi, Kenya, where cellphones are being used to map informal bus systems.

The Digital Matatus project is publishing the data into the General Transit Feed Standard, one of the most promising emerging global standards for transit data. “Hopefully, a year from now [we] will have all the bus routes from Nairobi,” Williams said.

Map of Matatus stops in Nairobi, KenyaMap of Matatus stops in Nairobi, Kenya

Map of Matatus stops in Nairobi, Kenya

Data journalism has long depended upon official data released by agencies. In recent years, data journalists have begun scraping data. Sensors allow another step in that evolution to take place, where civic media can create data to inform the public interest.

Matt Waite, a professor of practice and head of the Drone Journalism Lab at the University of Nebraska-Lincoln, joined the panel in Austin using a Google Hangout and shared how he and his students are experimenting with sensors to gather data for projects.

Journalists are going to run up against stories where no one has data, he said. “The old way was to give up,” said Waite. “I don’t think that’s the way to do it.”

Sensors give journalists a new, interesting way to enlist a distributed audience in gathering needed data, he explained. “Is it ‘capital N’ news? Probably not,” said Waite. “But it’s something people are really interested in. The easy part is getting a parts list together and writing software. The hard part is the creative process it takes to figure out what we are going to measure and what it means.”

In an interview with the Nieman Journalism Lab on sensor journalism, Waite also raised practical concerns with the quality of data collection that can be gathered with inexpensive hardware. “One legitimate concern about doing this is, you’re talking about doing it with the cheapest software you can find,” Waite told the Nieman Lab’s Caroline O’Donovan. “It’s not expertly calibrated. It’s not as sensitive as it possibly could be.”

Those are questions that will be explored practically in New York in the months ahead, when New York City’s public radio station will be collaborating with the Columbia School of Public Health to collect data about New York’s environmental conditions. They’ll put particulate detectors, carbon dioxide monitors, leg motion sensors, audio monitors, cameras and GPS trackers on bicycles and ride around the city collecting pollution data.

“At WNYC, we already do crowdsourcing, where we ask our audience to do something,” said Keefe. “What if we could get our audience to do something with this? What if you could get an audience to work with you to solve a problem?”

Keefe also announced the Cicada Project, where WNYC is inviting its listeners to build homemade sensors and track the emergence of cicadas this spring across New Jersey, New York and the Northeast region.

This cicada tracker project is a 21st century parallel to the role that birders have played for decades in the annual Christmas Bird Count, creating new horizons for citizen science and public media.

Update: WNYC’s public is responding in interesting ways that go beyond donations. On Twitter, Keefe highlighted the work of a NYC-based hacker, Guan, who was able to make a cicada tracker for $20, 1/4 the cost of WNYC’s kit.

Sensing challenges ahead

Just as civic technologists need to be mindful of “solutionism,” so too will data journalists need to be aware of the “sensorism” that exists in the health care world, as John Wilbanks pointed out this winter.

“Sensorism is rife in the sciences,” Wilbanks wrote. “Pick a data generation task that used to be human centric and odds are someone is trying to automate and parallelize it (often via solutionism, oddly — there’s an app to generate that data). What’s missing is the epistemic transformation that makes the data emerging from sensors actually useful to make a scientific conclusion — or a policy decision supposedly based on a scientific consensus.”

Anyone looking to practice sensor journalism will face interesting challenges, from incorrect conclusions based upon faulty data to increased risks to journalists carrying the sensors, to gaming or misreporting.

“Data accuracy is both a real and a perceived problem,” said Moradi at SXSW. “Third-party verification by journalists or other non-aligned groups may be needed.”

Much as in the cases of “drone journalism” and data journalism, context, usage and ethics have to be considered before you launch a quadcopter, fire up a scraper or embed sensors around your city. The question you come back to is whether you’re facing a new ethical problem or an old ethical problem with new technology, suggested Waite at SXSW. “The truth is, most ethical issues you can find with a new analogue.”

It may be, however, that sensor data, applied to taking a “social MRI” or other uses, may present us with novel challenges. For instance, who owns the data? Who can access or use it? Under what conditions?

A GPS device is a form of sensor, after all, and one that’s quite useful to law enforcement. While the Supreme Court ruled that the use of a GPS device for tracking a person without a warrant was unconstitutional, sensor data from cellphones may provide law enforcement with equal or greater insight into a target’s movements. Journalists may well face unexpected questions about protecting sources if their sensor data captures the movements or actions of a person of interest.

“There’s a lot of concern around privacy,” said Moradi. “What data can the government request? Will private companies abuse personal data for marketing or sales? Do citizens have the right to personal data held by companies and government?”

Aharony outlined many of the issues in a 2011 paper on stealing reality, exploring what happens when criminals become data scientists.

“It’s like a slow-moving attack if you attach yourself to someone’s communication,” said Aharony, in a follow-up interview in Austin. “‘iPhonegate‘ didn’t surprise people who know about mobile app data or how the cellular network is architected. Look at what happened to Path. You can make mistakes without meaning to. You have to think about this and encrypt the data.”

This post is part of our series investigating data journalism.

Older posts are this way If this message doesn't go away, click anywhere on the page to continue loading posts.
Could not load more posts
Maybe Soup is currently being updated? I'll try again automatically in a few seconds...
Just a second, loading more posts...
You've reached the end.

Don't be the product, buy the product!

Schweinderl