Newer posts are loading.
You are at the newest post.
Click here to check if anything new just came in.

April 30 2013

Leading Indicators

In a conversation with Q Ethan McCallum (who should be credited as co-author), we wondered how to evaluate data science groups. If you’re looking at an organization’s data science group from the outside, possibly as a potential employee, what can you use to evaluate it? It’s not a simple problem under the best of conditions: you’re not an insider, so you don’t know the full story of how many projects it has tried, whether they have succeeded or failed, relations between the data group, management, and other departments, and all the other stuff you’d like to know but will never be told.

Our starting point was remote: Q told me about Tyler Brulé’s travel writing for Financial Times (behind a paywall, unfortunately), in which he says that a club sandwich is a good proxy for hotel quality: you go into the restaurant and order a club sandwich. A club sandwich isn’t hard to make: there’s no secret recipe or technique that’s going to make Hotel A’s sandwich significantly better than B’s. But it’s easy to cut corners on ingredients and preparation. And if a hotel is cutting corners on their club sandwiches, they’re probably cutting corners in other places.

This reminded me of when my daughter was in first grade, and we looked (briefly) at private schools. All the schools talked the same talk. But if you looked at classes, it was pretty clear that the quality of the music program was a proxy for the quality of the school. After all, it’s easy to shortchange music, and both hard and expensive to do it right. Oddly enough, using the music program as a proxy for evaluating school quality has continued to work through middle school and (public) high school. It’s the first thing to cut when the budget gets tight; and if a school has a good music program with excellent teachers, they’re probably not shortchanging the kids elsewhere.

How does this connect to data science? What are the proxies that allow you to evaluate a data science program from the “outside,” on the information that you might be able to cull from company blogs, a job interview, or even a job posting? We came up with a few ideas:

  • Are the data scientists simply human search engines, or do they have real projects that allow them to explore and be curious? If they have management support for learning what can be learned from the organization’s data, and if management listens to what they discover, they’re accomplishing something significant. If they’re just playing Q&A with the company data, finding answers to specific questions without providing any insight, they’re not really a data science group.
  • Do the data scientists live in a silo, or are they connected with the rest of the company? In Building Data Science Teams, DJ Patil wrote about the value of seating data scientists with designers, marketers, with the entire product group so that they don’t do their work in isolation, and can bring their insights to bear on all aspects of the company.
  • When the data scientists do a study, is the outcome predetermined by management? Is it OK to say “we don’t have an answer” or to come up with a solution that management doesn’t like? Granted, you aren’t likely to be able to answer this question without insider information.
  • What do job postings look like? Does the company have a mission and know what it’s looking for, or are they asking for someone with a huge collection of skills, hoping that they will come in useful? That’s a sign of data science cargo culting.
  • Does management know what their tools are for, or have they just installed Hadoop because it’s what the management magazines tell them to do? Can managers talk intelligently to data scientists?
  • What sort of documentation does the group produce for its projects? Like a club sandwich, it’s easy to shortchange documentation.
  • Is the business built around the data? Or is the data science team an add-on to an existing company? A data science group can be integrated into an older company, but you have to ask a lot more questions; you have to worry a lot more about silos and management relations than you do in a company that is built around data from the start.

Coming up with these questions was an interesting thought experiment; we don’t know whether it holds water, but we suspect it does. Any ideas and opinions?

May 12 2011

02mydafsoup-01

January 25 2010

Wollt ihr die totale IT?

  

Neulich sickerte durch, dass die Videoströme aus den unbemannten Flugdrohnen, die über Afghanistan und den pakistanischen Stammengebieten einherschweben, von unbefugter Seite angezapft werden. Ein weiterer bemerkenswerter Hinweis in dem Zusammenhang ist dabei etwas in den Hintergrund getreten: die Unmanned Aerial Vehicles (UAV) sammeln wesentlich mehr Informationen, als die Geheimdienste auswerten können. Einem Bericht der New York Times zufolge haben die Drohnen im vergangenen Jahr bereits dreimal mehr Material aufgezeichnet als noch 2007. Die gesamten Aufnahmen am Stück anzusehen, würde rund 24 Jahre dauern.

 

Je mehr Maschen ein Netz hat…
(Foto: cortneymartin82, Flickr/CC) →

  

Besonders heikel ist, dass die fliegenden Augen nicht nur aufklären sollen, sondern auch Hellfire-Raketen auf Gegner am Boen abschießen. Natürlich gibt es Auswerter-Teams, die den Livestreams aus den UAVs folgen und verdächtige oder interessante Stellen zu einer detaillierteren Nachsichtung markieren. Aber “die Dienste haben immer noch Probleme damit, aus der Datenfülle schlau zu werden.” Das Bildvolumen wird weiter zunehmen, da immer mehr Drohnen eingesetzt werden, die teilweise auch bereits mit mehreren Kameras ausgestattet sind. Fieberhaft wird nach Techniken gesucht, mit denen das Bildmaterial schneller und effektiver gesichtet und kontextualisiert werden kann.

Mehr Technologie! Seit Jahren rufen Sicherheitstechnokraten nach maschineller Hochrüstung, ob beim Militär, bei Geheimdiensten oder in der Öffentlichkeit (meist gleichfalls in Form von Videoüberwachung und bilderkennender Software).

Im Sommer 2005 mußte Glenn Fine, damals Generalinspektor des US-Justizministeriums, dem Senat einen unangenehmen Report vorstellen: Beim FBI hatte sich im Jahr davor der unaufgearbeitete Rückstau von Informationen mit möglichem terroristischen Zusammenhang verdoppelt. Es handelte sich nicht um Informationen erster Priorität, aber das FBI konnte nicht sicher sein, dass die rund 8300 Stunden unübersetzten Abhör-Materials nicht doch irgendwelche Hinweise enthielten, die der Terrorismusbekämpfung dienen könnten.

Im Jahr 2003 waren PowerPoint-Präsentationen als Auslöser von Daten-Tsunamis in Mißkredit geraten: Beim US-Militär liebt man PowerPoint-Präsentationen, und während des Afghanistan-Einsatzes verursachten die oft gigantischen Dateien Staus im Netz. Captain John Wisecup, der einen Verband von Zerstörern im Golf befehligte, verbot als erster das Mailen von PowerPoint-Präsentationen auf seine Schiffe. “Wir haben uns für schlichten, schwarzweissen Text entschieden”, so Wisecup damals.

Die großen Systeme ähneln sich in ihrer digitalen Ineffizienz – in dem Glauben, dass es möglich sei, durch totale Informationsauswertung auch totales Wissen und damit die totale Absicherung vor, beispielsweise, einer Gefahr durch Terroristen zu erreichen. Der Mann, der neulich beinahe ein Flugzeug während der Landung in Detroit in die Luft gejagt hätte, war ohne spektakuläre Tricks durch die Suchraster der Sicherheitsdienste gelangt. Und er war nicht der erste, dem das gelungen ist.

Letztlich führt die massenhafte Produktion von Daten aus vermeintlichen Sicherheitsgründen in eine Endlosschleife – oder in eine Datensammlung, die so gewaltig ist, dass niemand mehr in der Lage sein wird, sie noch sinnvoll zu sichten. Der Begriff “Datenverarbeitung” führt auf verhängnisvolle Weise in die Irre, denn die Maschinen erzeugen vor allem Daten. Ob man es schafft, diese dann auch zu “verarbeiten”, ist, siehe oben, eine offene Frage. Mit Netzen, Rastern und Matritzen ist es wie mit Damenstrümpfen: je mehr Maschen ein Netz hat, desto mehr Löcher hat es auch, automatisch.

   

(Erstveröffentlicht im Blog der Technology Review)


Reposted fromglaserei glaserei
Older posts are this way If this message doesn't go away, click anywhere on the page to continue loading posts.
Could not load more posts
Maybe Soup is currently being updated? I'll try again automatically in a few seconds...
Just a second, loading more posts...
You've reached the end.

Don't be the product, buy the product!

Schweinderl