211service.com
Le scientifique des données de Twitter s'empare de l'intégralité du menu de McDonald's et survit
Edwin Chen est un scientifique des données sur Twitter qui partage les secrets obscurs de son art sombre, ce qui est une bonne chose étant donné que c'est probablement le domaine à la croissance la plus rapide aux États-Unis

Mmmm, la science des données. (cc Evan Blaser )
(Ci-dessous, j'ai inclus l'intégralité d'un entretien par e-mail que j'ai mené avec Chen, auquel vous voudrez peut-être passer si vous recherchez un aperçu général de son travail. Il révèle, entre autres, qu'il envisage d'exploiter Twitter données pour voir si les gens mangent ou non de la restauration rapide quand ils sont tristes.)
La science des données est si nouvelle qu'il n'y a pas de manuels sur le sujet, ni de cursus universitaire conçu pour former des data scientists. Pourtant, cela fait partie intégrante de tout, du trading quantitatif à Wall Street au ciblage publicitaire sur le Web et à l'optimisation des chaînes d'approvisionnement du monde réel.
Avant d'exploiter des téraoctets de tweets à la recherche d'informations pouvant être transformées en visualisations interactives, Chen a perfectionné ses compétences en étudiant la linguistique et les mathématiques pures au MIT. C'est typiquement atypique pour un data scientist, qui a une formation dans des disciplines mathématiquement rigoureuses, quelles qu'elles soient. (Sur Twitter, par exemple, tous les scientifiques des données doivent avoir au moins une maîtrise dans un domaine connexe .)
Voici l'un des exemples les plus farfelus de la polyvalence de la science des données, tiré du propre blog de Chen. Dans un article au titre entraînant Modèles de mélange infini avec Bayes non paramétriques et le processus de Dirichlet , Chen se penche sur le problème du clustering. Autrement dit, comment prendre une masse de données et la trier en groupes d'éléments connexes ? C'est un problème difficile - combien de groupes devrait-il y avoir ? quels sont les critères de tri ? – et les détails de la façon dont il l'aborde dépassent ceux qui n'ont pas d'expérience dans ce genre d'analyse.
Pour nous autres, Chen donne un exemple concret et accessible : McDonald's
En jetant tout le menu de McDonald's dans sa boîte de tri mathématique, Chen découvre, par exemple, que toutes les sauces McDonald's ne sont pas égales. La moutarde chaude et le buffle épicé ne font pas partie du même groupe que Creamy Ranch, qui a plus en commun avec le café glacé McDonald's avec du sirop de vanille sans sucre qu'avec la vinaigrette balsamique à faible teneur en gras de Newman.
D'autres groupes apparaissent, y compris tous les articles de hamburger, les aliments du petit-déjeuner et les boissons sucrées. Jusqu'à présent, pas si surprenant, jusqu'à ce que vous arriviez au groupe du menu McDonald's qui ne contient qu'un seul élément.

Qu'y a-t-il de si spécial avec les flocons d'avoine aux fruits et à l'érable de McDonald's ? C'est probablement sa teneur en fibres, des niveaux relativement (je souligne relativement) élevés de nutriments et des niveaux plus faibles de sucre, de gras trans et de cholestérol.
En d'autres termes, lorsque l'un des plus récents scientifiques des données de Twitter applique son art au menu de McDonald's, son algorithme en extrait automatiquement le seul aliment que chacun d'entre nous devrait probablement même envisager de manger. Gruau : chez McDonald's, c'est vraiment dans une classe à part.
Voici l'intégralité de l'interview de Chen :
1. Depuis combien de temps êtes-vous data scientist chez Twitter ?
Je suis sur Twitter depuis environ quatre mois.
2. Que fait un data scientist chez Twitter ?
Nous travaillons sur tout, de la création de modèles d'apprentissage automatique à l'amélioration de nos cadres de traitement de données à grande échelle, à la création de visualisations de données, à l'exécution d'analyses statistiques et à la recherche de meilleurs moyens de comprendre nos utilisateurs et le graphique Twitter. Il y a beaucoup de variété, et cela dépend vraiment des compétences et des intérêts de chacun.
À tout moment, par exemple, je suis susceptible d'expérimenter de nouveaux algorithmes de ciblage publicitaire, en écrivant des tâches MapReduce pour extraire des téraoctets de tweets (à l'aide de Scalding, notre langage MapReduce interne), en créant des visualisations interactives pour faire apparaître des informations dans tous les les données que nous recueillons, la rédaction d'un rapport pour expliquer de nouvelles découvertes, la réalisation d'une expérience sur Mechanical Turk, et bien plus encore.
3. Votre dernier message (sur le regroupement) a-t-il été inspiré par quelque chose sur lequel vous travaillez sur Twitter (dont vous pouvez discuter) ?
J'ai travaillé sur le regroupement de nos utilisateurs et annonceurs, en déduisant automatiquement des catégories de sujets dans le texte et en réfléchissant à ce que nous pouvons apprendre de la nourriture sur Twitter (par exemple, les hommes et les femmes, ou les San Franciscains et les New-Yorkais, diffèrent-ils ce qu'ils mangent ? Y a-t-il une relation entre ce que les gens mangent et ce qu'ils tweetent, par exemple, les gens sont-ils plus susceptibles de manger de la malbouffe quand ils sont tristes ?). Ainsi, bien que le message ne soit pas directement inspiré de ce sur quoi je travaille sur Twitter, il est définitivement lié.
4. La science des données est une chose maintenant, mais (on m'a dit) le domaine est si nouveau qu'il n'y a pas de manuels ou de cours universitaires qui lui sont spécifiques. Êtes-vous d'accord / pas d'accord ?
Je suis d'accord - mais cela dépend de votre définition de la science des données (sur laquelle beaucoup de gens ne sont pas d'accord !). Pour moi, la science des données est un mélange de trois choses : l'analyse quantitative (pour la rigueur nécessaire à la compréhension de vos données), la programmation (afin que vous puissiez traiter vos données et agir sur vos idées) et la narration (pour aider les autres à comprendre ce que le moyens de données). Les compétences utiles pour un scientifique des données pourraient donc inclure :
* Statistiques, machine learning (côté analyse quantitative). Par exemple, il est impossible d'extraire du sens de vos données si vous ne savez pas distinguer vos signaux du bruit. (Je soulignerai, cependant, que je crois que toute sorte de capacité quantitative forte est bonne - ma propre formation était à l'origine en mathématiques pures et en linguistique, et beaucoup d'autres personnes ici viennent de domaines comme la physique et la chimie. Vous pouvez toujours choisir les outils spécifiques dont vous aurez besoin.)
* Capacité de programmation générale, ainsi que connaissance de domaines spécifiques comme MapReduce/Hadoop et les bases de données. Par exemple, un modèle courant pour moi est que je vais coder un travail MapReduce dans Scala, faire une simple ligne de commande sur les résultats, transmettre les données à Python ou R pour une analyse plus approfondie, tirer d'une base de données pour récupérer un peu plus domaines, et ainsi de suite, intégrant souvent ce que je trouve dans certains modèles d'apprentissage automatique à la fin.
* Programmation Web, visualisation de données (côté storytelling). Par exemple, je trouve extrêmement utile de pouvoir lancer une application Web ou un tableau de bord rapide qui permet à d'autres personnes (moi y compris !) souvent beaucoup plus utile et perspicace qu'un nombre abstrait.
Bien qu'il n'y ait pas beaucoup de manuels ou de cours qui couvrent les trois domaines (une exception peut être le cours de Jeff Hammerbacher et Mike Franklin à Berkeley : http://datascience.es/ ), il existe bien sûr des ressources qui couvrent chaque compétence seule. (La visualisation des données semble continuer à être une compétence sous-estimée, donc les cours dans ce domaine sont plus rares.)