Skip to content

Seno Center

Conseils pour obtenir le travail que vous voulez

Menu
  • Home
  • Argent
  • Conseils
  • Entretien
  • Emploi
  • Salaire
  • Rravail
Menu

La Science Des Données Est-elle La Fin Des Statistiques ?

Posted on 12 March 202312 March 2023 by Robert Ange

Non, non,…

Tout d’abord, la statistique qui est à la base de ce domaine de carrière mal arrimé n’est pas une science. Nous ne pensons pas non plus aux mathématiques comme à une science (bien que nous devrions peut-être en discuter). Alors, comment alors quelque chose construit sur ces deux-là peut-il se considérer comme une science ?

Maintenant, cette activité appliquée contre des données légitimement obtenues (disons dérivées expérimentalement) ou contre des capteurs dont la fonction est plus qu’adéquate (disons, des moteurs de vérité) utiliserait des données pour soutenir la science. Il y aurait quelque chose dans les données elles-mêmes à étudier en dehors du domaine dans lequel les données seront intégrées

Continuer la lecture

Non, non,…

Tout d’abord, la statistique qui est à la base de ce domaine de carrière mal arrimé n’est pas une science. Nous ne pensons pas non plus aux mathématiques comme à une science (bien que nous devrions peut-être en discuter). Alors, comment alors quelque chose construit sur ces deux-là peut-il se considérer comme une science ?

Maintenant, cette activité appliquée contre des données légitimement obtenues (disons dérivées expérimentalement) ou contre des capteurs dont la fonction est plus qu’adéquate (disons, des moteurs de vérité) utiliserait des données pour soutenir la science. Y aurait-il quelque chose dans les données elles-mêmes à étudier en dehors du domaine dans lequel les données seront interprétées ?

N’est-ce pas comme compter le nombre d’anges sur une tête d’épingle ? Allez.

Attendre? Je sais, le mercantilisme grossier et l’utilisation abusive d’Internet (créant ainsi un nuage très boueux – pas de manne là-bas), a entraîné une quantité impie de choses. Mais, la merde infinie, même filtrée par les anges, est toujours de la merde.

En ce sens, les statistiques sont l’effort de longue date (enfin, relativement pas) de l’esprit humain pour extraire un sens du désordre. En tant que tel, il continuera. L’ordinateur, à ce jour, n’a fait qu’ajouter au problème.

Et, la simple existence d’outils statistiques (et autres) qui permettent un cow-boy facile ne nous mène à aucune science.

Maintenant, sauvegarde. Bien sûr, les étiquettes sont nécessaires pour maintenir l’intérêt. Nous devons vraiment regarder au-delà de la mode, même avec la conscience moderne que les foules pourraient avoir de la sagesse. Dans l’histoire, montrez-nous où cela nous a conduit à une quelconque amélioration de nos situations désastreuses ?

En prenant le bordel d’Internet, nous avons vraiment foiré celui-ci (un vieux qui parle).

—

Question connexe : avez-vous vraiment besoin d’un scientifique des données ?, Science des données : en tant que doctorant en statistiques, comment puis-je convaincre les employeurs que je peux être un bon scientifique des données ? La science des données est-elle trop facile ?

Je ne suis pas d’accord avec les autres affiches. Ils répondent à une question différente de celle qui a été posée, leurs réponses abordant la question de savoir si la science des données DEVRAIT être la fin des statistiques. Ils disent non et je suis d’accord avec eux sur ce deuxième point, mais la question posée est EST-CE QUE cela signifiera la fin des statistiques.

Je pense que cela diminuera certainement le rôle des statistiques. À mesure que les programmes menant à un diplôme en science des données deviennent de plus en plus nombreux, de nombreux étudiants qui ont peut-être choisi les programmes Stat auparavant s’inscriront désormais à la place en science des données. Et de nombreux employeurs qui embauchaient traditionnellement des statisticiens embaucheront désormais

Continuer la lecture

Je ne suis pas d’accord avec les autres affiches. Ils répondent à une question différente de celle qui a été posée, leurs réponses abordant la question de savoir si la science des données DEVRAIT être la fin des statistiques. Ils disent non et je suis d’accord avec eux sur ce deuxième point, mais la question posée est EST-CE QUE cela signifiera la fin des statistiques.

Je pense que cela diminuera certainement le rôle des statistiques. À mesure que les programmes menant à un diplôme en science des données deviennent de plus en plus nombreux, de nombreux étudiants qui ont peut-être choisi les programmes Stat auparavant s’inscriront désormais à la place en science des données. Et de nombreux employeurs qui embauchaient traditionnellement des statisticiens embaucheront désormais des personnes diplômées en informatique ou en science des données ; cela se produit déjà, et cela se produira de plus en plus à l’avenir.

Ce ne sera certainement pas “la fin” des statistiques. Les compagnies pharmaceutiques embaucheront toujours de vrais statisticiens, les étudiants en économie étudieront toujours de vraies statistiques, et ainsi de suite. Mais la science des données constitue absolument une menace pour les statistiques, et l’American Statistical Association a subi de nombreuses critiques à ce sujet au cours des dernières années. Voir par exemple l’éditorial Are’t WE Data Science? Un clou de plus dans le cercueil d’une pensée mondiale prudente et créative.

La science des données sans statistiques, c’est comme la cerise sans gâteau.

Je pense que ce qui va se passer dans les prochaines années, c’est qu’une grande partie de ce qui se fait actuellement sous le nom de « data science » va être désastreux. C’est parce qu’une grande partie (pas tout, mais beaucoup) de ce qui est fait en tant que « science des données » est fait par des personnes qui n’ont pas une formation bonne ou suffisante en statistiques et en analyse de données. Beaucoup d’entre eux ne réalisent pas certaines vérités fondamentales comme :

There are no routine statistical questions, only questionable statistical routines

David Cox

et

Si vous torturez les données assez longtemps, elles conféreront

Continuer la lecture

La science des données sans statistiques, c’est comme la cerise sans gâteau.

Je pense que ce qui va se passer dans les prochaines années, c’est qu’une grande partie de ce qui se fait actuellement sous le nom de « data science » va être désastreux. C’est parce qu’une grande partie (pas tout, mais beaucoup) de ce qui est fait en tant que « science des données » est fait par des personnes qui n’ont pas une formation bonne ou suffisante en statistiques et en analyse de données. Beaucoup d’entre eux ne réalisent pas certaines vérités fondamentales comme :

There are no routine statistical questions, only questionable statistical routines

David Cox

et

Si vous torturez les données assez longtemps, ils avoueront n’importe quoi

(attribué diversement et probablement dit sous différentes formes par plusieurs)

La science des données repose trop souvent sur des données qui ont déjà été collectées (pour une raison ou une autre) sans se soucier de la raison pour laquelle elles ont été collectées, de la manière dont elles ont été collectées, du moment de leur collecte et même de l’endroit où elles ont été collectées.

Encore une citation :

Si j’avais six heures pour abattre un arbre, j’en passerais quatre à aiguiser ma hache

Abraham Lincoln.

Quoi? C’est comme demander si les moniteurs 4K sont la fin des ordinateurs. Les statistiques sont au cœur de la science des données, sans statistiques comment tirez-vous des conclusions des données que vous acquérez ?

Voici…7 façons dont les data scientists utilisent les statistiques

1. Concevoir et interpréter des expériences pour éclairer les décisions concernant les produits

Observation : La variante A de la publicité a un taux de clics 5 % plus élevé que la variante B.

Les scientifiques des données peuvent aider à déterminer si cette différence est suffisamment importante pour justifier une attention, une concentration et un investissement accrus.

Ils peuvent vous aider à comprendre les résultats expérimentaux, ce qui est particulièrement utile lorsque vous mesurez de nombreuses métriques, exécutez des expériences qui s’affectent les unes les autres ou que vous avez un paradoxe de Simpson dans vos résultats.

Disons que vous êtes un détaillant national et que vous

Continuer la lecture

Voici…7 façons dont les data scientists utilisent les statistiques

1. Concevoir et interpréter des expériences pour éclairer les décisions concernant les produits

Observation : La variante A de la publicité a un taux de clics 5 % plus élevé que la variante B.

Les scientifiques des données peuvent aider à déterminer si cette différence est suffisamment importante pour justifier une attention, une concentration et un investissement accrus.

Ils peuvent vous aider à comprendre les résultats expérimentaux, ce qui est particulièrement utile lorsque vous mesurez de nombreuses métriques, exécutez des expériences qui s’affectent les unes les autres ou que vous avez un paradoxe de Simpson dans vos résultats.

Disons que vous êtes un détaillant national et que vous essayez de tester l’effet d’une nouvelle campagne marketing. Les scientifiques des données peuvent vous aider à décider quels magasins vous devez affecter au groupe expérimental pour obtenir un bon équilibre entre les groupes expérimentaux et de contrôle, quelle taille d’échantillon vous devez affecter au groupe expérimental pour obtenir des résultats clairs, et comment exécuter les dépenses d’étude comme peu d’argent possible.

Statistiques utilisées : plan expérimental, statistiques fréquentistes (tests d’hypothèse et intervalles de confiance)

2. Construisez des modèles qui prédisent le signal, pas le bruit

Constat : Les ventes en décembre ont augmenté de 5%.

Les scientifiques des données peuvent vous indiquer les raisons potentielles pour lesquelles les ventes ont augmenté de 5%. Les scientifiques des données peuvent vous aider à comprendre ce qui stimule les ventes, à quoi pourraient ressembler les ventes le mois prochain et les tendances potentielles auxquelles prêter attention.

Voir Qu’est-ce qu’une explication intuitive du surajustement, en particulier avec un petit ensemble d’échantillons ? Que faites-vous essentiellement par sur-ajustement ? Comment se produit la promesse excessive d’un R² élevé et d’une erreur standard faible ? pour comprendre pourquoi il est important de ne s’adapter qu’au signal.

Statistiques utilisées : régression, classification, analyse de séries chronologiques, analyse causale

3. Transformez les mégadonnées en grande image

Observation : Certains clients n’achètent que des aliments sains, tandis que d’autres n’achètent que lorsqu’il y a une vente.

Tout le monde peut constater que l’entreprise compte 100 000 clients qui achètent 10 000 articles dans votre épicerie.

Les scientifiques des données peuvent vous aider à étiqueter chaque client, à les regrouper avec des clients similaires et à comprendre leurs habitudes d’achat. Cela vous permet de voir comment les développements commerciaux peuvent affecter certains groupes de la population, au lieu de regarder tout le monde dans son ensemble ou de regarder tout le monde individuellement.

Dunnhumby répartit les acheteurs d’épicerie en groupes, notamment Shoppers On A Budget, Finest, Family Focused, Watching the Waistline et Splurge and Save [1]

Statistiques utilisées : regroupement, réduction de la dimensionnalité, analyse des variables latentes

4. Comprendre l’engagement, la rétention, la conversion et les prospects des utilisateurs

Observation : Beaucoup de gens s’inscrivent sur notre site et ne reviennent jamais.

Pourquoi vos clients achètent-ils des articles sur votre site ? Comment fidéliser vos clients ? Pourquoi les utilisateurs abandonnent-ils votre entonnoir ? Quand sortiront-ils ensuite ? Quels types d’e-mails de votre entreprise attirent le plus efficacement les utilisateurs ? Quels sont les principaux indicateurs d’engagement, d’activité ou de succès ? Quelles sont les bonnes pistes de vente ?

Statistiques utilisées : régression, analyse des effets causaux, analyse des variables latentes, conception de l’enquête

5. Donnez à vos utilisateurs ce qu’ils veulent

Compte tenu d’une matrice d’utilisateurs (clients, clients, utilisateurs) et de leurs interactions (clics, achats, évaluations) avec les éléments de votre entreprise (annonces, biens, films), pouvez-vous suggérer les éléments que vos utilisateurs voudront ensuite ?

Statistiques utilisées : modélisation prédictive, analyse des variables latentes, réduction de la dimensionnalité, filtrage collaboratif, clustering

6. Estimer intelligemment

Observation : Nous avons une bannière avec 100 impressions et 0 clics.

Est-ce que 0 % est une bonne estimation du taux de clics ?

Les scientifiques des données peuvent incorporer des données, des données globales et des connaissances antérieures pour obtenir une estimation souhaitable, vous indiquer les propriétés de cette estimation et résumer ce que signifie l’estimation.

Si vous êtes intéressé par une meilleure approche pour estimer le taux de clics, consultez Quels sont les avantages des méthodes bayésiennes par rapport aux méthodes fréquentistes dans les données Web ?

Statistiques utilisées : analyse de données bayésienne

7. Racontez l’histoire avec les données

Le rôle du Data Scientist dans l’entreprise est de servir d’ambassadeur entre les données et l’entreprise. La communication est la clé, et le Data Scientist doit être capable d’expliquer ses idées d’une manière que l’entreprise peut intégrer, sans sacrifier la fidélité des données.

Le Data Scientist ne résume pas simplement les chiffres, mais explique pourquoi les chiffres sont importants et quelles informations exploitables on peut en tirer.

Le Data Scientist est le conteur de l’entreprise, communiquant le sens des données et pourquoi elles sont importantes pour l’entreprise.

Le succès des six points précédents peut être mesuré et quantifié, mais celui-ci ne le peut pas. Je dirais que ce rôle est le plus important.

Statistiques utilisées : présentation et communication des données, visualisation des données

Suivez mon blog sur Storytelling with Statistics

Traduction en chinois : 数据科学家的7种统计学使用场景 | ??


TL ; DR – Avec les statistiques, les data scientists tirent des informations pour encourager les décisions qui améliorent le produit ou l’entreprise, en distillant les données en informations exploitables qui promeuvent la vision de l’entreprise.

Pour une réponse similaire que j’ai écrite sur ce sujet, consultez Sur quelle quantité de statistiques/mathématiques devez-vous travailler en tant que data scientist ?


[1] – dunnhumby & hack/reduce : un défi de lancement de produit

Réponse courte : OUI. Réponse longue : Le consensus général trompeur dans l’industrie est NON !

Voici pourquoi :

Dans l’industrie, en particulier à des fins de mise en œuvre (ceux avec une qualification MS et inférieure), les gens recherchent généralement des personnes capables de coder et de mettre en œuvre les algorithmes d’apprentissage automatique. Pour cela, leur accent principal est mis sur quelqu’un qui connaît un codage décent et un peu d’algorithmes ml traditionnels. Et c’est surtout ce que la plupart des gens qui ne sont pas titulaires d’un doctorat finissent par faire la plupart de leur temps. Seules les meilleures entreprises qui embauchent de bons docteurs leur font faire des recherches sur les algorithmes ml. Ainsi, la conception trompeuse dans l’industrie est une

Continuer la lecture

Réponse courte : OUI. Réponse longue : Le consensus général trompeur dans l’industrie est NON !

Voici pourquoi :

Dans l’industrie, en particulier à des fins de mise en œuvre (ceux avec une qualification MS et inférieure), les gens recherchent généralement des personnes capables de coder et de mettre en œuvre les algorithmes d’apprentissage automatique. Pour cela, leur accent principal est mis sur quelqu’un qui connaît un codage décent et un peu d’algorithmes ml traditionnels. Et c’est surtout ce que la plupart des gens qui ne sont pas titulaires d’un doctorat finissent par faire la plupart de leur temps. Seules les meilleures entreprises qui embauchent de bons docteurs leur font faire des recherches sur les algorithmes ml. Ainsi, la conception trompeuse dans l’industrie est qu’il suffit de connaître Coursera ou des connaissances de niveau d’apprentissage automatique en ligne avec de très bonnes compétences en codage et elle est une scientifique des données.

Mais voici la partie capture. La plupart d’entre eux n’ont jamais pensé qu’apprendre les statistiques pourrait être utile pour comprendre le ml. Après tout, pour exécuter une machine à vecteurs de support, vous finissez par écrire trois lignes de code en python scikit-learn. Mais à moins d’apprendre les statistiques, vous ne comprendrez jamais comment et où elles sont utiles en science des données et en particulier en apprentissage automatique si jamais vous voulez être un véritable et bon data scientist.

Laissez-moi vous dire pourquoi:

Mythe : La théorie de la distribution de probabilité et les principes d’estimation sont inutiles pour la science des données

La plupart des gens qui n’ont jamais pris la peine d’étudier la théorie de la distribution statistique pensent que l’apprentissage automatique ne nécessite pas l’utilisation de la théorie de la distribution. Ils ne peuvent pas avoir plus tort. Si vous ne comprenez pas ce qu’est le principe d’estimation du maximum de vraisemblance, alors vous n’avez en fait pas compris même l’algorithme ml de base comme la régression logistique. Qu’est-ce qui vous a fait penser que l’estimation de vraisemblance maximale et d’autres ne sont pas du tout utiles ? Si vous ne comprenez pas MLE, seriez-vous capable de comprendre l’algorithme Attente-Maximation ? Mais puisque vous ne pensez même pas que connaître l’attente est important, vous ne seriez certainement pas en mesure de saisir complètement l’algorithme EM. Maintenant, vous diriez que l’EM n’est pas nécessaire. Vraiment? Vous n’avez pas besoin d’EM pour faire l’estimation de la densité ? Vous ne l’utilisez pas dans l’analyse discriminante. Pour le modèle de mélange gaussien ou les modèles de mélange infini comme la distribution latente de Dirichlet ?. Si vous ne comprenez pas le concept de vraisemblance, vous n’avez jamais compris les principes bayésiens. Ce qui signifie que vous ne comprenez pas ce qu’est a priori , ce qui est a posteriori et quel effet la fonction de vraisemblance joue dans le théorème de Bayes ?.

Alors, comment comptez-vous comprendre Naive Bayes ? .Et si vous ne comprenez pas la théorie de la distribution statistique de base, alors vous ne comprenez pas la simulation. Alors, comment voulez-vous comprendre des techniques telles que MCMC et les modèles hiérarchiques bayésiens. MCMC n’est-il pas également utilisé dans l’apprentissage en profondeur ? Les machines de Boltzmann restreintes ne sont-elles pas une forme de modèles hiérarchiques ? Les gens pensent que le Deep Learning est purement une création informatique et qu’il n’y a donc pas de statistiques. Si vous voulez vraiment comprendre l’apprentissage en profondeur, vous devez comprendre les modèles hiérarchiques bayésiens qui, je suis désolé de le dire, nécessitent de connaître les principes bayésiens. Ce qui revient au premier point avec lequel j’ai commencé.

Permettez-moi de poser une question simple. Les forêts aléatoires sont connues pour avoir de meilleures performances que les arbres en sac, qui sont plus performants que les arbres normaux. Vous pouvez dire que l’une des raisons est que dans les forêts aléatoires, nous ne prenons en considération qu’un sous-ensemble aléatoire de variables à chaque nœud plutôt que toutes les variables. Ok, c’est logique. Maintenant, si je demande pourquoi cela aide-t-il?. Ensuite, vous me diriez que cela dé-corrèle les arbres. Ok a encore du sens. Comment cela aide-t-il? Plus de lecture vous dirait que, oh, la décorrélation des arbres aide à réduire la variance de l’estimateur final. D’accord. Mais comment? Si je vous demande quelle est la base mathématique de votre dernière affirmation, comment allez-vous me le prouver à moins que vous ne me disiez quelle est la formule de la variance d’une combinaison de variables aléatoires ? Vous diriez que si j’ai deux variables aléatoires comme X et Y alors Var(X,Y)= Var(X) +Var(Y) +2Cov(X,Y). Il s’agit d’une formule brute, la formule de variance réelle des forêts aléatoires si les arbres sont corrélés est un peu différente mais elle donne une idée. S’il n’y a pas de corrélation, cov est égal à zéro et donc la variance est moindre et totale. Mais pour essayer d’expliquer quelque chose à ce niveau, n’auriez-vous pas besoin de comprendre ce que sont les variables aléatoires et la théorie de la distribution et comment les variables aléatoires sont liées en termes d’espérance et de variances ?

Ne vous rendez-vous pas compte qu’on parle de réduire la variance de l’estimateur et que tout est intrinsèquement statistique ?. Pourquoi devez-vous réduire la variance d’un estimateur pourquoi ne pas prendre n’importe quel estimateur ?. Comment fonctionne votre courbe biais-variance ? L’ensemble de la décomposition de l’erreur quadratique moyenne d’une régression en biais quadratique + variance est une théorie fondamentalement statistique sur les estimateurs?. Et comment pensez-vous que vous saisiriez la théorie sur les estimateurs si vous ne voulez même pas étudier ce qu’est l’estimation en premier lieu ?

Ou qu’en est-il de vos techniques préférées de validation croisée ou LOOCV pour la sélection et l’évaluation de modèles ?. Puis-je demander pourquoi la validation croisée fonctionne et pourquoi ne pas utiliser une seule donnée d’entraînement comme estimation de l’erreur de test ?. Ne pensez-vous pas que si quelqu’un comprend la loi des grands non. théorie ici, elle serait en mesure de comprendre pourquoi les méthodes de rééchantillonnage telles que la validation croisée et LOOCV, etc. sont des estimations proches de l’erreur de généralisation plutôt que d’utiliser une seule erreur d’apprentissage ? Pouvez-vous comprendre la raison pour laquelle la validation croisée fonctionne en dehors du simple fait de dire qu’elle est utilisée pour régler les hyper paramètres, etc. sans connaître la loi du grand no. théorie etc?

Le travail d’un data scientist ne se limite pas à l’apprentissage automatique. Plusieurs fois, vous devez effectuer un travail basé sur l’inférence comme le test A/B. Demandez à des entreprises comme Google, Facebook et MS qui font des tonnes de tests A/B chaque jour. Comment êtes-vous censé faire un test A/B si vous ne comprenez pas les tests d’hypothèses, la conception expérimentale, etc. ?

La science des données sans statistiques, c’est comme posséder une Ferrari sans freins. Vous pouvez vous asseoir dans une Ferrari, montrer votre nouvelle voiture aux autres, mais vous ne pouvez pas profiter de la conduite longtemps car vous vous écraseriez bientôt !

Il y a beaucoup d’excellentes réponses à cette question, donc je vais me concentrer sur ce que personne d’autre n’a dit : c’est moins important ce à quoi vous avez été exposé, et beaucoup plus important ce que vous savez vraiment. Par exemple, il est bien mieux de connaître la régression linéaire et la régression logistique de fond en comble et d’être capable de modéliser correctement en utilisant ces techniques que d’avoir été exposé ou utilisé de manière superficielle, une tonne d’algorithmes. Et il est le plus important d’appliquer les techniques correctement. Si vous vous trompez, la méthode que vous avez choisie n’a pas d’importance.

De plus, d’après mon expérience, il y a beaucoup de différences dans d

Continuer la lecture

Il y a beaucoup d’excellentes réponses à cette question, donc je vais me concentrer sur ce que personne d’autre n’a dit : c’est moins important ce à quoi vous avez été exposé, et beaucoup plus important ce que vous savez vraiment. Par exemple, il est bien mieux de connaître la régression linéaire et la régression logistique de fond en comble et d’être capable de modéliser correctement en utilisant ces techniques que d’avoir été exposé ou utilisé de manière superficielle, une tonne d’algorithmes. Et il est le plus important d’appliquer les techniques correctement. Si vous vous trompez, la méthode que vous avez choisie n’a pas d’importance.

De plus, d’après mon expérience, il y a beaucoup de différences entre les data scientists. Certains sont très techniques et ont en fait besoin d’une formation de niveau doctorat pour réussir. Et puis il y a beaucoup de postes où un brillant titulaire d’un baccalauréat ou d’un titulaire moyen d’un master conviendra… Ces postes sont dans des petites et moyennes entreprises où les modèles de base qui sont correctement estimés vont très loin.

Prenez, par exemple, moi-même. Je travaille pour une petite-moyenne entreprise sur des données qui sont petites-moyennes. Nous avons utilisé l’apprentissage automatique, mais avons finalement choisi la régression logistique pour nos modèles car l’interprétabilité était la clé. Au moins dans cette entreprise, la plupart de nos préoccupations quotidiennes ne concernent pas les techniques de modélisation. Ce sont principalement les problèmes de données et de programmation sur lesquels nous passons notre temps. Le temps réel consacré à la modélisation est peut-être de 5% au cours de l’année écoulée. Il est donc très important de bien connaître vos bases statistiques, d’avoir une certaine connaissance de la conception expérimentale, d’être très bon avec les données, l’analyse de données et la programmation (en R, Python et d’autres langages). De plus, je ne suis toujours pas convaincu qu’il soit important de connaître beaucoup d’algorithmes différents et de bien les appliquer. Mon soupçon est que d’avoir quelques outils qui résolvent chaque type de problème et de bien connaître ces outils est ce qui compte. Avouons-le : très peu de personnes seront capables d’appliquer correctement et d’optimiser les performances de tous les nombreux algorithmes disponibles.

En tant que personne ayant une formation statistique (licence, maîtrise, doctorat en statistique) qui a travaillé et travaille dans ce qu’on appelle la science des données, je vais répondre avec certaines des choses que j’ai apprises.

Je ne vous ennuierai pas avec la façon dont j’ai appris ces conseils, car l’histoire est quelque peu hors de propos et certainement longue.

  1. Apprenez à coder, et bien coder. En outre, la théorie informatique aide, dans la conception d’algorithmes et même dans la réflexion sur les données.
  2. Apprenez vraiment quelles hypothèses vous faites dans vos modèles et algorithmes de ML. Tous reposent sur des hypothèses, explicites ou implicites. Apprendre à les formuler en diff

Continuer la lecture

En tant que personne ayant une formation statistique (licence, maîtrise, doctorat en statistique) qui a travaillé et travaille dans ce qu’on appelle la science des données, je vais répondre avec certaines des choses que j’ai apprises.

Je ne vous ennuierai pas avec la façon dont j’ai appris ces conseils, car l’histoire est quelque peu hors de propos et certainement longue.

  1. Apprenez à coder, et bien coder. En outre, la théorie informatique aide, dans la conception d’algorithmes et même dans la réflexion sur les données.
  2. Apprenez vraiment quelles hypothèses vous faites dans vos modèles et algorithmes de ML. Tous reposent sur des hypothèses, explicites ou implicites. Apprendre à les formuler en des termes différents est utile à cet égard.
  3. N’oubliez pas qu’aucune donnée réelle ne suit une distribution donnée. Apprenez quand et comment contourner les erreurs qui en découleront.
  4. L’inférence est utile, surtout si nous pouvons montrer des effets causaux.
  5. Cependant, dans le monde réel, le pouvoir prédictif l’emporte sur l’inférence n’importe quel jour de la semaine. (En fonction de ce que vous faites, bien sûr.)
  6. Les connaissances théoriques sont importantes (voir 2). La compréhension pratique des forces et des faiblesses des algorithmes sur certains types de données est tout aussi importante, voire plus importante. Cela ne peut être acquis que par la pratique.
  7. Ce n’est pas parce que ce n’est pas de la théorie statistique que ce n’est pas utile. La théorie de l’information, par exemple, est incroyablement utile (et devrait être plus facile à comprendre que d’autres choses dont vous aurez besoin, car elle est basée sur la probabilité). Il faut savoir où et quand l’appliquer, comme tout le reste.
  8. Je ne saurais trop insister sur ce point : travaillez avec des données réelles. Codez de vrais projets. Kaggle est un endroit pour avoir une idée des choses, mais les données sont souvent propres. Apprenez à gérer les données désordonnées. Apprenez quand l’imputation multiple n’est pas meilleure que l’imputation de la moyenne et du mode.
  9. Apprenez à travailler avec le stockage de données ainsi que des données. Apprenez à utiliser SQL. Apprenez également les outils “big data”… non seulement comment les utiliser, mais comment ils fonctionnent. C’est aussi important pour la conception des algorithmes que vous allez utiliser/créer que les algorithmes « standards » sur lesquels ils sont basés.

Et il y aura des préjugés contre vous. Non pas parce que vos connaissances sont moins précieuses, mais que récemment, il y a une perception négative selon laquelle les statistiques ne sont pas pertinentes. Il y a ceux qui pensent que les statisticiens restent assis et s’inquiètent des valeurs p. Montrez ce que vous pouvez faire, montrez ce que la pensée statistique ajoute, et vous réussirez.

Une dernière pensée. Si vous êtes et avez été « élevé » en tant que fréquentiste, essayez d’apprendre et de comprendre la théorie bayésienne. Cela peut vraiment aider. Il y aura des moments où un mode de pensée sera plus précieux que l’autre. N’oubliez pas qu’ils répondent à des questions différentes.

Je ne me concentrerais pas tellement sur l’apprentissage des statistiques « pour la science des données », mais plutôt sur « l’apprentissage des statistiques ». La science des données elle-même est une combinaison de deux domaines, les statistiques/mathématiques et l’informatique. Il y avait des « scientifiques des données » qui se trouvaient à l’intersection de ces deux domaines bien avant que le terme ne soit inventé.

La plupart des réponses ci-dessus (qui sont excellentes !) Sont spécifiquement ciblées sur « l’apprentissage automatique ». En obtenant une perspective plus large, vous gagnez la capacité non seulement de mettre en œuvre les modèles, mais aussi de comprendre comment ils se connectent et sont liés aux mathématiques plus profondes qui les sous-tendent.

Continuer la lecture

Je ne me concentrerais pas tellement sur l’apprentissage des statistiques « pour la science des données », mais plutôt sur « l’apprentissage des statistiques ». La science des données elle-même est une combinaison de deux domaines, les statistiques/mathématiques et l’informatique. Il y avait des « scientifiques des données » qui se trouvaient à l’intersection de ces deux domaines bien avant que le terme ne soit inventé.

La plupart des réponses ci-dessus (qui sont excellentes !) Sont spécifiquement ciblées sur « l’apprentissage automatique ». En obtenant une perspective plus large, vous gagnez la capacité non seulement de mettre en œuvre les modèles, mais aussi de comprendre comment ils se connectent et sont liés aux mathématiques plus profondes qui les sous-tendent.

En termes de statistiques qui sont immédiatement utiles à la science des données, elles entrent généralement dans l’une des deux catégories suivantes, soit 1) l’inférence ou 2) l’ajustement du modèle.

1) En ce qui concerne l’inférence que généralement des sujets tels que :

1) Estimation des paramètres
2) Test d’hypothèse
3) Analyse bayésienne
4) Identification du meilleur estimateur
5) Autre théorie statistique

Certains livres classiques sur ces sujets incluent :
(plus d’introduction) : Statistical Inference : George Casella : 9788131503942 : Amazon.com : Livres
(plus avancés) : Theory of Point Estimation (2nd English Edition) : EL Lehmann, George Casella : 9783698745156 : Amazon .com : livres

2) En ce qui concerne l’ajustement du modèle, il existe une multitude de sujets :

1) Régression linéaire
2) Régression non linéaire
3) Analyse de données catégorielles
4) Séries chronologiques et analyse longitudinale
5) Apprentissage automatique

Certains livres d’introduction célèbres incluent:

Modèles linéaires : Modèles statistiques linéaires appliqués avec CD-ROM étudiant : Michael H. Kutner, John Neter, Christopher J. Nachtsheim, William Li : 9780071122214 : Amazon.com : Books
Categorical Data : Amazon.com : An Introduction to Categorical Data Analysis (9780471226185): Alan Agresti: Livres

3) Enfin, il existe également une variété de sujets très utiles pour des choses comme les tests A/B, les données manquantes, etc.
Il s’agit notamment de :

1) Plan d’expériences (très utile dans les tests A/B)
2) Bootstrapping (utile lorsque le paramètre d’intérêt est difficile à calculer)
3) Calculs de la taille de l’échantillon (utile pour essayer de comprendre le nombre d’échantillons dont vous avez besoin)
4) Comparaisons multiples ( que se passe-t-il si vous exécutez de nombreux tests)
5) Une tonne d’autres.

Vous rencontrerez beaucoup de ce qui précède au fur et à mesure que vous parcourez les points 1) et 2) ci-dessus.

Si vous êtes intéressé par un programme d’introduction potentiel, j’enseignerai un bootcamp sous peu. Le cours et le programme se trouvent ici :

Fondements statistiques – Métis

J’espère que cela t’aides!

Le signal et le bruit : pourquoi la plupart des prédictions échouent mais certaines ne le font pas par Nate Silver – un excellent guide sur la façon dont nous pouvons faire de meilleures prédictions à l’aide de méthodes statistiques. Si vous êtes sérieux au sujet de la science des données, vous savez probablement que l’analyse des données n’est qu’une partie de l’ensemble du processus, car les résultats doivent souvent être communiqués à d’autres personnes (généralement des utilisateurs professionnels). Ce livre vous préparera à toute situation où vous devez communiquer vos découvertes de manière claire et concise.

Apprendre à partir des données par Yaser S. Abu-Mostafa, Malik Magdon-Ismail et Hsuan-Tien Lin – livre pour l’auto-apprentissage d’introduction co

Continuer la lecture

Le signal et le bruit : pourquoi la plupart des prédictions échouent mais certaines ne le font pas par Nate Silver – un excellent guide sur la façon dont nous pouvons faire de meilleures prédictions à l’aide de méthodes statistiques. Si vous êtes sérieux au sujet de la science des données, vous savez probablement que l’analyse des données n’est qu’une partie de l’ensemble du processus, car les résultats doivent souvent être communiqués à d’autres personnes (généralement des utilisateurs professionnels). Ce livre vous préparera à toute situation où vous devez communiquer vos découvertes de manière claire et concise.

Apprendre à partir des données de Yaser S. Abu-Mostafa, Malik Magdon-Ismail et Hsuan-Tien Lin – livre pour un cours d’introduction autodidacte sur les algorithmes d’apprentissage automatique en mettant l’accent sur la compréhension des concepts plutôt que sur les détails de mise en œuvre. Le texte est accompagné de « cahiers de cours » téléchargeables au format pdf ou consultables en ligne sur cette page. Si vous êtes complètement novice en apprentissage automatique, cela peut être un peu trop avancé, consultez plutôt nos recommandations ci-dessous. Il existe également un forum actif pour discuter du matériel de cours ici .

The Elements of Statistical Learning: Data Mining, Inference, and Prediction (2e édition) par Trevor Hastie, Robert Tibshirani et Jerome Friedman – un autre manuel pour l’auto-apprentissage de l’apprentissage automatique avec du code réel en R. Celui-ci est très similaire au précédent titre, mais utilise une notation et des exemples légèrement différents. Il comprend également un chapitre supplémentaire sur les modèles graphiques si ce sujet vous intéresse.

An Introduction to Statistical Learning par Gareth James, Daniela Witten et Robert Tibshirani – ce livre fournit une solide introduction aux algorithmes d’apprentissage automatique (y compris les méthodes non supervisées) basés sur des principes statistiques sans dérivations mathématiques lourdes. Les auteurs avaient déjà publié un autre livre An Introduction to Statistical Methods for Intelligence Analysis qui n’était pas axé sur l’apprentissage automatique mais couvrait plutôt des sujets plus classiques comme la régression linéaire ou les tests d’hypothèses à l’aide de statistiques bayésiennes.

Introduction aux algorithmes d’apprentissage automatique par Shai Shalev-Shwartz et Shai Ben-David – un livre qui couvre les méthodes classiques de ML telles que les arbres de décision, les forêts aléatoires ou les machines à vecteurs de support ainsi que les modèles de Markov cachés, le clustering et d’autres sujets avancés. Les auteurs partent des premiers principes en supposant qu’il n’y a aucune connaissance préalable de l’apprentissage automatique et entrent dans des détails mathématiques considérables (sans perdre en clarté).

Utile pour Kaggle et utile dans la vraie vie ne sont pas synonymes, comme le souligne Justin Veenstra.

Cependant, les approches bayésiennes ont en fait été essentielles pour gagner des solutions Kaggle. L’un des concours les plus difficiles et les plus médiatisés était le concours Observing Dark Worlds, où les participants devaient détecter la matière noire flottant à travers l’univers : 1ère place : Observing Dark Worlds

Si vous êtes intéressé par un traitement très pratique et appliqué des méthodes bayésiennes, je recommande fortement la programmation probabiliste et les méthodes bayésiennes pour les pirates de Cameron-Davidson Pilon : méthodes bayésiennes pour Ha

Continuer la lecture

Utile pour Kaggle et utile dans la vraie vie ne sont pas synonymes, comme le souligne Justin Veenstra.

Cependant, les approches bayésiennes ont en fait été essentielles pour gagner des solutions Kaggle. L’un des concours les plus difficiles et les plus médiatisés était le concours Observing Dark Worlds, où les participants devaient détecter la matière noire flottant à travers l’univers : 1ère place : Observing Dark Worlds

Si vous êtes intéressé par un traitement très pratique et appliqué des méthodes bayésiennes, je recommande fortement la programmation probabiliste et les méthodes bayésiennes pour les pirates de Cameron-Davidson Pilon : méthodes bayésiennes pour les pirates.

Le chapitre 5 du livre de Pilon contient une solution complète en Python au concours Dark Worlds Kaggle susmentionné : http://nbviewer.jupyter.org/github/CamDavidsonPilon/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers/blob/master /Chapter5_LossFunctions/Chapter5.ipynb

Pour les problèmes de prédiction, où nous nous intéressons principalement à la précision prédictive (comme un concours de Kaggle), les approches bayésiennes brillent vraiment lorsque nous sommes limités dans la quantité de données à notre disposition. Les petites données sont à certains égards plus difficiles que les grandes données ; pouvoir incorporer des priors devient très utile avec un petit N !

Programmation et statistiques, et quelques mathématiques. Maintenant, l’importance relative dépend de ce que vous faites. Mais, indépendamment de ce que vous faites en science des données, vous devez connaître une partie de la programmation et des statistiques.

Un statisticien aurait besoin de connaître au moins la programmation de base – en R ou Python (et parfois SAAS) pour construire des modèles. Un programmeur doit comprendre pourquoi la moyenne n’est pas tout – vous devez comprendre pourquoi nous normalisons ou mettons à l’échelle les valeurs – pourquoi nous avons besoin d’écarts types, etc.

Ce serait mieux si vous êtes bon dans les deux – c’est pourquoi les doctorats en informatique/statistiques/mathématiques appliquées sont en demande – ils sont nous

Continuer la lecture

Programmation et statistiques, et quelques mathématiques. Maintenant, l’importance relative dépend de ce que vous faites. Mais, indépendamment de ce que vous faites en science des données, vous devez connaître une partie de la programmation et des statistiques.

Un statisticien aurait besoin de connaître au moins la programmation de base – en R ou Python (et parfois SAAS) pour construire des modèles. Un programmeur doit comprendre pourquoi la moyenne n’est pas tout – vous devez comprendre pourquoi nous normalisons ou mettons à l’échelle les valeurs – pourquoi nous avons besoin d’écarts types, etc.

Ce serait mieux si vous êtes bon dans les deux – c’est pourquoi les doctorats en informatique / statistiques / mathématiques appliquées sont en demande – ils sont généralement bons à excellents en programmation – ils sont bons à excellents pour comprendre les mathématiques et les statistiques.

Si vous êtes un gars qui apprend en profondeur, vous devez aussi connaître quelques mathématiques.

La question la plus posée liée à La science des données est-elle la fin des statistiques ? :

  • Puis-je-postuler-à-nouveau-après-la-licenciement-de-l’entreprise-pour-le-même-poste ?
  • En-Inde-quelle-est-la-meilleure-avoir-un-emploi-gouvernemental-ou-un-emploi-privé ?
  • Quels-sont-les-cours-après-msc-physique-en-dehors-de-l’inde-Quel-pays-est-le-meilleur-pour-les-étudiants-en-physique ?
  • Quels-sont-certains-emplois-qui-seront-à-la-demande-plus tard-au-cours-de-cette-année-2021 ?
  • Comment-expliquez-vous-votre-travail-de-rêve ?
  • Comment-puis-je-obtenir-un-emploi-d’apprentissage-machine ?
  • A quel point-est-ce-mauvais-de-dire-que-je-peux-démarrer-immédiatement-un-entretien-d-emploi ?
  • Quelles-sont-les-questions-d’entretien-d’emploi-d’ingénieur-logiciel-les-plus-intéressantes-que-vous-avez-vous-jamais-poses-?
  • Si-je-veux-avoir-réussir-par où-devrais-je-commencer ?
  • Connaître-le-langage-Java-est-il-possible-d’obtenir-un-emploi ?
  • How-quickly-does-a-job-show-up-on-indeed-com-after-its-been-posted-to-a-company-website?
  • After-the-GATE-exam-what-type-of-work-can-we-do?
  • What-exactly-is-your-job-What-do-you-love-about-it?
  • I-am-so-awful-at-interviews-I-get-so-embarrassed-talking-about-myself-with-a-panel-looking-and-listening-Im-even-worse-when-I-prepare-I-feel-like-Im-giving-a-presentation-How-can-I-overcome-this?
  • What-monumental-thing-happened-at-your-job-that-made-you-decide-to-leave-How-did-you-quit-and-where-did-you-go-next?
  • How-can-someone-get-a-full-time-job-as-H1B-holder?
  • Do-people-think-your-job-is-easy-when-it-is-extremely-difficult-in-reality?
  • Which-jobs-are-available-for-a-person-who-knows-MS-office-MS-Excel-Where-to-apply-and-what-skills-are-required?
  • Can-I-know-what-higher-studies-we-can-do-in-hotel-management-after-the-3-years-degree-course?
  • How-do-you-handle-job-rejection?
  • How-do-I-become-a-scriptwriter?
  • Which-job-can-I-get-after-passing-a-BA-with-a-sociology-degree?
  • I-am-doing-a-BCA-now-What-type-of-job-opportunities-are-there-after-this-course?
  • How-is-Donald-Trumps-H1B-visa-ban-tearing-Indian-families-apart?
  • Did-Trump-fail-to-save-the-coal-industry?
  • Which-are-d-best-consultancies-in-Pune-which-are-providing-job?
  • How-much-can-a-Phd-holder-earn?
  • What-frustrates-you-the-most-in-the-workplace?
  • What-does-it-mean-to-have-a-lot-of-Facebook-friends-How-many-really-close-friends-can-a-person-have?
  • Which-is-the-best-movie-to-learn-about-Steve-Jobs?

Articles récents

  • Comment Un étudiant En ECE Obtient-il Un Emploi Chez Apple ?
  • Comment Puis-je Obtenir Un Emploi à Temps Partiel En Ligne Et être Payé Instantanément ?
  • Quel Est Le Meilleur Site De Freelance En Marketing Graphique ?
  • Quelle Est La Meilleure Façon De Réussir Un Entretien STAR ?
  • Je Suis Un étudiant Qui Pense Ne Pas Avoir Assez D’expérience Pour Trouver Un Bon Emploi. Comment Puis-je Montrer Que Je Suis Très Qualifié Lors De L’entretien ?

Catégories

  • argent
  • banquier
  • canada
  • cinema
  • conseils
  • conseils
  • developpeur
  • diplome
  • docteur
  • doctorat
  • emploi
  • emploi
  • employes
  • employeur
  • entreprise
  • entretien
  • entretien
  • experience
  • freelance
  • globalement
  • gouvernement
  • importante
  • india
  • informatique
  • ingenierie
  • ingenieur
  • ingenieurs
  • innovation
  • master
  • mba
  • mecanique
  • offre
  • personnes
  • profession
  • promotion
  • psychologie
  • redacteur
  • salaire
  • specialiser
  • technique
  • travail
  • trouver
© 2023 Seno Center | Powered by Superbs Personal Blog theme
We use cookies on our website to give you the most relevant experience by remembering your preferences and repeat visits. By clicking “Accept All”, you consent to the use of ALL the cookies. However, you may visit "Cookie Settings" to provide a controlled consent.
Cookie SettingsAccept All
Manage consent

Privacy Overview

This website uses cookies to improve your experience while you navigate through the website. Out of these, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may affect your browsing experience.
Necessary
Always Enabled
Necessary cookies are absolutely essential for the website to function properly. These cookies ensure basic functionalities and security features of the website, anonymously.
CookieDurationDescription
cookielawinfo-checkbox-analytics11 monthsThis cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional11 monthsThe cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary11 monthsThis cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others11 monthsThis cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance11 monthsThis cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy11 monthsThe cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.
Functional
Functional cookies help to perform certain functionalities like sharing the content of the website on social media platforms, collect feedbacks, and other third-party features.
Performance
Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.
Analytics
Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics the number of visitors, bounce rate, traffic source, etc.
Advertisement
Advertisement cookies are used to provide visitors with relevant ads and marketing campaigns. These cookies track visitors across websites and collect information to provide customized ads.
Others
Other uncategorized cookies are those that are being analyzed and have not been classified into a category as yet.
SAVE & ACCEPT