Comment apprendre le big data

Je pense que le meilleur moyen d’apprendre quelque chose est de le faire. Heureusement pour nous, il existe une tonne de technologies big data et d’outils d’analyse qui sont open source ou qui vous permettent d’apprendre gratuitement grâce à une licence d’évaluation / de développement. Alors voici ce que je ferais.

Pour vous donner une réponse assez simple, je supposerai que l’outil Big Data que vous souhaitez utiliser est la pile Hadoop. Et pour ne pas donner une réponse trop simple, vous ne recherchez pas une solution industrielle ou un fournisseur SaaS déjà construit. De manière générale, les bases de données NoSQL ne sont pas vraiment utilisées pour l’analyse (mais peuvent être une source).

1) Pensez à un problème de données volumineuses que vous souhaitez résoudre.

Traditionnellement, le big data était décrit par les “3V”: Volume, Variété, Vélocité. Qu’est-ce qu’un vrai problème d’analyse qui est le mieux résolu avec les outils Big Data? Quel type de métriques voulez-vous capturer? Les cas d’utilisation les plus courants aujourd’hui consistent à extraire de gros volumes de données de journal. En effet, les données de journal ont tendance à être très peu structurées, peuvent provenir de plusieurs sources et, en particulier pour les sites Web populaires, peuvent être énormes (téraoctets + par jour). Il est donc essentiel de disposer d’un cadre pour effectuer des tâches informatiques distribuées afin de résoudre ce problème.

2) Téléchargez et installez votre solution Big Data

La solution la plus simple consiste simplement à utiliser une machine virtuelle prédéfinie mise à disposition librement par n’importe quel fournisseur Hadoop [1], puis à l’exécuter localement. Vous pouvez également utiliser un service comme Amazon Web Services. Le plus souvent, les gens utilisent le framework map-réduire et Hive pour traiter de gros volumes de données. Puisque vous cherchez seulement à apprendre, vous n’aurez pas besoin de téraoctets, ni même de giga-octets de données, l’accès à un cluster de 100 nœuds ne sera donc pas une priorité. Bien qu’il y ait certainement des défis à surmonter et à comprendre une fois que vous commencez à entrer dans des environnements multi-nœuds.

3) Résoudre votre problème de données volumineuses
Une fois votre environnement configuré, commencez à coder! Il y a beaucoup de documentation et de tutoriels disponibles pour référencer et apprendre de [2]. Et vraiment, il suffit de taper des questions dans Google pour obtenir une tonne de ressources. Lisez les outils et comprenez comment la technologie peut être appliquée à votre cas d’utilisation. Réfléchissez aux types de métriques que vous souhaitez capturer dans vos données. Réfléchissez au type de programmes de réduction de carte que vous devrez écrire pour capturer les données que vous souhaitez analyser. Pensez à la façon dont vous pouvez tirer parti de quelque chose comme Hive ou Pig pour faire beaucoup de calculs lourds. Quelque chose qui ne sera probablement pas apparent dans un environnement à un seul nœud mais qui constitue un problème réel dans tout environnement distribué est la compréhension du décalage des données et de son incidence sur les performances [3].

4) Analyse et visualisation: le côté sexy de Big Data & BI
Maintenant que vous avez résolu votre problème de données volumineuses et que vos données sont dans un format gérable, il est temps d’éblouir votre patron avec de jolis rapports. La plupart des architectures d’entreprise qui exploitent Hadoop auront toujours une base de données SQL pour stocker et générer des rapports de données hors de Hadoop (vous réaliserez rapidement que map-reduction a un temps de réponse très long, même sur de petits ensembles de données). Le chargement de données hors de Hadoop et dans une base de données SQL est une bonne pratique pour le monde réel, mais pour apprendre le côté des données volumineuses, ce n’est pas nécessaire. Il existe plusieurs outils de reporting (gratuits) qui se connectent directement à Hadoop / Hive et fonctionnent correctement à des fins d’apprentissage [4]. Si vous voulez être un enfant cool sur le marché (et super employable dans les grandes entreprises), je choisirais Tableau (produit) [5]. Vous pouvez également vous initier à l’acquisition de compétences en modélisation prédictive et en apprentissage automatique avec certains des outils existants [6], et peut-être même commencer à vous appeler un informaticien!

[1]
Cloudera Support
Bac à sable Hortonworks
Télécharger (MapR)

[2]
Bienvenue sur Apache ™ Hadoop®!
Bienvenue chez Hive!
Tutoriel Hadoop
Didacticiel Hadoop – YDN
http://pig.apache.org/docs/r0.7….

[3]
http://www-db.in.tum.de/research…

[4]
Produits Pentaho
Jaspersoft :: Logiciel Jaspersoft Business Intelligence
http://www.splunk.com/

[5]
Logiciel Tableau

[6]
Le projet R pour l’informatique statistique
http://www.sas.com/
Apprentissage machine et exploration de données évolutifs

Le Big Data est un domaine en pleine croissance et vous avez probablement beaucoup à apprendre si vous souhaitez en apprendre davantage. Je vais essayer de vous fournir le chemin que j’ai suivi:

1. Commencez par apprendre un langage de programmation:

Si vous voulez vous attaquer au Big Data, vous devez connaître Python / Java. Si vous ne connaissez pas les deux, commencez par Python. Commencez simplement par les notions de base: boucle, listes, dictionnaires, navigation dans une liste, un dictionnaire, etc. Je vous conseillerais de suivre ce cours sur edX: Introduction à l’informatique et à la programmation en Python.
Dans le reste de cet article, je supposerai que vous avez suivi ma suggestion et que vous utilisez Python.

Crédits d’image: xkcd

2. En savoir plus sur une plateforme Big Data:

Une fois que vous sentez que vous pouvez résoudre les problèmes de base en utilisant Python / Java, vous êtes prêt pour l’étape suivante. Vous devez en savoir plus sur certaines technologies Big Data telles que Hadoop / Spark. Vous pouvez maintenant commencer avec Spark également, mais j’estime que Hadoop serait le meilleur endroit pour commencer car il peut vous fournir plus de renseignements sur le paradigme Mapreduce et vous permettre de comprendre les problèmes que résout l’introduction de Spark.
Pour apprendre Hadoop, je vous conseillerais de suivre ce cours sur Udacity:
https://www.udacity.com/course/intro-to-hadoop-and-mapreduce–ud617

Une fois que vous avez terminé ce cours, vous avez acquis une compréhension assez élémentaire des concepts et vous avez installé une machine virtuelle Hadoop sur votre propre machine. Vous auriez également résolu le problème de base de Wordcount.

Lisez cet incroyable article de blog de Michael Noll: Écriture d’un programme Hadoop MapReduce en python – Michael G. Noll. Il suffit de lire les codes de base de mapreduce. N’utilisez pas encore les itérateurs et les générateurs. C’est un point de départ pour beaucoup d’entre nous, développeurs Hadoop.

Maintenant, essayez de résoudre ces deux problèmes du cours CS109 Harvard de 2013:

A. Commencez par récupérer le fichier word_list.txt de Page sur github.com. Ceci contient une liste de mots de six lettres. Pour que les choses restent simples, tous les mots sont composés uniquement de lettres minuscules. Écrivez un travail mapreduce qui trouve tous les anagrammes dans word_list.txt.

B. Pour le problème suivant, téléchargez le fichier baseball_friends.csv. Chaque ligne de ce fichier csv contient les éléments suivants:

  • Un nom de personne
  • L’équipe pour laquelle cette personne s’installe – “Cardinals” ou “Red Sox”
  • Une liste des amis de cette personne, qui pourrait avoir une longueur arbitraire

Par exemple: La première ligne nous dit qu’Aaden est un ami des Red Sox et qu’il a 65 amis, qui sont tous répertoriés ici. Pour ce problème, il est prudent de supposer que tous les noms sont uniques et que la structure de l’amitié est symétrique ( c’est -à- dire si Alannah apparaît dans la liste d’amis d’Aaden, alors Aaden apparaîtra dans la liste d’amis d’Alannah).
Ecrivez un travail mr qui répertorie le nom de chaque personne, son équipe préférée, le nombre de fans de Red Sox avec lesquels ils sont amis et le nombre de fans de Cardinals avec lesquels ils sont amis.

Essayez de le faire vous-même. N’utilisez pas la méthode mrjob (prononcée M. Job) utilisée dans la classe CS109. Utilisez la méthode de diffusion Hadoop appropriée, telle qu’enseignée dans la classe Udacity, car elle est beaucoup plus personnalisable à long terme. Si vous rencontrez des problèmes, je pourrais vous guider. Ping me up.

Si vous en avez fini, vous pouvez vous appeler en toute sécurité en tant que personne pouvant “penser à Mapreduce” comme les gens l’appellent. Essayez de le faire en groupe, filtrer et rejoindre à l’aide de Hadoop. Vous pouvez lire quelques bonnes astuces de mon blog:
Trucs et techniques de streaming Hadoop Mapreduce

Et n’oubliez pas l’API Hadoop Streaming. Lis le!!!!!

3. Apprenez un peu de script Bash:

Pendant ce temps, pendant que vous apprenez Hadoop et que vous êtes en train de vous salir les mains avec le codage, essayez de lire sur les scripts shell.
Il vous permet d’effectuer des tâches simples liées aux données dans le terminal même.
Lisez ces tutoriels pour faire ça:

Les bases de Shell que tout scientifique de données devrait connaître – Partie I
Notions de base que chaque scientifique de données devrait savoir – Partie II (AWK)

J’utilise des commandes de shell parce qu’elles sont rapides et que je n’ai pas besoin d’écrire un script pour tout le monde.

4. Apprendre Spark:


Vient maintenant la prochaine partie de votre processus d’apprentissage. Cela devrait être entrepris après une
peu d’expérience avec Hadoop. Spark vous fournira la vitesse et les outils que Hadoop ne pouvait pas. Mais vous devez connaître Scala / Python pour l’utiliser. C’est l’une des raisons pour lesquelles j’ai suggéré d’utiliser Python si vous ne connaissez pas Java / Python.

Maintenant, Spark est utilisé pour la préparation des données ainsi que pour l’apprentissage automatique. Je vous encourage à consulter ces deux cours sur edX dispensés par des instructeurs de Berkeley. Le deuxième cours vous permettrait également de vous initier un peu à l’apprentissage automatique.

1. Introduction au Big Data avec Apache Spark
2. Apprentissage machine évolutif

J’ai écrit un peu sur le traitement des données de base avec étincelle ici:
Apprendre Spark en utilisant Python: bases et applications

Si vous ne suivez pas les cours, essayez de résoudre les deux mêmes problèmes que ceux que Hadoop a résolus avec Spark. Sinon, les problèmes posés dans les deux cours sont plus que suffisants.

Et désolé pour tous les plugs sans vergogne, mais je pense qu’ils ajoutent de la valeur, alors je les ai ajoutés.

J’espère que cela t’aides. Maintenant, commencez à travailler !!!

Bigdata, c’est comme une combinaison de sujets. Exige principalement la programmation, l’analyse, nlp, MLP, les mathématiques.

Voici un tas de cours que j’ai rencontrés:

  • Cours d’introduction au CS
    Remarques: Introduction au cours d’informatique qui fournit des instructions sur le codage.
    Ressources en ligne:
    Udacity – introduction au cours CS,
    Coursera – Informatique 101
  • Code dans au moins un langage de programmation orienté objet: C ++, Java ou Python
    Ressources en ligne pour débutants:
    Coursera – Apprendre à programmer: les bases,
    MIT Intro à la programmation en Java,
    La classe Python de Google,
    Coursera – Introduction à Python,
    Livre électronique Open Source Python

    Ressources en ligne intermédiaires:
    Conception de programmes informatiques par Udacity,
    Coursera – Apprendre à programmer: Code de qualité de fabrication,
    Coursera – Langages de programmation,
    Université Brown – Introduction aux langages de programmation

  • Apprendre d’autres langages de programmation
    Remarques: Ajoutez à votre répertoire – Script Java, CSS, HTML, Ruby, PHP, C, Perl, Shell. Lisp, Scheme.
    Ressources en ligne: w3school.com – Tutoriel HTML, Apprendre à coder
  • Testez votre code
    Notes: Apprenez à détecter les bogues, à créer des tests et à casser votre logiciel.
    Ressources en ligne: Udacity – Méthodes de test de logiciel, Udacity – Débogage de logiciel
  • Développer le raisonnement logique et la connaissance des mathématiques discrètes
    Ressources en ligne:
    MIT Mathématiques pour l’informatique,
    Coursera – Introduction à la logique,
    Coursera – Optimisation linéaire et discrète,
    Coursera – Modèles graphiques probabilistes,
    Coursera – Théorie des jeux.
  • Développer une solide compréhension des algorithmes et des structures de données
    Remarques: Découvrez les types de données fondamentaux (pile, files d’attente et sacs), les algorithmes de tri (tri rapide, mergesort, heapsort) et les structures de données (arbres de recherche binaires, arbres rouge-noir, tables de hachage), Big O.
    Ressources en ligne:
    MIT Introduction aux algorithmes,
    Coursera – Introduction aux algorithmes, parties 1 et 2,
    Wikipedia – Liste des algorithmes,
    Wikipedia – Liste des structures de données,
    Livre: Manuel de conception d’algorithmes
  • Développer une solide connaissance des systèmes d’exploitation
    Ressources en ligne: UC Berkeley Computer Science 162
  • Apprenez des ressources en ligne sur l’intelligence artificielle:
    Université Stanford – Introduction à la robotique, au traitement du langage naturel et à l’apprentissage automatique
  • Apprenez à construire des compilateurs
    Ressources en ligne: Coursera – Compilers
  • Apprendre la cryptographie
    Ressources en ligne: Coursera – Cryptographie, Udacity – Cryptographie appliquée
  • Apprendre la programmation parallèle
    Ressources en ligne: Coursera – Programmation parallèle hétérogène

Outils et technologies pour Bigdata:

Apache spark – Apache Spark est une infrastructure de calcul en cluster pour l’analyse de données à source ouverte développée à l’origine dans AMPLab de l’UC Berkeley. [1] Spark s’intègre dans la communauté open source Hadoop, en s’appuyant sur le système de fichiers distribués Hadoop (HDFS). [2] Cependant, Spark n’est pas lié au paradigme MapReduce en deux étapes et promet des performances jusqu’à 100 fois plus rapides que Hadoop MapReduce pour certaines applications.

Pipeline de base de données
Comme vous le constaterez, il ne s’agit tout simplement pas de traiter les données, mais implique beaucoup d’autres composants. La collecte, le stockage, l’exploration, le ML et la visualisation sont essentiels au succès du projet.

SOLR – Solr va créer un moteur d’analyse de données hautement évolutif pour permettre aux clients de se lancer dans une découverte de connaissances ultra-rapide et en temps réel.
Solr (prononcé “solaire”) est une plate-forme de recherche d’entreprise open source issue du projet Apache Lucene. Ses principales fonctionnalités comprennent la recherche en texte intégral, la mise en surbrillance des résultats, la recherche par facettes, le clustering dynamique, l’intégration de la base de données et la gestion des documents enrichis (par exemple, Word, PDF). Solr est hautement évolutif et fournit une réplication répartie de la recherche et des index. [1] Solr est le moteur de recherche d’entreprise le plus populaire. [2] Solr 4 ajoute des fonctionnalités NoSQL

S3 – Amazon S3 est un service Web de stockage de fichiers en ligne proposé par Amazon Web Services. Amazon S3 fournit un stockage via des interfaces de services Web. Wikipédia

Hadoop – Apache Hadoop est un framework logiciel open-source pour le stockage et le traitement à grande échelle d’ensembles de données sur des grappes de matériel. Hadoop est un projet Apache de niveau supérieur développé et utilisé par une communauté mondiale de contributeurs et d’utilisateurs. Il est sous licence Apache 2.0. Apache Hadoop

MapReduce: Hadoop MapReduce est un framework logiciel permettant d’écrire facilement des applications qui traitent de grandes quantités de données (ensembles de données de plusieurs téraoctets) en parallèle sur de grandes grappes (des milliers de nœuds) de matériel standard de manière fiable et tolérante aux pannes.

Un travail MapReduce divise généralement le jeu de données d’entrée en fragments indépendants traités par les tâches de carte de manière totalement parallèle. Le cadre trie les sorties des cartes, qui sont ensuite entrées dans les tâches de réduction . Généralement, l’entrée et la sortie du travail sont stockées dans un système de fichiers. La structure prend en charge la planification, la surveillance et la réexécution des tâches ayant échoué.

Corona:

Corona, un nouveau cadre de planification séparant la gestion des ressources de cluster de la coordination des tâches. [1] Corona introduit un gestionnaire de cluster dont le seul but est de suivre les noeuds du cluster et la quantité de ressources disponibles. Un suivi des travaux dédié est créé pour chaque travail et peut s’exécuter soit dans le même processus que le client (pour les petits travaux), soit en tant que processus séparé dans le cluster (pour les travaux volumineux).

Une différence majeure par rapport à notre précédente implémentation de Hadoop MapReduce est que Corona utilise une planification basée sur le push plutôt que sur le pull. Une fois que le gestionnaire de clusters a reçu les demandes de ressources du suivi des travaux, il attribue les octrois de ressources au suivi des travaux. En outre, une fois que le suivi des tâches a obtenu des allocations de ressources, il crée des tâches, puis les envoie aux suivis de tâches pour exécution. Il n’y a pas de pulsation périodique impliquée dans cette planification, de sorte que la latence de planification est minimisée. Ref: Sous le capot: Planification MapReduce plus efficacement avec Corona

HBase: HBase est une base de données distribuée open source, non relationnelle et modelée sur BigTable de Google et écrite en Java. Développé dans le cadre du projet Apache Hadoop d’Apache Software Foundation, il s’exécute sur le système de fichiers HDFS (Hadoop Distributed Filesystem), offrant ainsi des fonctionnalités similaires à BigTable pour Hadoop. Autrement dit, il offre un moyen tolérant aux fautes de stocker de grandes quantités de données séparées (de petites quantités d’informations capturées dans une vaste collection de données vides ou sans importance, telles que la recherche des 50 éléments les plus volumineux d’un groupe de 2 milliards d’enregistrements ou la recherche du fichier. éléments non nuls représentant moins de 0,1% d’une vaste collection).

Zookeeper – Apache ZooKeeper est un projet logiciel de la société Apache Software Foundation. Il fournit un service de configuration distribuée open source, un service de synchronisation et un registre de noms pour les grands systèmes distribués. [ clarification nécessaire ] ZooKeeper était un sous-projet de Hadoop mais est maintenant un projet de premier niveau à part entière.

Hive – Apache Hive est une infrastructure d’entrepôt de données construite sur Hadoop pour fournir un résumé, une requête et une analyse de données. Bien qu’abord développé par Facebook, Apache Hive est maintenant utilisé et développé par d’autres sociétés telles que Netflix. Amazon maintient une fourchette logicielle d’Apache Hive incluse dans Amazon Elastic MapReduce sur Amazon Web Services.

Mahout – Apache Mahout est un projet de la fondation Apache Software Foundation visant à produire des implémentations gratuites d’algorithmes d’apprentissage automatique distribués ou échelonnables, axés principalement sur le filtrage, le clustering et la classification collaboratifs. La plupart des implémentations utilisent la plateforme Apache Hadoop. Mahout fournit également des bibliothèques Java pour les opérations mathématiques courantes (axées sur l’algèbre linéaire et les statistiques) et des collections Java primitives. Mahout est un travail en cours; le nombre d’algorithmes implémentés a rapidement augmenté [3], mais il en manque plusieurs.

Lucene est un ensemble d’outils liés à la recherche et à la PNL, mais sa fonction principale est d’être un système d’index de recherche et d’extraction. Il prend des données d’un magasin comme HBase et les indexe pour une récupération rapide à partir d’une requête de recherche. Solr utilise Lucene sous le capot pour fournir une API REST pratique pour l’indexation et la recherche de données. ElasticSearch est similaire à Solr.

Sqoop est une interface de ligne de commande permettant de sauvegarder des données SQL sur un entrepôt distribué. C’est ce que vous pouvez utiliser pour créer des instantanés et copier vos tables de base de données dans un entrepôt Hive toutes les nuits.

Hue est une interface graphique Web basée sur un sous-ensemble des outils ci-dessus. Hue regroupe les composants Apache Hadoop les plus courants dans une seule interface et cible l’expérience utilisateur. Son objectif principal est que les utilisateurs “utilisent” Hadoop sans se soucier de la complexité sous-jacente ni d’utiliser une ligne de commande.

Pregel et son jumeau open source Giraph permettent de réaliser des algorithmes graphiques sur des milliards de nœuds et des trillions d’arêtes sur un cluster de machines. Notamment, le modèle MapReduce n’est pas bien adapté au traitement de graphique. Par conséquent, Hadoop / MapReduce est évité dans ce modèle, mais HDFS / GFS est toujours utilisé en tant que magasin de données.

NLTK – Le Natural Language Toolkit , ou plus communément NLTK , est une suite de bibliothèques et de programmes de traitement de langage naturel symbolique et statistique pour le langage de programmation Python. NLTK comprend des démonstrations graphiques et des exemples de données. Il est accompagné d’un livre qui explique les concepts sous-jacents aux tâches de traitement du langage prises en charge par la boîte à outils, ainsi que d’un livre de recettes.

NLTK est destiné à soutenir la recherche et l’enseignement dans le domaine de la PNL ou dans des domaines étroitement liés, notamment la linguistique empirique, les sciences cognitives, l’intelligence artificielle, la recherche d’informations et l’apprentissage automatique.

Pour Python
Scikit Apprendre

Numpy

Scipy

Freebase – Freebase est une vaste base de connaissances collaborative composée de métadonnées composées principalement par les membres de sa communauté. Il s’agit d’une collection en ligne de données structurées recueillies à partir de nombreuses sources, y compris des contributions individuelles de «wiki».

DBPedia : DBpedia (de “DB” pour “base de données”) est un projet visant à extraire un contenu structuré à partir des informations créées dans le cadre du projet Wikipédia. Ces informations structurées sont ensuite mises à disposition sur le World Wide Web. DBpedia permet aux utilisateurs d’interroger les relations et les propriétés associées aux ressources Wikipedia, y compris des liens vers d’autres ensembles de données connexes. Tim Berners-Lee a décrit DBpedia comme l’une des parties les plus célèbres de l’effort décentralisé sur les données liées.

Outil de visualisation
ggplot dans R
Tableu
Qlikview

Mathématiques:)

Calcul, statistique, probabilité, algèbre linéaire et géométrie de coordonnées

NER (NER) désigne les séquences de mots dans un texte qui sont les noms d’éléments, tels que les noms de personnes et de sociétés, ou les noms de gènes et de protéines.

Recherche à facettes: La recherche à facettes, également appelée navigation à facettes ou navigation à facettes, est une technique permettant d’accéder à des informations organisées selon un système de classification à facettes, permettant aux utilisateurs d’explorer une collection d’informations en appliquant plusieurs filtres. Un système de classification à facettes classe chaque élément d’information selon plusieurs dimensions explicites, appelées facettes, permettant d’accéder aux classifications et de les classer de plusieurs façons plutôt que dans un seul ordre taxonomique prédéterminé.

Source: Wikipedia, l’encyclopédie libre

Rendez cette source plus riche ici: karimkhanp / bigdata_resource

Vous devez d’abord avoir une connaissance détaillée de la vue d’ensemble du Big Data – son aperçu, son problème, sa solution, sa demande et sa portée future, puis commencer à rassembler des connaissances sur des outils tels que Hadoop, Spark, le codage en Java, etc. Plus tard si Tout cela vous intrigue, vous pouvez suivre un cours de certification pour faire votre carrière dans l’industrie du Big Data.

Je vais vous expliquer en détail les données volumineuses, puis un bref exposé sur Hadoop. Je vous fournirai également un lien vers les blogs, les didacticiels et les vidéos pour commencer à apprendre Hadoop.

Big Data

Savez-vous que le monde devient de plus en plus numérisé et connecté à l’électronique de toutes les manières? Cela génère «2,5 octets Quintilian» de données chaque jour. Ces données sont collectées à partir de vos activités tout au long de la journée.

Laissez-nous comprendre d’où proviennent ces données?

Les données proviennent de vos activités sur les médias sociaux et en fournissant vos informations à différentes applications et sites Web . Lorsque vous cochez la case “J’accepte”, vous permettez à ces applications de suivre toutes vos activités sur votre téléphone mobile et sur votre ordinateur de bureau, telles que vos recherches sur le Web, vos activités de commerce électronique, votre liste de contacts, vos images, etc.

Des données sont également collectées à partir de vos activités autres que sur «votre» mobile ou ordinateur de bureau; comme lorsque vous visitez un hôpital, un centre commercial, un magasin de vente au détail, une pompe à essence, des banques et même des restaurants et des cinémas. Les caméras de vidéosurveillance et différents capteurs génèrent également des données.

Des objets non humains, comme un poteau électrique, un avion ou une voiture automatique, génèrent également des données volumineuses.

Prenons l’exemple des voitures

Dans les voitures connectées, les données collectées par les capteurs de la voiture et des déductions peuvent être tirées en ce qui concerne le comportement du consommateur. Par exemple, pour savoir s’il existe un lien entre la musique que les gens écoutent et les restaurants qu’ils fréquentent.

La conduite autonome offre également un bon potentiel pour assurer la sécurité de nos routes. Pour que cela devienne une réalité, ils ont besoin du Big Data. Ces véhicules sont équipés de capteurs qui mesurent tout, de la position à la vitesse, en passant par la direction, en passant par les feux de circulation, la proximité des piétons et les dangers. En utilisant ces données, le véhicule peut prendre des décisions et apporter les réponses appropriées, sans erreur humaine.

Ce type de connexion peut aider la prise de décision en matière de sécurité, la conception du produit, la répartition des ressources publicitaires et les budgets. Par conséquent, les informations recueillies auprès de différentes sources sont inestimables sur le plan commercial.

A présent, vous devez avoir pu imaginer à quel point le Big Data est grand. Voyons maintenant les problèmes liés au Big Data.

Le problème du Big Data

Les données volumineuses sont des données énormes, moins structurées, hétérogènes et difficiles à manier, y compris au-delà du pétaoctet. Ces données sont incompréhensibles à l’échelle humaine.

Il y a plus de dix ans, Google a mis au point un moyen permettant à Yahoo de cloner des données sur plusieurs grappes de produits et de traiter des travaux par lots simples afin de commencer à exploiter de grands ensembles de données sur la base de coûts ad hoc par lots. La méthode avait alors évolué sous le nom de Hadoop.

Hadoop est l’outil le plus populaire et le plus demandé du Big Data. Il en existe d’autres comme Spark, Lumify, Apache Strom, Apache Samoa, etc.

Seule une petite partie de la population est suffisamment familiarisée avec ces méthodes pour donner un sens au big data.

Il y a des pyramides de compréhension que les humains doivent faire avec les données et les informations qu’ils génèrent.

Les tâches et les défis liés au Big data sont les suivants:

  1. Reconnaissance des données
  2. Produisez des idées pour trouver les données spécifiques qui peuvent vous aider.
  3. La modélisation et la simulation ou des moyens novateurs d’exécuter les problèmes que les données volumineuses peuvent résoudre.
  4. Moyens efficaces et efficients de contextualiser les données afin qu’elles soient pertinentes pour des individus et des groupes spécifiques
  5. Analyser et visualiser les résultats du Big Data.
  6. Stockage en continu et traitement du Big Data pour en extraire des informations.

Il y a aussi beaucoup de sous-défis sous les problèmes. Mais les technologies ont apporté des solutions à ces problèmes. Ce sont les technologies comme Hadoop et Spark.

Hadoop

Hadoop est un framework open source open source et évolutif, basé sur Apache Software, codé en Java. Open source: Cela signifie qu’il est disponible gratuitement pour tout le monde et que sa source peut également être modifiée selon les besoins.

Hadoop traite des données volumineuses sur un cluster de matériel standard. Si une fonction en particulier échoue ou ne répond pas à vos besoins, vous pouvez la modifier en conséquence.

Les entreprises populaires de Hadoop sont Yahoo, IBM, Facebook et Cloudera.

Hadoop n’est pas simplement un système de stockage mais une plate-forme pour le stockage et le traitement de données énormes.

Il fournit un cadre bien organisé pour exécuter des travaux sur plusieurs nœuds de clusters.

Apache Hadoop effectue un traitement parallèle sur des données, car il traite simultanément plusieurs machines en parallèle.

Pour commencer à apprendre Hadoop, je fournis une liste de didacticiels que vous pouvez consulter:

  1. Hadoop: Tutoriel vidéo
  2. Caractéristiques et principes de conception Hadoop
  3. Les composants de l’écosystème Hadoop et leur rôle
  4. Terminologies Big Data et concepts Hadoop à connaître
  5. Fonctionnement d’Hadoop – Apprenez le fonctionnement interne de Hadoop
  6. Comment installer et configurer Hadoop CDH5 sur Ubuntu 14.0.4
  7. Cache distribué dans Hadoop – Introduction, avantages et inconvénients
  8. Basculement automatique Hadoop NameNode

Bonne chance!

J’ai déjà répondu à ce genre de questions plus tôt et j’aimerais ajouter quelques points ici aussi.

Je voudrais tout d’abord insister pour que vous examiniez la question suivante afin de comprendre l’avenir de la “technologie Big Data”.

Réponse d’Akash Dugam à Les salaires des scientifiques des données vont-ils augmenter au cours de la prochaine décennie?

Maintenant, parlons de comment vous allez y arriver. 🙂

De nos jours, le “Big Data” connaît un essor considérable dans les secteurs informatiques du monde entier. Comme nous le savons tous, le travail d’Analytic est très payant. Nous produisons jour après jour une énorme quantité de données que BIG DATA doit gérer à cette fin.

Puisqu’il y a une description jointe à cette question, vous ne pouvez pas obtenir plus de détails sur vos connaissances ou votre domaine d’origine? quel travail faites-vous? ces questions comptent beaucoup. Je vous considérerai comme plus frais et j’essaierai de répondre à votre question.

Le Big Data n’est pas une matière ou une langue, vous pouvez donc apprendre en l’étudiant. En fait, c’est une combinaison de sujets, de technologies, etc.

Considérons cette équation,

Big Data = Compétences en programmation + Structure de données et algorithmes + Compétences analytiques + Compétences en base de données + Mathématiques + Apprentissage automatique + PNL + OS + Cryptographie + Programmation parallèle.

Oui! Je ne plaisante pas ici, vous devez vraiment connaître ces sujets.

Mais ne vous inquiétez pas, vous pouvez le préparer à partir de zéro. Il existe d’énormes ressources disponibles sur Internet qui vous aideront à maîtriser toutes les compétences.

1] Avant de commencer:

Je suis tombé sur le magnifique cours d’introduction de l’université de Stanford. Si vous êtes totalement novice dans le domaine de l’informatique, veuillez suivre le cours CS101.

Voici le lien pour vous inscrire à CS101:

Informatique 101

2] Compétences en programmation:

Comme je l’ai mentionné ci-dessus, les compétences en programmation sont obligatoires pour commencer avec le Big Data. Vous devez apprendre les langages de programmation suivants.

  • Apprendre le python:

Python est considéré comme le langage de programmation le plus simple au monde en raison de sa syntaxe simple. Vous pouvez apprendre le python rapidement.

Apprenez Python ici: Tutoriels Python: Saison 1 (Vous n’avez pas besoin d’être Python Ninja, vous avez juste besoin d’informations de base).

  • Apprendre Java:

Si vous recherchez “Big Data Developer Job”, je vous conseillerais donc d’apprendre Java. Hadoop étant écrit en Java, la connaissance des bases de Java est essentielle pour apprendre Hadoop.

Voici les meilleures ressources disponibles sur Internet pour préparer JAVA: didacticiels pour les développeurs Java et formation en ligne.

Le MIT propose également un cours open source sur Java. Voici le lien: Introduction à la programmation en Java

[Remarque: toute langue OOP est obligatoire pour apprendre le Big Data]

3] Structure de données et algorithmes:

Oui! Vous devriez avoir les compétences DS & Algorithm. Vous pouvez suivre un cours du MIT pour les maîtriser: Introduction aux algorithmes

En savoir plus sur les types de données fondamentaux (pile, files d’attente et sacs), les algorithmes de tri (tri rapide, mergesort, heapsort) et les structures de données (arbres de recherche binaires, arbres rouge-noir, tables de hachage), Big O.

4] Compétences analytiques:

La pensée analytique vous fera PRO dans Big Data. Je vous suggère d’essayer de résoudre des énigmes sur Internet ou de commencer à jouer aux échecs. Faire ces choses élargira votre pensée analytique.

5] Compétences de base de données:

Comme vous allez jouer avec beaucoup de données, ma recommandation est d’apprendre le SQL. Vous pouvez apprendre le SQL ici: SQLZOO ou sur la chaîne YouTube de “Manish Sharma”: tutoriels SQL pour débutants / tutoriels Oracle Database.

6] Mathématiques:

Si vos connaissances en mathématiques vont jusqu’au calcul multivariable et à l’algèbre linéaire, vous aurez suffisamment de connaissances de base pour comprendre la quasi-totalité des probabilités / statistiques / apprentissage automatique du travail.

  • Calcul multivariable: Vous pouvez apprendre ici le calcul multivariable. S’il vous plaît visitez ce lien: Calcul multivariable
  • Algèbre linéaire numérique / Calcul formel / Algèbre matricielle: Algèbre linéaire
  • Apprenons Stat et Probabilité: La probabilité s’appelle aussi science de l’incertitude et ce concept est le plus important dans le domaine de la DS. Vous pouvez l’apprendre des cours du MIT. Voici le lien youtube: youtube.comProbabilité et statistiques MIT
  • Voici une autre série importante du MIT: Mathématiques pour l’informatique

7] Apprentissage automatique:

“L’apprentissage machine” est un autre sujet important que tout le monde devrait apprendre. Vous devez avoir des connaissances en mathématiques pour apprendre le ML. Voici le meilleur tutoriel au monde sur ML: Lecture Collection | Apprentissage machine

8] PNL:

Voici quelques ressources qui vous aideront dans la PNL:

Livre:

Traitement de la parole et du langage (2e édition): Daniel Jurafsky, James H. Martin: 9780131873216: Amazon.com: Livres

Tutoriels Web:

Intelligence artificielle Traitement du langage naturel

Voici la meilleure référence, Traitement du langage naturel avec Python

9] Système d’exploitation:

Développer une solide connaissance du système d’exploitation à partir des ressources suivantes.

Ressources en ligne: UC Berkeley Computer Science 162

10] Cryptographie:

Voici le lien vers les maîtres en cryptographie: Tutoriel sur la cryptographie

11] Programmation parallèle:

Programmation parallèle et concurrente dans Haskell: Techniques pour la programmation multicœur et multithread de Simon Marlow est un livre fantastique.

La dernière étape:

La procédure ci-dessus en 11 étapes est vraiment importante si vous voulez faire une belle carrière dans les technologies Big Data. Après l’achèvement de l’étape ci-dessus, j’aimerais vous demander de visiter le lien suivant et de commencer à vous renseigner sur le Big Data:

Université Big Data | Cours de science des données

**** Travail de projet ****

Voici un autre moyen de saisir ce qu’un projet Big Data pourrait signifier pour votre entreprise ou votre projet: étudiez comment d’autres personnes ont appliqué l’idée.

Voici quelques exemples concrets de Big Data en action:

  • Les entreprises de produits de consommation et les organisations de vente au détail surveillent les médias sociaux tels que Facebook et Twitter pour obtenir un aperçu sans précédent du comportement des clients, des préférences et de la perception des produits.
  • Les fabricants surveillent les données de vibrations infimes de leurs équipements, qui changent légèrement au fur et à mesure de leur usure, afin de prédire le temps optimal pour leur remplacement ou leur maintenance. Le remplacer trop tôt gaspille de l’argent; le remplacer trop tard déclenche un arrêt de travail coûteux
  • Les fabricants surveillent également les réseaux sociaux, mais avec un objectif différent de celui des spécialistes du marketing: ils l’utilisent pour détecter les problèmes d’assistance après-vente avant qu’une défaillance de la garantie ne devienne publiquement préjudiciable.
  • Le gouvernement rend publiques les données au niveau national, régional et municipal pour permettre aux utilisateurs de développer de nouvelles applications pouvant générer un bien public. Découvrez comment les agences gouvernementales réduisent considérablement les obstacles à la mise en œuvre de données ouvertes avec NuCivic Data
  • Les entreprises de services financiers utilisent des données extraites des interactions avec les clients pour répartir leurs utilisateurs en segments parfaitement ajustés. Cela permet à ces institutions financières de créer des offres de plus en plus pertinentes et sophistiquées.
  • Les agences de publicité et de marketing surveillent les médias sociaux pour comprendre la réactivité des campagnes, promotions et autres supports publicitaires.
  • Les compagnies d’assurance utilisent l’analyse du Big Data pour déterminer quelles demandes d’assurance habitation peuvent être traitées immédiatement et lesquelles nécessitent une visite en personne validante de la part d’un agent.
  • En adoptant les médias sociaux, les organisations de vente au détail engagent les défenseurs de la marque, changent la perception des antagonistes de la marque et permettent même à des clients enthousiastes de vendre leurs produits.
  • Les hôpitaux analysent les données médicales et les dossiers des patients pour prédire les patients susceptibles de demander une réadmission dans les quelques mois suivant leur sortie. L’hôpital peut alors intervenir dans l’espoir d’empêcher une nouvelle hospitalisation coûteuse.
  • Les entreprises basées sur le Web développent des produits d’information qui combinent les données recueillies auprès des clients pour offrir des recommandations plus attrayantes et des programmes de coupons plus efficaces.
  • Les équipes sportives utilisent les données pour suivre les ventes de billets et même pour suivre leurs stratégies.

Conseil: Suivre les 11 étapes, mettre en œuvre l’un des projets mentionnés et ajouter votre CV, signifie beaucoup pour le recruteur.

Remarque pour les développeurs Java: les développeurs Java peuvent ignorer les étapes relatives à l’apprentissage de Java car ils travaillent déjà dans le même domaine.

Big Big Luck Pour votre carrière Big Data.

[Note: Si vous avez besoin d’aide, n’hésitez pas à me laisser un message.]

Références:

Réponse d’Akash Dugam à Où devrais-je commencer pour apprendre le développement du Big Data?

Réponse d’Akash Dugam à Quelle est la différence entre un analyste de données et un analyste commercial?

Réponse d’Akash Dugam à Existe-t-il un site Web sur lequel nous pouvons apprendre gratuitement Data Science?

Réponse d’Akash Dugam à Qu’est-ce qui fait que Python est si rapide pour l’analyse de données à grande échelle par rapport à R ou SAS?

Réponse d’Akash Dugam à Quelles sont les compétences nécessaires pour devenir testeur de Big Data?

Réponse d’Akash Dugam à Est-il utile qu’un informaticien connaisse les systèmes d’exploitation?

Le terme Big Data désigne les ensembles de données volumineux ou complexes que les logiciels d’application de traitement de données traditionnels ne permettent pas de gérer. Chaque jour, nous créons 2,5 milliards de octets de données et y ajoutons 90% des données mondiales générées au cours des deux dernières années. Ces données proviennent de nombreuses industries, telles que les informations météorologiques collectées par des capteurs, d’énormes modèles de données provenant de sites de médias sociaux, des images, des vidéos, des rapports sur les soins de santé, etc. Cette grande quantité de données s’appelle Big Data.

Hadoop est un outil open source de Apache Software Foundation. Il est conçu pour traiter efficacement de gros volumes de données. Un projet open source signifie qu’il est librement disponible et même son code source peut être modifié.

Un guide complet sur Hadoop

Quiz en ligne sur le Big Data Hadoop

Big Data Flashcards

Carrières et rôles dans le Big Data

Applications Big Data dans divers domaines

Architecture Hadoop

Hadoop fonctionne à la manière maître – esclave. Il existe un nœud maître et il y a n nombres de nœuds esclaves où n peut être égal à 1000. Le maître gère, entretient et surveille les esclaves, tandis que les esclaves sont les nœuds de travail réels. Master doit être déployé sur du matériel de configuration de qualité et non pas sur du matériel de base, car il s’agit de la pièce maîtresse du cluster Hadoop.

Le maître ne stocke que les méta-données (données sur les données) tandis que les esclaves sont les nœuds qui stockent les données. Les données sont stockées de manière distribuée dans le cluster. Le client se connecte au nœud maître pour effectuer n’importe quelle tâche.

Meilleurs livres pour apprendre le Big Data et Hadoop

Certification Big Data orientée industrie

Composants de l’écosystème Hadoop

une. Système de fichiers distribué Hadoop

HDFS est le système de stockage principal de Hadoop. Le système de fichiers distribués (HDFS) Hadoop est un système de fichiers basé sur Java qui fournit un stockage de données évolutif, à tolérance de pannes, fiable et économique pour les données volumineuses. HDFS est un système de fichiers distribué qui fonctionne sur du matériel standard. HDFS est déjà configuré avec la configuration par défaut pour de nombreuses installations. La plupart du temps, la configuration de grands groupes est nécessaire. Hadoop interagit directement avec HDFS à l’aide de commandes similaires à un shell.

Composants de HDFS:

je. NameNode

Il est également appelé nœud maître. NameNode ne stocke pas les données réelles ni l’ensemble de données. NameNode stocke les métadonnées, c’est-à-dire le nombre de blocs, leur emplacement, sur quel rack, quel datanode les données sont stockées et d’autres détails. Il se compose de fichiers et de répertoires.

Tâches de NameNode

  • Gérer l’espace de noms du système de fichiers.
  • Régule l’accès du client aux fichiers.
  • Exécute l’exécution du système de fichiers, telle que nommer, fermer, ouvrir des fichiers et des répertoires.

Lire le Guide complet des composants de Hadoop Ecosytem et de leurs rôles

Pour en savoir plus sur l’infrastructure et la technologie Big Data, je vous suggère de commencer par lire ces deux documents. S’il vous plaît ne sautez pas de lire ces papiers.

1. MapReduce: traitement simplifié des données sur les grands clusters https://www.usenix.org/legacy/pu…

2. Le système de fichiers Google: http: //static.googleusercontent… .

Hadoop map-réduire est modelé sur Google Map-réduire (document 1 ci-dessus) et Hadoop Distributed File System (HDFS) sur le système de fichiers Google (système 2 ci-dessus). Ainsi, après avoir lu ces deux articles, vous devez comprendre le mécanisme général de Hadoop.

Une fois que vous avez terminé, commencez à étudier Hadoop en général en utilisant http://hadoop.apache.org/ et leur section docs: http://hadoop.apache.org/docs/cu… .

Si vous voulez en savoir plus sur HDFS architechture, lisez: http://archive.cloudera.com/cdh/…

Ensuite, il est temps de passer aux travaux pratiques.

Accédez à Exécution de Hadoop sur Ubuntu Linux (cluster à nœud unique) – Michael G. Noll pour configurer un cluster Hadoop à nœud unique, puis exécutez l’exemple de tâche de décompte de mots et vérifiez le résultat.

Ensuite, accédez à Exécution de Hadoop sur Ubuntu Linux (cluster à plusieurs nœuds) – Michael G. Noll pour configurer un cluster à plusieurs nœuds et exécuter le travail wordcount en exemple.

Consultez ensuite le code source du nombre de mots sur WordCount – Hadoop Wiki et essayez de le comprendre.

Vous devez maintenant être confiant quant au fonctionnement global de Hadoop et aux forces motrices de Big Data. Maintenant, vous devez choisir dans quel sous-domaine vous voulez travailler? Analyse Big Data (rédaction de travaux Map-réduire et de codes racleur / ruche ainsi que de l’apprentissage automatique) ou infrastructure Big Data (système de fichiers Hadoop, infrastructure Map-reduction, etc.). Sur cette base, vous pouvez continuer à explorer cette région.

Edit: Ajouter une section pour les ingénieurs front-end
Si vous êtes plutôt du genre à jouer au front-end, je vous conseillerais d’étudier MongoDBand Hive. Ensuite, lisez un peu sur HBase. Pour une utilisation pratique, configurez un serveur MongoDB ou Hive, chargez un jeu de données assez volumineux (environ 500 Go environ), puis écrivez un frontal. Voir si c’est assez réactif. Vous voudrez peut-être aussi lire sur AVRO ( http://avro.apache.org/ ). Avro est le système d’échange de données le plus couramment utilisé entre le grand magasin de données principal et principal, tel que HBASE.

Bien que Hadoop soit traditionnellement utilisé pour le traitement par lots dorsal (nettoyage, filtrage, analyses, etc.), cela va bientôt changer. Les gens ont déjà commencé à l’utiliser comme leur principal magasin de données (en remplaçant les moteurs de SGBDR tels que MySQL). Il existe également de nombreux ouvrages sur le traitement de données volumineuses en temps réel et les alternatives à Hadoop.

Bonne chance!

En ce qui concerne DRY (ne vous répétez pas), voici quelques-unes des questions-réponses de Quora qui traitent des sujets que vous souhaitez apprendre –
1. Cette Q & R met en évidence de très bons articles et quelques liens vers le framework map-réduire Hadoop, qui est utilisé pour traiter le Big Data sur un cluster de machines et une solution NoSQL, Cassandra.
Quelle est la meilleure façon d’apprendre Hadoop et Cassandra pour commencer?

En outre, cette vidéo est très utile:

Une fois que vous avez fini de regarder la vidéo ci-dessus, lisez tous les articles ci-dessus et quelques-unes des préfaces des livres et des introductions indiqués dans le Q & A ci-dessus, commencez à exécuter des exemples simples comme le nombre de mots avec le vm proposé par Cloudera. Intégrez les détails de cet exemple simple mais néanmoins puissant pour expliquer comment un problème aussi simple que wordcount peut être distribué.

Une fois que vous avez terminé, vous pouvez essayer divers exemples, écrire vos tâches personnalisées, etc. Une fois que cette phase est terminée et que votre compréhension du cadre est solide, vous pouvez apprendre d’autres outils de cet écosystème et les maîtriser.

Ensuite, écoutez les différents cas d’utilisation présentés par divers présentateurs de Hadoop World, HBaseCon, que vous pouvez rechercher sur youtube.

2. Quel est le meilleur moyen d’apprendre à traiter et à analyser des données volumineuses?

3. Big Data: Comment apprendre le Big Data?

NoSQL:
Comprendre le théorème de la PAC. Débarrassez-vous de quelques notions difficiles que vous avez peut-être apprises dans le SGBDR.

Apprenez bien une technologie noSQL. Commencer à jouer avec mongo (Installer MongoDB sur OS X) ou Cassandra (The Apache Cassandra Project) est assez facile. Rédigez des requêtes à leur encontre et apprenez-en les limites, mais profitez en même temps des choses puissantes que vous pouvez faire.

Un autre livre pour une lecture rapide de diverses bases de données noSQL modernes et pour vous donner suffisamment d’informations pour commencer: Sept bases de données en sept semaines: Un guide des bases de données modernes et du mouvement NoSQL: Eric Redmond, Jim R. Wilson: 9781934356920: Amazon.com: Livres

Allez-y, utilisez davantage d’API clientes pour interagir avec des bases de données.

Détendez-vous sur des irc et écoutez différents cas d’utilisation.

J’espère que cela t’aides.

Où va le Big Data?

Comprendre ce qu’est le Big Data implique moins de comprendre le passé et de savoir où va le Big Data dans le futur (une cible en mouvement). Cependant, il est difficile de prédire l’avenir du Big Data. Rod Smith (vice-président IBM Emerging Internet Technologies) est mieux placé que beaucoup d’autres pour prévoir ce que l’avenir inconnu signifie pour le Big Data. Voici ce qu’il a à dire à ce sujet.

Big Data 2.0

Les mégadonnées et les analyses continueront de perturber le monde des affaires. Selon Rod, nous entrons maintenant dans une autre phase – une transformation numérique en temps réel, dans laquelle les entreprises réalisent que le temps nécessaire pour s’adapter aux marchés, aux opportunités clients et aux menaces se rétrécit rapidement. Il est donc tout à fait possible d’exploiter les données historiques et en continu avec une analyse «juste à temps» au moment des décisions commerciales. En outre, dans un proche avenir, l’apprentissage automatique jouera un rôle important dans l’automatisation de nombreux processus et opérations de l’entreprise. Tout cela suscite d’énormes progrès en matière d’innovation dans l’industrie et au sein des communautés open source.

Nouveaux impératifs commerciaux et technologies

Rod décrit 15 impératifs commerciaux et les technologies qu’il surveillera au cours des prochaines années, ce qui pourrait permettre aux entreprises de faire face aux forces disruptives:

  1. Créer de nouveaux modèles commerciaux en temps réel.
  2. Améliorer la prise de décision tenant compte des risques.
  3. Lutte contre la fraude et contre les menaces.
  4. Optimiser les opérations.
  5. Attirer, développer et fidéliser les clients.
  6. Développer une analyse juste à temps.
  7. Répondre aux priorités changeantes des clients et des entreprises.
  8. Améliorer l’interactivité pour diriger les demandes de solutions.
  9. Implémentation de tableaux de bord en temps réel.
  10. Maîtriser l’apprentissage machine (ML).
  11. Permettre à plusieurs secteurs d’activité d’accéder aux mêmes données principales.
  12. Développer une plus grande interactivité côté client.
  13. Mise en œuvre du déploiement de produits allégés en jours… pas en semaines.
  14. Sensibilisation des processus aux contextes.
  15. Implémentation Open Source.

Les entreprises souhaitant se préparer à l’impact transformateur du Big Data 2.0 devront déterminer quels impératifs / technologies auront un impact significatif sur leurs opérations! Les étudiants en Big Data devront se familiariser avec les 15 impératifs / technologies.

“L’avenir dépend de ce que vous faites aujourd’hui.”

~ Mahatma Gandhi

Watch Rod décrit en détail: Où va le Big Data?

_________________________________________________________
L’auteur a organisé cette vidéo et n’a aucun lien avec IBM ou Rod Smith.

D’un point de vue où le «big data» ne diffère que des données «normales» sous les aspects Volume, Velocity et Variety (les fameux 3 V), vous pouvez placer le big data dans le contexte plus large de la science des données, une discipline qui vise extraire des connaissances ou des idées à partir de données (non) structurées. Vous pouvez considérer que les mégadonnées sont intrinsèquement connectées ou font même partie de la science des données, car les données sur lesquelles vous travaillerez en tant que data informatic ou membre d’une équipe de science des données peuvent être des mégadonnées.

Je pense que vous devriez donc également envisager l’apprentissage des mégadonnées dans le contexte plus large de l’apprentissage de la science des données. Découvrez les huit étapes mentionnées dans cette infographie: Apprendre la science des données – Infographie. Ce que vous devez apprendre est le suivant:

  • Vous devez comprendre en quoi les données volumineuses diffèrent des données ordinaires.
  • Comprendre l’approche distribuée pour le stockage et le traitement des données, et
  • Comprendre les avantages du framework informatique de cluster en mémoire.

Mon explication peut sembler abstraite jusqu’à maintenant, mais était nécessaire pour expliquer les étapes que j’ai franchies lorsque je suis entré dans la science des données:

  • Étape 1. Assurez-vous de pouvoir programmer en Python ou en Scala

Pour Python, vous pouvez envisager les cours suivants: Apprendre Python pour Data Science – Cours en ligne et Introduction à Python pour Data Science, où vous apprendrez le Python dont vous avez besoin pour démarrer avec la science des données. Il existe bien sûr d’autres matériaux, mais au final, j’ai mentionné ces ressources, car vous devriez viser à obtenir l’introduction à Python la plus pratique et la plus concrète possible.

Pour Scala, j’ai utilisé «Programming in Scala» de Odersky. Ce livre est une introduction complète, avec de nombreux exemples pour commencer. Je n’ai trouvé aucun cours de Scala offrant une approche très pratique, alors je vais simplement mentionner le livre ici. En outre, si vous considérez le paragraphe suivant, vous comprendrez également pourquoi une approche pratique de l’apprentissage de Scala est moins pertinente au début.

Que choisir? Pensez aux langages de programmation que vous connaissez déjà. Si vous avez de l’expérience en programmation avec Java, optez pour Scala. Cela devrait être une évidence, car Spark fonctionne simplement mieux avec Scala et n’est pas trop difficile à gérer si vous êtes déjà à ce niveau. Si vous débutez, choisissez Python, mais envisagez de passer à Scala à long terme.

  • Étape 2. Initiez-vous à Spark

Pensez à suivre Introduction à Apache Spark et aux cours de suivi. Découvrez également les didacticiels, la documentation, les cours et les ressources Apache Spark au même endroit | SparkHub et Learn Spark. Lorsque vous passez en revue ces exemples, essayez d’obtenir le plus d’activités possibles. Cela vous aidera à long terme!

  • Étape 3. Vérifiez le cadre Hadoop

Obtenir un aperçu complet du cadre Hadoop n’est pas un luxe excessif. Utilisez Hadoop: The Definitive Guide pour une introduction très détaillée. Pour vraiment apprendre à travailler avec, par exemple, la pile Cloudera, vous pouvez télécharger Cloudera Enterprise Downloads.

  • Étape 4. Faites connaissance avec / révisez la gestion des données

Un composant que beaucoup de gens oublient lorsqu’ils travaillent avec Big Data est le fait que les données elles-mêmes apportent à la table des problèmes spécifiques sur lesquels vous n’avez généralement pas à vous inquiéter lorsque vous travaillez avec de simples fichiers texte.

Pensez sérieusement à comprendre ce que signifie implémenter la qualité des données et la gestion des données maître. Si vous ne possédez pas de connaissances de base en matière d’entreposage de données et de BI, mettez cela avant même de commencer par la qualité des données et la gestion des données maître. Plus tard, vous devriez également envisager l’architecture de données et la sécurité des données.

  • Étape 5. Pratique!

Dans un premier temps, consultez quelques exemples, tels que Snowplow / spark-example-project et databricks / learning-spark.

Ensuite, trouvez un gros problème de données et commencez à travailler dessus. Suivez toutes les étapes que vous suivriez avec le flux de travail de la science des données: importer les données, explorer, gérer, modéliser, valider et visualiser. Vous pouvez utiliser les étapes que vous avez déjà décrites ci-dessus pour parcourir la plupart des phases, mais n’oubliez pas de vous familiariser également avec un logiciel de visualisation tel que Tableau ou d’utiliser la bibliothèque de visualisation Bokeh.

  • Étape 6. Envisagez de suivre une formation (facultatif)

Si vous le souhaitez vraiment, vous pouvez également suivre une formation en entreprise ou privée de Cloudera ou Databricks Training.

Avant de commencer à apprendre quelque chose, commencez par comprendre pourquoi vous voulez l’apprendre.

Ensuite, apprenez ensuite les concepts de base de cette technologie.

Si vous voulez apprendre le Big Data, commencez par comprendre ce qu’il en est, pourquoi Big Data, etc.

  • Qu’est-ce que le Big Data?

Les mégadonnées sont des actifs d’information variétale volumineux, à grande vitesse et variés, qui nécessitent une plate-forme innovante pour des informations et une prise de décision améliorées.

  • Pourquoi Big Data?

Le Big Data est un moyen de résoudre tous les problèmes non résolus liés à la gestion et au traitement des données, une industrie antérieure était habituée à vivre avec de tels problèmes. Grâce aux analyses de données volumineuses, vous pouvez déverrouiller des schémas cachés, connaître la vue à 360 degrés des clients et mieux comprendre leurs besoins.

Pour des réponses plus détaillées, consultez le lien ci-dessous:

Pourquoi apprendre le Big Data – Introduction au Big Data – DataFlair

Vous pouvez vous référer ci-dessous aux liens pour les meilleurs livres de Big Data Hadoop:

Meilleurs livres pour apprendre le Big Data Hadoop – DataFlair

Après avoir appris les bases du Big Data, lancez Hadoop.

  • Qu’est-ce que Hadoop?

Hadoop est un outil open source de ASF – Apache Software Foundation. Un projet open source signifie qu’il est librement disponible et que même son code source peut être modifié selon les exigences. Si certaines fonctionnalités ne répondent pas à vos besoins, vous pouvez les modifier en fonction de vos besoins. La plupart du code Hadoop est écrit par Yahoo, IBM, Facebook et Cloudera.

Pour une réponse détaillée, consultez le lien ci-dessous:

Didacticiel Hadoop – Guide d’introduction à Hadoop – DataFlair

  • Pourquoi Hadoop?

Voyons maintenant pourquoi Hadoop est très populaire, pourquoi Hadoop a conquis plus de 90% du marché du Big Data.

Hadoop n’est pas seulement un système de stockage, il constitue également une plate-forme de stockage et de traitement de données. Il est évolutif (plusieurs nœuds peuvent être ajoutés à la volée), tolérant aux pannes (même si les nœuds tombent en panne, les données peuvent être traitées par un autre nœud) et Open source (peut modifier le code source si nécessaire).

Après avoir appris Hadoop, passez à MapReduce et HDFS

Didacticiel Hadoop HDFS – Introduction, architecture, fonctionnalités et opérations HDFS – DataFlair- pour HDFS

Tutoriel Hadoop MapReduce – Un guide complet – DataFlair – pour MapReduce

Je vais vous raconter comment j’ai commencé à apprendre le Big Data. Mais avant cela, laissez-moi vous dire que lorsque vous parlez de données volumineuses, cela signifie un ensemble de technologies telles que Hadoop, Hive, Base, Mongodb, Voltdb, Voldemort, CouchDB, Cassandra, RedShift, SAP HANA, Neo4j, etc. Vous devez sélectionner quelques-unes des technologies que vous souhaitez apprendre.

En fonction du cas d’utilisation, ils peuvent être divisés en catégories telles que magasin de clé-valeur, bases de données graphiques, magasin de colonnes, etc. Il existe également une autre division des logiciels libres et propriétaires. Hadoop est open source alors que SAP HANA est propriétaire. Je vous recommanderais d’opter pour les technologies open source en raison de divers avantages, tels que l’aide communautaire, la disponibilité, l’utilisation, le développement et la contribution. Cela réduirait la liste aux technologies telles que hadoop, hive, hbase, etc., qui sont actuellement les technologies Big Data les plus utilisées!

Comment j’ai commencé: Il y a environ 3 ans, alors que la plupart de mes travaux étaient consacrés à Java et à Linux, on m’a donné environ deux à trois semaines pour explorer hadoop pour un nouveau projet (UIDAI). J’ai immédiatement téléchargé leurs fichiers binaires à partir du site Web Apache et commencé à suivre les instructions pour configurer un cluster à un seul nœud qui est facilement disponible après une recherche sur Google. Lors de la configuration du cluster, j’ai appris beaucoup de choses sur Hadoop, ses processus de travail et divers autres modules. Il m’a fallu environ une semaine pour configurer et comprendre un cluster à un seul noeud pour la toute première fois et une semaine supplémentaire pour l’étendre à 3 autres systèmes appartenant à mes pairs au bureau du même réseau. En 15 jours environ, j’avais une idée des processus de base et de leur configuration. Ensuite, j’ai lu son API java et exécuté quelques exemples de programmes pour l’accès au système de fichiers et les programmes MapReduce. Tout cela, je l’ai fait sans livres électroniques ni instructions de quelqu’un simplement en faisant de simples recherches sur Google et en suivant divers articles sur Internet. La bonne partie est que vous pouvez toujours vérifier tout ce que vous avez appris en cherchant dans vos requêtes et en comparant 2 ou 3 articles de sites Web différents pour vous assurer de la validité de tout processus ou concept.

C’est toujours bien de suivre un ebook pour apprendre dans un ordre systématique, mais certains comment cela n’a pas été le cas avec moi. J’ai fait la pratique d’abord puis je suis passé à la théorie et il semble que ce fût plus efficace pour moi.

Faites-moi confiance, vous trouverez la plupart des solutions que vous souhaitez en apprenant grâce à une recherche Web simple !! 🙂

Je veux juste donner les faits en premier.

Le Big Data n’est pas une technologie unique pouvant être apprise en un mois. Le Big Data est un cluster de nombreuses technologies et outils utilisés dans différents scénarios.

Certains pré-requis pour poursuivre ce géant sont:

1) Système d’exploitation Unix / Linux et script shell:

Les bonnes pratiques en matière de scripts shell vous facilitent la vie dans le Big Data. De nombreux outils ont l’interface de ligne de commande où les commandes sont basées sur les commandes de script et les commandes Unix.

2) Core Java:

Comme Hadoop (un framework pour jouer avec Big Data) est une API Java, les compétences de programmation en Core Java nous permettent d’apprendre des modèles de programmation comme MapReduce.

Les scripts C ++, Python, Shell peuvent également effectuer le traitement Big Data. Java est un peu direct et vous n’avez pas besoin de le faire avec l’aide d’une tierce personne.

3) SQL (langage de requête structuré):

SQL, plus connu sous le nom de ‘suite’, facilite Hive (un langage de requête pour Big Data). Jouer avec SQL dans les bases de données relationnelles nous aide à comprendre le processus de requête de grands ensembles de données.

Après les conditions préalables, nous avons dû décider de ce que nous devions faire avec le Big Data. Les outils et technologies relatifs au domaine d’intérêt sont les suivants:

Supposons que vous travaillez avec le framework ‘Hadoop’:

-> Modélisation et développement Hadoop: MapReduce, Pig, Mahout
-> Stockage Hadoop et gestion des données: HDFS, HBase, Cassandra
-> Stockage, synthèse et requête de données Hadoop: Hive, Sqoop
-> Collecte, agrégation et analyse de données Hadoop: Chukwa, Flume
-> Gestion des métadonnées, des tables et des schémas Hadoop: HCatalog
-> Gestion de cluster Hadoop, planification des travaux et workflow: ZooKeeper, Oozie et Ambari
-> Sérialisation des données Hadoop: Avro

Vous pouvez être multi-tâches en apprenant plus d’une des activités mentionnées ci-dessus. Eh bien, c’est une question de choix et d’intérêt.

Le diagramme ci-dessous peut donner une meilleure compréhension:


PS: 1) Je suis un étudiant qui étudie actuellement certains des attributs mentionnés ci-dessus.
2) Mes excuses pour la longueur de cette réponse, mais cela vaut la peine de bien connaître l’arsenal du Big Data.
3) Il existe de nombreux frameworks qui offrent des solutions pour jouer avec le Big Data. J’ai choisi Hadoop pour expliquer.
4) Le Big Data est énorme! Vous devez comprendre ce que vous voulez faire avec précision

Vous pouvez apprendre Hadoop vous-même en vous inscrivant aux cours en ligne autodidactes disponibles sur différents sites Web. Vous n’aurez donc pas à assister aux cours à un moment de la journée ni à apprendre les concepts à votre rythme, en fonction de votre temps et de votre disponibilité.

Certaines des choses qui pourraient être nécessaires avant de commencer le processus d’apprentissage de Hadoop.

  • Connaissance de base de la programmation Java et des concepts de programmation orientée objet. Hadoop est actuellement développé par Apache et basé sur la plate-forme Java. Avoir quelques connaissances en Java aiderait certainement à comprendre les concepts de Hadoop et à suivre les fonctionnalités et la terminologie associées à la programmation Hadoop.
  • Vous pouvez également apprendre quelques commandes de base disponibles avec SQL, car Hadoop traite principalement de l’énorme quantité de données appelée Big Data. Avoir quelques connaissances en SQL aiderait donc à traiter et à manipuler les données volumineuses et à effectuer les mises à jour ou les modifications souhaitées. .
  • La méthode préférée pour installer et gérer les clusters Hadoop consiste à utiliser les paramètres de ligne de commande du shell Linux. Donc, pour les professionnels explorant les opportunités offertes par Hadoop, certaines connaissances de base de Linux sont nécessaires pour configurer Hadoop.
  • Ainsi, après avoir acquis quelques connaissances sur ces compétences de base, vous pouvez commencer par vous préparer à la certification Hadoop proposée par divers instituts tels que Hortonworks, Cloudera, MapR, etc.

Les formations en ligne basées sur l’auto-apprentissage sont beaucoup moins chères et les personnes seraient en mesure de travailler sur leur temps libre et de saisir les idées et les connaissances requises si elles faisaient de leur mieux et s’efforçaient sincèrement de se préparer à l’examen.

Vous devez passer au moins 2 à 3 heures par jour à parcourir les documents d’étude et à comprendre les concepts liés au Big Data et à la façon dont il est géré par Hadoop, ainsi que les raisons pour lesquelles Hadoop est le meilleur moyen de suivre le traitement du Big Data. .

Nous pouvons faire la formation en ligne pendant notre temps libre et être en mesure de suivre le matériel d’étude comme suggéré et de passer les examens simulés, ce qui nous aiderait à donner une idée du type de questions qui seraient posées lors de l’examen de certification.

De nombreux établissements proposent des cours d’autoapprentissage en ligne pour l’examen de certification Hadoop. Un des sites Web qui fournit les cours de certification en ligne à auto-apprentissage est le site Web de Whizlabs et j’ai fourni les autres liens connexes ci-dessous.

Plus d’informations sur l’examen de certification Hadoop

Ici, je vous fournis quelques informations utiles pour l’apprentissage de l’examen de certification Hadoop.

  • Certification HDPCA à Hortonworks
  • Certification d’administrateur certifié HDP (HDPCA)
  • Qu’est-ce que Apache Hadoop?
  • Quel est le lien entre Big Data et Hadoop?

J’espère que ça aide!!

Si vous avez besoin d’aide pour vous préparer aux examens de certification Hadoop, veuillez m’envoyer un message.

IMHO, cela dépend vraiment du type de carrière que tu embrasserais.

D’après les discussions que j’ai avec les partenaires industriels et les conseillers scientifiques de Data ScienceTech Institute, les entreprises ont besoin de six saveurs d’experts Big Data.

Le “(Big) Data Analyst” est plus en fin de chaîne et collabore avec Data Scientists sur des aspects techniques et mathématiques. Elle / Il se concentre sur l’exploration de données grâce à la connaissance des affaires, pour l’extraction de précieux “KPI”. Elle / Il est très talentueux pour expliquer des résultats complexes aux décideurs, grâce à une pratique avancée en visualisation de données.

Le “consultant en données” est l’homme du milieu (dans le bon sens du terme!) Qui interagit avec tous les acteurs de la chaîne de valeur des données (de l’architecte Big Data au CDO et / ou au CTO). Elle aide les organisations à définir, structurer et mettre en œuvre leur stratégie de données. Sa compréhension globale des outils et techniques disponibles sur le marché, sa créativité et sa sensibilité aux objectifs dictés par l’entreprise lui permettent de proposer des solutions innovantes.

Le “Chief Data Officer” est un dirigeant expérimenté, en charge de la gouvernance des données de l’organisation et de la création de valeur. Elle incarnera les stratégies de données de l’organisation en servant les autres dirigeants et le conseil d’administration avec des «pépites d’or» significatives de la connaissance pour la prise de décision au niveau de l’entreprise.

Ces trois profils requièrent une formation similaire à celle de notre programme de maîtrise ès maîtrise en Big Data Analyst 😉

***

Le “Big Data Architect” est un expert en informatique avancée permettant le stockage, la manipulation et la restitution de ces “Big Data”. Elle conçoit, implémente et administre des plates-formes de données, voire des centres de données, localement, dans le cloud ou en mode hybride, à l’aide de plates-formes telles qu’Amazon AWS. Elle / Il est au tout début de la chaîne de valeur des données et est l’un des piliers de tout projet Big Data.

Le “Data Scientist” participe au cœur des opérations scientifiques. Il / Elle a des compétences techniques et mathématiques très avancées et peut exploiter des outils d’entreprise (SAS, SPSS, etc.) ainsi que l’analyse, la conception et la mise en oeuvre de ses propres algorithmes dans divers langages de programmation pour transformer les données en informations, puis en connaissances utiles, toujours. axée sur les entreprises.

Le “Chief Technology Officer” est un dirigeant expérimenté, en charge des outils, des techniques, des méthodes et des solutions pour l’ensemble de l’organisation. Elle dirige leur analyse et leur conception et est responsable de leurs évolutions au niveau de l’entreprise.

Ces trois profils nécessitent une formation similaire à celle de notre programme de maîtrise en sciences pour concepteur de données de master 😉

J’espère que cela t’aides!

Bonjour Sayantan Naha,

Commençons bien! C’est un domaine vaste et accablant. L’apprentissage du Big Data est très simple lorsque vous définissez des objectifs et des attentes claires. Le grand nombre de concepts, de technologies et de langages de programmation peut vous démotiver si vous ne disposez pas de jalons clairs. Pour réussir, vous devez définir votre cible avant de commencer votre parcours d’apprentissage. Définir une cible n’est possible que lorsque vous en êtes informé. Alors, laissez-nous comprendre les fonctions 3 clés tout en travaillant avec le Big Data:

Collecte de données et intégration de données : il couvre toutes les actions nécessaires pour acquérir, stocker et mettre à disposition les données dans un format lisible pour les utilisateurs.

Analyse et exploration des données : c’est là que vous apprenez des données et en tirez des informations utiles.

Visualisation des données : le dernier mais non le moindre, couvre toutes les actions pour transformer des données abstraites en données visuelles.

Vous pouvez maintenant structurer votre parcours d’apprentissage autour des compétences de base requises pour aborder chaque étape. Selon votre objectif, vous voudrez peut-être vous concentrer sur une étape donnée ou bien comprendre chacune des étapes.

Si vous souhaitez avoir une compréhension globale de ces sujets sans entrer dans les détails, vous pouvez commencer avec des cours en ligne gratuits. Internet est inondé avec eux. Si vous souhaitez approfondir l’une des compétences de base, vous aurez certainement besoin de plus de quelques heures de cours en ligne gratuits. Mon conseil est de s’inscrire à un programme de certification. Ce sont généralement des programmes payants et ils vous maintiennent engagés et concentrés sur votre objectif car vous ne voulez pas gaspiller votre argent. De plus, vous pouvez ajouter la certification à votre CV ou à votre profil LinkedIn pour mettre en valeur votre réussite.

Parcourez ces articles. Ils vous aideront à définir vos objectifs dans ce vaste domaine.

Comment devenir un développeur Big Data

Qu’est-ce qu’un scientifique? Un rôle clé dans l’analyse des données et une carrière lucrative

Quelles sont les meilleures certifications Big Data?)

Une fois que l’objectif est clair, vous pouvez commencer à le poursuivre. En supposant que vous possédez les compétences informatiques de base, vous devez apprendre le python (très facile, pourrait être appris rapidement), Java (pour le travail de développeur), la structure de données et les algorithmes , les bases de données (SQL, NoSQL, MongoDB, Cassandra) , le langage machine, PNL, De plus, vous devez posséder ou développer de bonnes compétences analytiques et statistiques.

Plus important encore, vous devriez avoir une formation pratique et beaucoup de pratique.

Heureux d’apprendre!

Experfy est un marché de consultation et de formation en science des données basé à Harvard. Voici un cours sur Big Data Analyst dispensé par Sumit Pal (ancien directeur de l’architecture Big Data chez Verizon et auteur de SQL on Big Data Cette formation sur le Big Data offre l’information nécessaire pour commencer à effectuer un travail d’analyste sur le Big Data. des domaines tels que les bases du Big Data, les bases de Hadoop et des outils tels que Hive et Pig – qui permettent de charger de grands ensembles de données sur Hadoop et de commencer à jouer avec les requêtes SQL Like à l’aide de l’analyse Hive and do et de Data Wrangling avec Pig. Ce cours en ligne enseigne également les notions de base d’apprentissage automatique et de science des données en utilisant R, et couvre brièvement Mahout – une recommandation, un moteur de clustering sur de grands ensembles de données.Le cours comprend des exercices pratiques avec Hadoop, Hive, Pig et R avec quelques exemples d’utilisation de R faire du travail d’apprentissage machine et de science des données

Il existe également un cours sur la formation pour développeurs Hadoop.

Apprenez les bases de la création d’applications industrielles à l’aide de l’écosystème Hadoop. Outre les bases, nous introduisons des sujets avancés tels que le hachage intelligent, la détection d’inclinaison de partition, la simulation Monte Carlo, l’élagage de partition et les prédicats d’envoi. Les nouvelles normes de l’industrie en matière de formats de données, de messagerie et de traitement de flux orientent les étudiants dans leurs études futures.

Les données volumineuses sont en fait un mot à la mode et incluent de nombreux sujets sur les mathématiques et les calculs. Voici une rupture mineure de ce à quoi vous pouvez vous attendre et des sources. J’ai un parti pris pour Python, qui est devenu le langage de choix pour la plupart des applications Big Data.

L’informatique:
Machine Learning – Il existe des bibliothèques qui peuvent vous aider à implémenter les principaux algorithmes. Le principal est scikit-learn (scikit-learn: apprentissage automatique en Python). C’est vraiment un bon endroit pour commencer à traiter des données. Il est écrit en Python.

Traitement du langage naturel – Python a une implémentation assez nette de la PNL appelée NLTK (Natural Language Toolkit).

Paradigme de programmation:
MapReduce : C’est un paradigme de programmation qui parallélise toute tâche de calcul. Vous pouvez consulter le document Google Paper original (Page sur Usenix).
MapReduce est essentiellement au cœur du Big Data. Vous pouvez implémenter Hadoop MapReduce. Cependant, si vous débutez, vous pouvez implémenter MinceMeat, une implémentation simple et légère de MapReduce en Python.

Bases de données:
Il existe de nombreuses bases de données non-SQL qui peuvent être utilisées comme MongoDB, HBase.

Une simple application BigData ne sera pas très difficile à mettre en œuvre, pour les hackers. Découvrez comment cet acheteur-pirate a mis en œuvre la régression logistique pour trouver le spam: (Apprentissage automatique et Spam lié: mon pinceau avec la folie)

Il existe également de nombreux cours sur Coursera et Advance Your Education avec des cours gratuits en ligne pour étudier le Big Data et l’intelligence artificielle.

Bonne chance.

L’analyse Big Data vous permet de personnaliser le contenu ou l’apparence de votre site Web en temps réel pour convenir à chaque consommateur qui accède à votre site Web, en fonction, par exemple, de son sexe, de sa nationalité ou de l’endroit où il s’est retrouvé sur votre site. L’exemple le plus connu est probablement celui qui offre des recommandations personnalisées: l’utilisation par Amazon du filtrage collaboratif en temps réel (IBCF) pour alimenter ses fonctions «Achetés fréquemment» et Les clients qui ont acheté cet élément ont également acheté des fonctionnalités ou des cours Big Data. sur Intellipaat LinkedIn suggérant ‛des personnes que vous connaissez peut-être ‘ou‛ des sociétés que vous voudrez peut-être suivre’. Et l’approche fonctionne: Amazon génère environ 20% de revenus supplémentaires via cette méthode.

Le Big Data peut également vous aider à comprendre comment les autres perçoivent vos produits afin que vous puissiez les adapter, ou votre marketing, le cas échéant. L’analyse de textes non structurés sur les médias sociaux vous permet de révéler les sentiments de vos clients et même de les segmenter dans différents lieux géographiques ou parmi différents groupes démographiques.

En plus de cela, les Big Data vous permettent de tester en un clin d’œil des milliers de variantes de conceptions assistées par ordinateur afin de vérifier comment des modifications mineures, par exemple dans les matériaux, affectent les coûts, les délais et les performances. Vous pouvez alors augmenter l’efficacité du processus de production en conséquence.

ÉCHELLE.

Avec le Big Data, vous souhaitez pouvoir évoluer très rapidement et de manière élastique. Quand et où vous voulez. Sur plusieurs centres de données et dans le cloud, si besoin est. Vous pouvez passer au ciel ou au tesson jusqu’à ce que les vaches rentrent à la maison avec les systèmes de base de données relationnelle de votre père sans jamais vous y rendre. Et la plupart des solutions No SQL telles que MongoDB ou HBase ont leurs propres limitations en matière de mise à l’échelle… ..

PERFORMANCE.

Dans un monde en ligne où les retards à la nanoseconde peuvent vous coûter des ventes, les mégadonnées doivent évoluer à des vitesses extrêmement élevées, quelle que soit l’ampleur de votre mise à l’échelle ou les charges de travail que votre base de données doit effectuer. Les paniers de traitement des données du SGBDR et de la plupart des solutions NoSQL pèsent lourdement sur les performances ……….

DISPONIBILITÉ CONTINUE.

Lorsque vous comptez sur le Big Data pour alimenter vos applications métier essentielles génératrices de revenus, 24 heures sur 24, 7 jours sur 7, même une disponibilité élevée n’est pas suffisante. Vos données ne peuvent jamais baisser. Un certain temps d’indisponibilité est intégré au SGBDR et à d’autres systèmes NoSQL ……….

DIVERSITÉ DE LA CHARGE DE TRAVAIL.

Le Big Data se présente sous toutes les formes, couleurs et tailles. Les schémas rigides n’ont pas leur place ici; Au lieu de cela, vous avez besoin d’une conception plus flexible. Vous souhaitez que votre technologie s’adapte à vos données, et non l’inverse. Et vous voulez être en mesure de faire davantage avec toutes ces données: effectuez des transactions en temps réel, exécutez des analyses aussi rapidement et trouvez tout ce que vous voulez en un instant à partir d’océans de données, peu importe ce que ces données peuvent prendre.

SÉCURITÉ DES DONNÉES.

Les données volumineuses comportent des risques importants lorsqu’elles contiennent des données de carte de crédit, des informations d’identification personnelle et d’autres actifs sensibles. La plupart des plates-formes Big Data NoSQL ont peu ou pas de mécanismes de sécurité en place pour protéger vos données Big.

GESTION

Rester en avance sur le big data en utilisant la technologie SGBDR est une entreprise coûteuse, qui prend du temps et qui est souvent futile. Et la plupart des solutions NoSQL souffrent de complexité opérationnelle et de configurations complexes.

COÛT.

Relever même l’un des défis présentés ici avec les SGBDR ou même la plupart des solutions NoSQL peut coûter un joli centime. Faire le big data de la bonne façon n’a pas à casser sa tirelire.

Les entreprises utilisent la puissance des informations fournies par le Big Data pour établir instantanément qui a fait quoi, quand et où. Visitez ce lien pour apprendre…. Big Data La plus grande valeur créée par ces informations opportunes et significatives issues de grands ensembles de données est souvent le processus décisionnel d’entreprise efficace que permettent ces informations.

Extrapoler des informations précieuses à partir de très grandes quantités de données structurées et non structurées provenant de sources disparates dans différents formats nécessite une structure et des outils appropriés. Pour obtenir un impact commercial maximal, ce processus nécessite également une combinaison précise d’outils de ressources humaines, de processus et d’analyse.

Cela pourrait inclure les journaux de serveur Web et les données Internet Click Stream, le contenu des médias sociaux et les rapports d’activité des réseaux sociaux, le texte des courriels et réponses des clients, les enregistrements des appels de téléphone portable et les données de machine capturées par des capteurs connectés à INTERNET Big Data avec des données semi-structurées et non structurées de ce type, mais des sociétés de conseil telles que Gartner Inc. et Forrester Research Inc. considèrent également que les transactions et autres données structurées sont des composants valables des applications d’analyse de Big Data.

Les mégadonnées peuvent être analysées à l’aide des outils logiciels couramment utilisés dans les disciplines de l’analyse avancée, telles que l’exploration de données par analyse prédective, l’analyse de texte et la méthode statique. Le logiciel de BI traditionnel et les outils de visualisation peuvent également jouer un rôle dans le processus d’analyse. Cependant, les données semi-structurées et non structurées risquent de ne pas s’intégrer parfaitement dans un entrepôt de données traditionnel basé sur une base de données relationnelle. En outre, les entrepôts de données peuvent ne pas être en mesure de traiter les demandes de traitement posées par des ensembles de données volumineuses devant être mis à jour fréquemment ou même en permanence, par exemple des données en temps réel sur les performances des applications mobiles ou des oléoducs et gazoducs. En conséquence, de nombreuses entreprises cherchant à collecter, traiter et analyser des données volumineuses se sont tournées vers une nouvelle catégorie de technologies, notamment Hadoop et des outils connexes tels que Yarn Spook, Spark et Pig, ainsi que des bases de données No Sql. Ces technologies constituent le noyau d’un framework logiciel open source prenant en charge le traitement d’ensembles de données volumineux et variés sur des systèmes en cluster.