Commentaires

Vous n'êtes pas autorisé à poster un commentaire

Commentaire

Visiteur
Avatar
Bonjour,
Un grand merci pour ces explications très claires. Cela m'a beaucoup aidée.
Juste une précision si on travaille avec du texte en français (ou tout autre langue comportant des accents). "L'opération de nettoyage a pu abîmer les meta data alors il faut les remettre avec la commande suivante" * avant de construire la matrice de mots:

docs<-Corpus(VectorSource(docs))

Sinon il y a un problème avec les accents (ex: é devient à ou similaire)

* source: http://edutechwiki.unige.ch/fr/Tutoriel_tm_text_mining_package#Exemple_lecture_de_fichiers_textes_du_tutoriel_officiel_en_format_UTF-8

Cordialement,
S.

Commentaire

Visiteur
Avatar
and the two customers demanded that IWC <a href="http://www.showreplicawatches.co.uk">replica watches uk</a> develop a large-scale <a href="http://www.swisswatchjust.co.uk">replica watches</a> with all the advantages of its ancestor's marine timer.

Commentaire

Administrateur
Avatar
Bonjour,

Je n'ai pas eu ce problème avec la dernière version de R et les dernières versions des packages utilisés


Voici ce que me renvoie la fonction sessionInfo() de R.

Code TEXT :
R version 3.3.2 (2016-10-31)
Platform: x86_64-apple-darwin13.4.0 (64-bit)
Running under: macOS Sierra 10.12.3
locale:
[1] fr_FR.UTF-8/fr_FR.UTF-8/fr_FR.UTF-8/C/fr_FR.UTF-8/fr_FR.UTF-8
attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     
other attached packages:
[1] wordcloud_2.5      RColorBrewer_1.1-2 SnowballC_0.5.1    tm_0.6-2          
[5] NLP_0.1-9         
loaded via a namespace (and not attached):
 [1] Rcpp_0.12.9        bookdown_0.3       digest_0.6.12      rprojroot_1.2     
 [5] slam_0.1-40        backports_1.0.5    magrittr_1.5       evaluate_0.10     
 [9] stringi_1.1.2      rmarkdown_1.3.9002 tools_3.3.2        stringr_1.1.0     
[13] yaml_2.1.14        parallel_3.3.2     htmltools_0.3.5    knitr_1.15.1  

Commentaire

Visiteur
Avatar
Bonjour ! Article très intéressant, malheureusement en exécutant à la lettre votre code, voici ce qui s'affiche, assez rapidement hélas :

> dtm <- TermDocumentMatrix(docs)
Error in UseMethod("meta", x) :
pas de méthode pour 'meta' applicable pour un objet de classe "try-error"
De plus : Warning messages:
1: In mclapply(x$content[i], function(d) tm_reduce(d, x$lazy$maps)) :
all scheduled cores encountered errors in user code
2: In mclapply(unname(content(x)), termFreq, control) :
all scheduled cores encountered errors in user code


Avez-vous eu ce problème ?

Cordialement,

Visito

Commentaire

Visiteur
Avatar
Super article, très instructif !
À noter que la racinisation est aussi possible avec le package tm.
J'en parle notamment ici (et de son execution avec R) : Premiers pas en text-mining avec R – Partie 2
Ce process permet de diminuer le bruit d'environ 15% sur mon corpus.
À bientôt,
Colin

Commentaire

Administrateur
Avatar
Je vous remercie pour avoir notifié cet bug!!

Commentaire

Visiteur
Avatar
Il y a une coquille dans votre code : install.package("SnowballC") mais il faudrait : install.packages("SnowballC")