Bonjour,
Un grand merci pour ces explications très claires. Cela m'a beaucoup aidée.
Juste une précision si on travaille avec du texte en français (ou tout autre langue comportant des accents). "L'opération de nettoyage a pu abîmer les meta data alors il faut les remettre avec la commande suivante" * avant de construire la matrice de mots:
docs<-Corpus(VectorSource(docs))
Sinon il y a un problème avec les accents (ex: é devient à ou similaire)
and the two customers demanded that IWC <a href="http://www.showreplicawatches.co.uk">replica watches uk</a> develop a large-scale <a href="http://www.swisswatchjust.co.uk">replica watches</a> with all the advantages of its ancestor's marine timer.
Bonjour ! Article très intéressant, malheureusement en exécutant à la lettre votre code, voici ce qui s'affiche, assez rapidement hélas :
> dtm <- TermDocumentMatrix(docs)
Error in UseMethod("meta", x) :
pas de méthode pour 'meta' applicable pour un objet de classe "try-error"
De plus : Warning messages:
1: In mclapply(x$content[i], function(d) tm_reduce(d, x$lazy$maps)) :
all scheduled cores encountered errors in user code
2: In mclapply(unname(content(x)), termFreq, control) :
all scheduled cores encountered errors in user code
Super article, très instructif !
À noter que la racinisation est aussi possible avec le package tm.
J'en parle notamment ici (et de son execution avec R) : Premiers pas en text-mining avec R – Partie 2
Ce process permet de diminuer le bruit d'environ 15% sur mon corpus.
À bientôt,
Colin
Commentaires