J’ai jamais fait ce genre d’analyse mais je pense qu’il y aurait du nlp pour marquer les posts, analyser les chronologies de posts et puis clusteriser selon le langage et la chronologie. La grosse douille c’est de récup les données (un peu de crawling sur old.reddit.com pourrait se tenter si l’api coute trop chere).
J’ai jamais fait ce genre d’analyse mais je pense qu’il y aurait du nlp pour marquer les posts, analyser les chronologies de posts et puis clusteriser selon le langage et la chronologie. La grosse douille c’est de récup les données (un peu de crawling sur old.reddit.com pourrait se tenter si l’api coute trop chere).
Bulk Downloader for Reddit fonctionne très bien si on n’est pas gourmand sur le nombre de requêtes par minute.