Statistiche di /r/italy da giugno 2018 a giugno 2019

Continuo con le analisi su Reddit e /r/italy in particolare.

Questa volta ho analizzato un anno di contenuti di /r/italy, dal 1 giugno 2018 al 1 giugno 2019.

Inoltre l'analisi è divisa in due parti:

una prima sui post (numero di voti, commenti, autori, eccetera)

una seconda sulle parole (quanti commenti o post hanno generato)

Perimetro

L'analisi include 30.373 post dal 2018-06-01T01:46:09+00:00 al 2019-06-01T00:31:05+00:00.

Sono stati inclusi anche i post cancellati o di utenti cancellati, sempre che abbia salvato l'id in tempo.

Ho preferito aspettare qualche giorno per chiudere i risultati, per avere gli ultimi upvote. In ogni caso i voti dei contenuti degli ultimi sei mesi possono cambiare, in quanto non ancora archiviati da Reddit.

Qualche numero per partire

Iniziamo con qualche numero facile e generico sui post.

Il totale del karma, cioè la somma di tutti i punteggi di tutte le submission è 1.084.969

Il numero dei commenti di tutti i post è 797.011 .

I self post sono il 37.64% , cioè sono 11.433 (su 30.373). I post NSFW sono 183 .

Analisi sui post

I Voti

Il voto medio è 35.7 , ma la deviazione standard è di 115 , molto alta. Per capirci:

Il 25% dei post è a 1 o meno

25% dei post è a o meno Il 50% dei post è a 5 o meno

50% dei post è a o meno Il 75% dei post è a 25 o meno

Per i più curiosi, ho disegnato un istogramma cumulativo in scala logaritmica.

La classifica

Ecco i 5 thread più votati:

Il numero medio di commenti riportati da Reddit è circa 26 , ma la deviazione standard è di 80 . Per capirci:

Il 25% dei post è a 1 o meno

dei post è a o meno Il 50% dei post è a 5 o meno

dei post è a o meno Il 75% dei post è a 22 o meno (ancora meno degli upvote!)

Per i più curiosi, ho disegnato un istogramma cumulativo in scala logaritmica.

Di seguito un grafico di TUTTI i thread: sulle X (in orizzontale) il numero dei commenti, sulle Y (in verticale) il voto (o punteggio o score).

Per i più nerd, ne ho anche una versione logaritmica.

Gli autori

Analisi degli autori più attivi. I primi 13 poster, per numero di post, totalizzano 2.944 submission (su 30.373, quindi quasi il 10% ).

Sommando il punteggio dei loro post, arriviamo a 93.825 karma (su 1.084.969), quindi 8.6% .

Di seguito i 13 autori più prolifici in un grafico: sulle X (in orizzontale) il numero dei post, sulle Y il karma totale accumulato con i post.

I domini

Analizziamo ora i siti più condivisi su Reddit.

Nota: ho cercato di normalizzare i domini il più possibile, per convertire i link youtu.be in youtube.com per esempio. Qualcosa potrebbe essermi sfuggito.

I migliori

I migliori 3 domini sono:

Dominio Karma totale Numero di post 30373 reddit.com 432.296 (39,84%) 4.330 (14,25%) self.italy 177.725 (16,38%) 11.433 (37,64%) imgur.com 94.331 (8,69%) 865 (2,85%)

Per karma

Un bel grafico a torta dei 10 domini con più karma accumulato tra tutti i post.

Per numero

Ora gli stessi 10 domini, i valori rappresentano il numero di post.

Gli orari

Ho trovato interessante gli orari in cui vengono inviati i post, in particolare rispetto al karma accumulato e al numero di post.

In arancione il punteggio atteso, cioè x per il karma totale dei post dell'anno diviso il numero di post stessi.

L'orario riportato è quello relativo al fuso orario Italiano.

I giorni della settimana

In che giorno appaiono più post? E quando vengono più votati?.

Non si nota molto, ma il sabato e domenica il rapporto upvote su numero di post è migliore: grafico specifico.

Analisi sulle parole

Per questa sezione mi sono concentrato su quante volte una certa parola compare nei commenti di /r/italy.

Operatori telefonici

Un argomento molto ricorrente sono gli operatori telefonici, le loro offerte e i disservizi.

Il grafico seguente mostra quante volte un certo operatore è stato nominato in quella settimana.

Per curiosità ho fatto un conto e l'indice di correlazione di Pearson tra "vodafone" e "Iliad" è di 0.873 .

Piatti

Quali sono i piatti preferiti da r/italy?

Il seguente grafico mostra tutti i post con più di 1 voto, suddivisi per piatto.

Cibo

Di quale cibo si parla di più?

Il seguente grafico mostra quanti commenti sono stati fatti, per settimana.

I politici

Questo invece quante volte appare il cognome di un politico nei commenti.

Focus Salvini

Avete idea di quanti post su Salvini sono stati aperti su r/italy?.

Ve lo dico io: 953 .

Nel seguente grafico tutti i post con punteggio almeno 2 dove "Salvini" appare nel titolo.

Tecnicismi

Ho usato PRAW per estrarre le submission, salvate per /r/italy_SS e riaggiornate.

Il tutto è stato salvato su CSV.

L'analisi e i grafici sono stati fatti su Jupyter Notebook, con pandas, NumPy e matplotlib; in cloud su Azure Notebook.

Ho formattato con Visual Studio code e buttato su Netlify.

Un grazie a LaTalpa123 per la revisione; a Fennec223 per l'idea sul grafico per giorno della settimana; a iltredici, giovablackops98, ulhio e kidmenot per le correzioni.