Veja o gráfico abaixo. É a distribuição dos gêneros musicais brasileiros considerando apenas 2 medidas: a quantidade de acordes distintos utilizados nas composições (eixo horizontal) e a quantidade de palavras distintas utilizadas nas letras (eixo vertical).

Com apenas essas duas medidas, fica bastante nítido como os alguns gêneros se posicionam de maneira isolada em relação aos outros. Enquanto o Rap/Hip Hop destaca-se ao mesmo tempo pela alta quantidade de palavras e pelo baixo número de acordes, a Bossa Nova tem um alto número de acordes e uma quantidade mediana de palavras. Já a MPB apresenta altos índices em ambas as medidas. Outros gêneros se aglomeram perto da origem do eixo, como o Funk, o Axé Music, o Reggae e o Infantil.

O que informações como a diversidade dos acordes (saiba o que é isso) ou o tamanho do vocabulário utilizado têm a nos dizer sobre as diferentes vertentes da música brasileira? Desde a “velha guarda” da MPB das décadas de 30, 40 e 50, que criou mitos como Herivelto Martins e Elizeth Cardoso, passando pela Bossa Nova, pelo Punk Rock “aforrozado” dos Raimundos e finalmente (!) chegando aos novos sertanejos, seria possível identificar padrões e diferenças claras entre artistas e gêneros musicais?

Há razões para crer que sim, vide o gráfico acima!

E se considerarmos ainda outras variáveis, como o tamanho médio dos acordes (já digo porque isso pode ser relevante) ou atribuirmos uma “pontuação” para o vocabulário usado pelo artista levando em consideração o quanto que esse mesmo vocabulário é usado pelos demais artistas? Talvez assim melhoremos a caracterização de cada gênero!

O que eu fiz aqui foi um breve estudo que analisa toda a produção musical brasileira levando em consideração dois aspectos centrais: os acordes utilizados nas composições e o vocabulário presente nas letras. Os indicadores que caracterizam cada um desses aspectos permitirão não apenas perceber as características pertinentes a cada artista e gênero isoladamente, como também encontrar similaridades entre eles, permitindo a criação de agrupamentos talvez inimagináveis. Ao final de tudo, será possível compor um ranking de artistas, de acordo com a complexidade de sua produção musical (não falo em qualidade das músicas pois haveria necessariamente uma conotação subjetiva).

Faço as devidas referências. Estudos similares já foram feitos, muitos em nível internacional [a] [b]. Abordando a música brasileira, com foco nas letras, destaco os trabalhos de Thiago Marzagão e do portal Nexo. Acredito que a análise dos acordes seja um aspecto inédito no Brasil. Se eu estiver errado, avise nos comentários.

Os dados e as técnicas



Obtive os dados das músicas brasileiras das seguintes fontes:

Cifras: escrevi código em Python para baixar as cifras do site Cifras.com.br: total de 44 mil cifras [1].

[1]. Letras: também usando Python, baixei as letras do site Letras.com.br: total de 102 mil letras[2].

As técnicas utilizadas, além da simples análise descritiva dos dados, dizem respeito a processamento, análise de textos e cálculo de similaridade. Este tutorial foi uma mãe pra mim. Caso você esteja mais interessado nos códigos, veja-os aqui.

Indicadores utilizados

Criei indicadores agrupados por artista. Assim, quando se fala em quantidade de acordes utilizados, por exemplo, estamos falando do total de acordes de todas as músicas do artista. Quando analisado o gênero musical, as medidas resultam da média ponderada pela quantidade de músicas de cada artista.

Para análise das cifras, usei estes:

Quantidade de acordes distintos

Percentual de acordes distintos

Tamanho médio dos acordes[3]

Raridade do acorde, considerando a quantidade de vezes que cada acorde é utilizado por outros artistas[4]

Para análise das letras, estes:

Quantidade de músicas

Quantidade distinta de palavras

Percentual de palavras distintas

Raridade das palavras, considerando a quantidade de vezes que cada palavra é utilizada por outros artistas[5]

Vamos aos Resultados!



Dividi os resultados nas partes seguintes do post:

Parte 2: Resultados – Análise das Composições (Acordes)

Parte 3: Resultados – Análise das Composições (Letras)

Parte 4: Resultados – Análise Geral dos Artistas + Análise Temporal

