Uma análise "imparcial" dos dados do desmatamento da Amazônia

By Neale Ahmed El-Dash on Sep 13, 2019 Mostrar Código

Nesse post faremos uma previsão do desmatamento da Amazônia para o ano de 2019 (Ago/2018 à Jul/2019). Além disso discutiremos o cálculo dessa previsão a partir dos dados do Instituto Nacional de Pesquisas Espaciais (INPE) sobre desmatamento e a importância da reprodutibilidade na Ciência.

Introdução Há mais de 1 més, escrevi um post sobre a polêmica relacionada aos dados de desmatamento da Amazônia. O tema continua sendo debatido de forma recorrente na mídia. Porém as estatísticas publicadas normalmente se referem às taxas de variação mensal, com a discussão focada na questão do aumento relativo (ao ano anterior) do desmatamento, não a quantidade de desmatamento em si. Pensando sobre a questão, me dei conta de que seria interessante ter uma visão mais abrangente da situação. Queria uma visão mais completa, considerando toda a série histórica dos dados. Além disso, queria ver um mapa com a localização do desmatamento, mostrando a dinâmica do processo ao longo dos anos. Com isso em mente, tive a ideia de fazer um GIF (Graphics Interchange Format) animado com esses dados, o que permitiria que as pessoas pudessem ter uma visualização espacial da questão e que o gráfico pudesse ser facilmente divulgado nas mídias sociais e no WhatsApp. O presente post foi inicialmente planejado para explicar a geração desse GIF animado. Porém, ao enviar uma versão preliminar do arquivo para uma amiga, ela me perguntou: “Mas e aí, o desmatamento em 2019 aumentou de fato?”. Foi quando caiu a ficha. Eu já estava com todos esses dados na mão; porque não fazer uma previsão para 2019, tentando responder à pergunta para a qual todos querem saber a resposta? Deixei o post sobre o GIF para a semana que vem (futuramente disponível nesse link), e resolvi falar sobre a previsão do desmatamento para 2019. No título do post coloquei a palavra imparcial entre aspas porque, como discuti no post da semana passada sobre imparcialidade, é quase impossível ser imparcial. Porém na minha análise dos dados do desmatamento, fiz pouquíssimas suposições, e me concentrei apenas em mostrar os dados absolutos do INPE de forma abrangente, considerando toda a série temporal existente. A única exceção foi fazer algumas suposições ao calcular a previsão do desmatamento para 2019. A final de contas, é impossível prever o futuro sem fazer suposições.

Validação dos dados e reprodutibilidade das estimativas As informações sobre desmatamento se baseiam nos dados obtidos por dois sistemas de apuração via satélite (DETER e PRODES) do Instituto Nacional de Pesquisas Espaciais (INPE), a partir dos quais as estatísticas do desmatamento são calculadas. Os dados fornecidos por esses sistemas são de naturezas diferentes e publicados para duas grandes áreas de referência: Amazônia Legal e o Bioma da Amazônia . Os dados do DETER contém alertas gerados visando a fiscalização mensal. Incluem não somente informações sobre possíveis desmatamentos (definido pelo INPE como a remoção completa da cobertura florestal primária por corte raso), como também sobre mineração, queimadas e degradação . O uso desses dados para discutir apenas o desmatamento de corte raso exige o uso de um filtro para considerar apenas essa informação. Cada linha na base de dados identifica um local onde está acontencendo uma mudança na cobertura florestal, como também uma classificação do tipo de mundaça e quando ela foi observada. Esse local é geocodificado e pode ser identificado num mapa. Os dados são frequentemente atualizados e estão disponíveis desde agosto de 2016. Esses dados podem ser acessados por esse link. Os dados do PRODES, por outro lado, mostram somente as áreas desmatadas. Essas áreas são estimadas de forma diferente das áreas do DETER. As estimativas do PRODES são mais refinadas que as do DETER, porém demoram mais tempo para serem calculadas. Elas são mais confiáveis e servem para estatísticas oficiais. Esses dados estão disponíveis para download em dois arquivos diferentes, um contendo os dados de 2008 a 2018, disponíveis nesse link e o outro o acumulado do período de 1988 a 2007 disponível nesse link. Infelizmente esse último não permite identificar os anos separadamente. Um dos pilares de pesquisas científicas é a replicabilidade. Isso é uma receita básica para garantir que os resultados são confiáveis e transparentes, como também para garantir que compreendemos exatamente o que foi feito. Por esse motivo incluo, em todos os meus posts, os botões vermelhos com o texto “Mostrar Código”. Ao clicar neles, o código em R utilizado para fazer as análises e gerar gráficos e/ou tabelas é mostrado, permitindo ao leitor reproduzir minha análise. Para replicar os resultados publicados sobre desmatamento, é importante poder duplicá-los a partir dos dados do INPE. Para isso utiliza-se estimativas publicadas como benchmark para validar a análise dos dados. Nesse caso específico, a estratégia foi baixar os dados do DETER e do PRODES, calcular as estimativas anuais a partir do PRODES e mensais a partir do DETER, e depois compará-las com os dados de reportagens sobre os dados de desmatamento. No caso das estimativas mensais do DETER, utilizei essa reportagem do jornal Folha de São Paulo como referência. Nessa reportagem, o jornalista diz que a taxa de variação mensal para agosto de 2019 foi de 222%, se comparado ao mesmo mês do ano anterior. O autor diz ainda que as estimativas mensais do DETER foram de 1.701 \(km^2\) em Ago/2019 e 526 \(km^2\) em Ago/2018. Porém, ao utilizar os dados do DETER, as minhas estimativas para esses períodos foram de 1.716 \(km^2\) e 683 \(km^2\), respectivamente. Apesar das estimativas de desmatamento serem próximas às publicadas, a variação estimada é 151%, bem abaixo dos 222% da reportagem. Tentei reproduzir o resultado de várias formas, mas não consegui. A única alternativa que eu não testei foi calcular as estimativas considerando o Bioma da Amazônia ao invês da Amazônia Legal, porém essa alternativa também seria problemática porque o INPE usa como referência nas suas publicações a Amazônia Legal. Já no caso das estimativas anuais do PRODES, utilizei essa publicação do INPE. E também nesse caso, não consegui reproduzir as estimativas exatamente. Veja na figura 1 a comparação das minhas estimativas obtidas da base do PRODES com aquelas divulgadas na mídia pelo próprio INPE. Apesar disso, as estimativas são muito próximas, e o comportamento delas também. A correlação entre as minhas estimativas e a do INPE é de 0,98. Mostrar Código Dados do PRODES Meu objetivo nessa sessão de código não é discutir como gerar gráficos interessantes usando a biblioteca ggplot2 do R. Apenas incluirei o código utilizado. Meu objetivo é mostrar como reproduzir os meus resultados. Primeiramente, as bases de dados do INPE utilizadas aqui são grandes. E especificamente no caso do DETER, ela se altera com o tempo. Para garantir que o leitor possa utilizar os mesmos dados que eu utilizei, estou disponibilizando um link para download dos dados. Esses dados foram convertidos para o formato rds do R, pois dessa forma ocupam menos espaço no meu servidor. No código abaixo, além de baixar a base do PRODES, os dados são consolidados anualmente. Também acrescentamos à base os dados da publicação oficial do INPE, para comparar os resultados.

td = tempdir() # #código baixando os dados do site do INPE # url <- "http://terrabrasilis.dpi.inpe.br/download/prodes-legal-amz/vector/yearly_deforestation_2008_2018.zip" # file.data = tempfile(tmpdir=td, fileext=".zip") # download.file(url,file.data,method="curl") # unzip(zipfile=file.data,files="yearly_deforestation_2008_2018.dbf",exdir=td) # prodes <- foreign::read.dbf(paste0(td,"/yearly_deforestation_2008_2018.dbf"),as.is = TRUE) #código baixando os dados do site do PollingData url <- "http://www.pollingdata.com.br/blog/mapa desmatamento - 09-09-2019/dados_deter_prodes_pd.zip" file.data = tempfile(tmpdir=td, fileext=".zip") download.file(url,file.data,method="curl") unzip(zipfile=file.data,files="prodes.rds",exdir=td) prodes <- readRDS(paste0(td,"/prodes.rds")) prodes$ano <- as.numeric(prodes$ANO) prodes.ano <- prodes %>% group_by(ano) %>% summarise( prodes = sum(AREAKM,na.rm = TRUE) ) %>% arrange(ano) df.ano <- prodes %>% mutate(ano=as.character(ano)) df.ano$oficial <- c(12911,7464,7000,6418,4571,5891,5012,6207,7893,6947,7536,NA) df.ano <- df.ano %>% filter(!is.na(oficial)) gg.ano <- ggplot(data=df.ano) + geom_col(aes(x=ano,y=prodes),fill="lightblue") gg.ano <- gg.ano + geom_point(aes(x=ano,y=oficial,colour="PRODES"),size=2) gg.ano <- gg.ano + scale_colour_discrete(name = "Estimativa publicada") gg.ano <- gg.ano + theme(axis.text.x = element_text(angle = 90, vjust=0.4)) gg.ano <- gg.ano + labs(title = "Reproduzindo estimativas do PRODES (INPE)", subtitle = "Estimativa anual de 2008 a 2018") gg.ano <- gg.ano + scale_fill_discrete(name = "Estimativa calculada") gg.ano <- gg.ano + geom_text(aes(x=ano,y=prodes,label = round(prodes,0)), vjust = 2.5) gg.ano <- gg.ano + ylab("Desmatamento (km2)") + xlab("") gg.ano

Não conseguir reproduzir exatamente as estimativas me deixou bastante incomodado, por causa da importância da reprodutibilidade para a ciência. Os dados são fornecidos pelo INPE para facilitar a reprodutibilidade, porém faltam informações cruciais sobre o seu uso. Por um lado, estão disponíveis para download, têm um dicionário, são atualizados frequentemente e os sistemas/modelos utilizados são explicados com detalhes em relatórios técnicos. Existe uma API para facilitar o acesso aos dados. Além disso, também são divulgados os resultados utilizando um app de mapa interativo muito legal. Por outro lado, faltam algumas explicações que permitiriam a um pesquisador leigo analisar os dados. Deveria haver uma explicação passo-à-passo sobre como as taxas anuais são calculadas. Dessa forma a reprodutibilidade tão importante para a ciência poderia ser alcançada. Mesmo para as taxas mensais de desmatamento do DETER, que não se destinam a previsões oficiais, tais explicações seriam importantes para padronizar as estimativas baseadas neles. Isso se torna crucial porque estimativas estão sendo produzidas por várias instituições, mas não é claro como foram tratados os dados. Do jeito que está hoje, não é suficiente apenas citar a fonte de dados como sendo o INPE; seria necessário citar também quem calculou as estimativas e os critérios utilizados, para que possam ser replicadas.

A previsão do desmatamento para 2019 Um dos principais objetivos desse post é fazer uma previsão do total de desmatamento da Amazônia em 2019. As estimativas de desmatamento publicadas na mídia apontam que haverá aumento do desmatamento em 2019, mas de quanto? Nesta seção descreverei como calculei minha previsão para esse ano. É importante enfatizar que, para manter a compatibilidade com a metodologia do INPE, a previsão de 2019 será relativa ao período de Agosto/2018 à Julho/2019. Os dados do DETER para esse período já estão disponíveis, porém os dados do PRODES, fonte das estimativas oficiais do INPE, não estão. Minha estratégia foi criar um fator de correção, que é aplicado nas estimativas do DETER de 2019 para obter uma previsão do desmatamento de acordo com PRODES 2019. Para fazer isso, um ponto importante é compatibilizar as duas bases, de forma que contemplem o mesmo período. Na base do PRODES as áreas são classificadas segundo um ano de referência. O período de referência é de Agosto do ano anterior até Julho do ano corrente. Para os dados do DETER, existem apenas as datas em que as áreas foram detectadas, porém não estão classificadas segundo um ano de referência. Tal classificação, respeitando os critérios do PRODES, tem que ser feita manualmente na base do DETER. Note que estamos falando sobre prever o futuro, algo que exige que suposições sejam feitas. Nesse caso específico, minha suposição é que a relação de grandeza entre as estimativas do DETER e do PRODES no passado serão mantidas nesse ano. Essa parece ser uma suposição razoável, porém não conheço os detalhes de como são geradas esssas estimativas para avaliar, de fato, se essa é uma suposição aceitável ou não. Por ser uma estimativa que não leva em consideração como esses sistemas funcionam, essa previsão será denominada de “ingênua”. Como a base do DETER tem um histórico muito pequeno, com dados dos anos de 2017 a 2019 apenas, é possível avaliar o comportamento do fator de correção apenas para os dois últimos anos completos. Na tabela 1, mostramos esses fatores. O fator de correção baseado nos dados de 2017 é de 1,58 e o de 2018 é de 1,67, um pouco maior. Ou seja, são valores próximos, porém o mais recente é um pouco maior. Optei por utilizar o fator mais recente, pois se houve alguma alteração no sistema do DETER, esse valor será mais correto. Destaquei em azul na tabela o ano de 2019, onde os valores em vermelho foram gerados baseados numa suposição: essencialmente assumimos que o fator de correção para 2019 será o mesmo de 2018. Table 1: Cálculo da previsão do PRODES para 2019. Ano PRODES DETER Fator Estimativa 2008 13319 PRODES 2009 6313 PRODES 2010 6298 PRODES 2011 5696 PRODES 2012 4431 PRODES 2013 5400 PRODES 2014 5115 PRODES 2015 6118 PRODES 2016 7269 PRODES 2017 7000 4422 1.58 PRODES 2018 7235 4329 1.67 PRODES 2019 11860 7096 1.67 PREVISÃO Mostrar Código Dados do DETER Os dados consolidados do PRODES incluem somente dados de desmatamento. Já nos dados do DETER existem outros tipos de classificações para as áreas mapeadas na base de dados. São elas: “DESMATAMENTO_CR”, “MINERACAO”, “DEGRADACAO”, “CICATRIZ_DE_QUEIMADA”, “DESMATAMENTO_VEG”, “CS_DESORDENADO”, “CS_GEOMETRICO” e “CORTE_SELETIVO”. No dicionário dos dados do INPE é possível encontrar a descrição do significado dessas classes. Para os fins desse post, basta saber que os dados do DETER têm que ser filtrados, de forma a conterem somente as áreas classificadas como “DESMATAMENTO_CR” (desmatamento de corte raso). No código abaixo, além de importar os dados do DETER e aplicar o filtro descrito acima, também é necessário recodificar as data das detecções das áreas de desmatamento para que estejam em anos compátiveis com os do PRODES. Depois da compatibilização, os dados são consolidados anualmente e a base de dados anual do DETER e do PRODES são juntadas.

# #código baixando os dados do site do INPE # url <- "http://terrabrasilis.dpi.inpe.br/download/deter-amz/deter-amz_public.zip" # file.data = tempfile(tmpdir=td, fileext=".zip") # download.file(url,file.data,method="curl") # unzip(zipfile=file.data,files="deter_public.dbf",exdir=td) # deter <- foreign::read.dbf(paste0(td,"/deter_public.dbf"),as.is = TRUE) #código baixando os dados do site do PollingData url <- "http://www.pollingdata.com.br/blog/mapa desmatamento - 09-09-2019/dados_deter_prodes_pd.zip" file.data = tempfile(tmpdir=td, fileext=".zip") download.file(url,file.data,method="curl") unzip(zipfile=file.data,files="deter.rds",exdir=td) deter <- readRDS(paste0(td,"/deter.rds")) deter <- readRDS(paste0(dir.amazon,"/deter.rds")) deter$data <- as.Date(deter$DATE,format="%Y/%m/%d") deter$anomes <- format(deter$data,"%Y%m") deter <- deter %>% filter(str_detect(CLASSNAME,"DESMATAMENTO_CR")) deter <- deter %>% arrange(ORBITPOINT,CLASSNAME,COUNTY,desc(AREATOTALK)) deter <- deter %>% mutate( ano = case_when( as.numeric(anomes) >= 201608 & as.numeric(anomes) <= 201707 ~ 2017, as.numeric(anomes) >= 201708 & as.numeric(anomes) <= 201807 ~ 2018, as.numeric(anomes) >= 201808 & as.numeric(anomes) <= 201907 ~ 2019, as.numeric(anomes) >= 201908 & as.numeric(anomes) <= 202007 ~ 2020 ) ) deter.mes <- deter %>% group_by(ano,anomes) %>% summarise( deter = sum(AREATOTALK,na.rm = TRUE) ) %>% arrange(anomes) deter.ano <- deter.mes %>% filter(ano <= 2019) %>% group_by(ano) %>% summarise( deter = sum(deter,na.rm = TRUE), meses = n() ) %>% arrange(ano) inpe <- prodes.ano %>% full_join(deter.ano) inpe <- inpe %>% arrange(ano,meses) inpe$meses <- ifelse(is.na(inpe$meses),12,inpe$meses) inpe <- inpe %>% ungroup() %>% mutate( razao = prodes / deter ) razao.prev <- inpe$razao[inpe$ano == 2018] inpe$prev <- ifelse(is.na(inpe$prodes),"PREVISÃO","PRODES") inpe$prodes <- ifelse(is.na(inpe$prodes),inpe$deter * razao.prev,inpe$prodes)

Para ter uma avaliação mais abrangente do desmatamento da Amazônia, é importante analisar a série histórica completa. Utilizamos no gráfico abaixo as estimativas anuais oficiais disponíveis para esse período que podem ser encontrados nessa publicação do INPE. Os dados públicos disponibilizados no site do INPE foram utilizados apenas para gerar a previsão de 2019. Todas as outras informações na figura 2 são oficiais. Essa figura permite uma visualização abrangente do tema, com mais de 30 anos de histórico e inclui uma previsão “ingênua” do desmatamento desse ano. Como toda a discussão acerca do desmatamento tem envolvido questões relacionadas ao governo do atual presidente Bolsonaro, achei que seria interessante incluir no gráfico 2 uma indicação de quem era o presidente em cada período da série, dessa forma contemplando não apenas a dimensão do desmatamento, mas também o espectro político da discussão. Mostrar Código Previsão 2019 No código abaixo utilizamos as base criada anteriormente, denominada inpe, além de criar uma nova base com o histórico de todas as publicações oficiais dos resultados anuais do PRODES. Juntamos a essa base o nome dos presidentes em cada ano analisado. A base inpe é utilizada apenas para incluir a previsão do PRODES 2019 na base com o histórico, denominada df.prodes.

df.prodes <- tibble( ano = c(1988, 1989, 1990, 1991, 1992, 1993, 1994, 1995, 1996, 1997, 1998, 1999, 2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018), prodes = c(21050, 17770, 13730, 11030, 13786, 14896, 14896, 29059, 18161, 13227, 17383, 17259, 18226, 18165, 21651, 25396, 27772, 19014, 14286, 11651, 12911, 7464, 7000, 6418, 4571, 5891, 5012, 6207, 7893, 6947, 7536), presidente = c("Sarney", "Sarney", "Collor", "Collor", "Collor", "Itamar", "Itamar", "FHC", "FHC", "FHC", "FHC", "FHC", "FHC", "FHC", "FHC", "Lula", "Lula", "Lula", "Lula", "Lula", "Lula", "Lula", "Lula", "Dilma", "Dilma", "Dilma", "Dilma", "Dilma", "Dilma / Temer", "Temer", "Temer"), prev = "PRODES" ) df.prodes <- df.prodes %>% add_row(ano=2019,prodes=inpe$prodes[inpe$ano==2019],presidente="Bolsonaro",prev="PREVISÃO") df.prodes$presidente <- factor(df.prodes$presidente,levels=unique(df.prodes$presidente)) df.prodes$ano <- as.character(df.prodes$ano) gg.pres <- ggplot(data=df.prodes) + geom_col(aes(x=ano,y=prodes,fill=prev)) gg.pres <- gg.pres + facet_grid(.~presidente,scales="free_x",space="free_x") gg.pres <- gg.pres + theme(axis.text.x = element_text(angle = 90, vjust=0.4), strip.text.x = element_text(angle=90, color='black',size=10), strip.background = element_rect(fill="lightgray",colour = "black"), panel.margin = unit(0.3, "lines")) gg.pres <- gg.pres + labs(title = "Dados PRODES (INPE) - Desmatamento Amazônia Legal", subtitle = "Estimativa anual de 1988 a 2019 (Ago ano anterior até Jul ano corrente)") gg.pres <- gg.pres + scale_fill_discrete(name = "Estimativa") gg.pres <- gg.pres + geom_text(aes(x=ano,y=prodes,label = round(prodes,0)), vjust=0.4, hjust=1, angle=90) gg.pres <- gg.pres + ylab("Desmatamento (km2)") + xlab("") gg.pres

