Os cientistas brasileiros que inventaram a ferramenta de correção ortográfica do Word

Crédito, ICMC/USP Legenda da foto, A cientista Maria das Graças Volpe Nunes foi a coordenadora do projeto que criou o corretor

Quem já escreveu no Word, o processador de textos da Microsoft, com certeza usou o corretor ortográfico do programa - aquele que sublinha palavras erradas e sugere suas versões corretas. Diante da palavra "coreta", por exemplo, ele vai indicar, por meio de uma linha vermelha embaixo dela, que está errada, e quando o corretor for acionado para corrigir todo o texto, ele vai sugerir, para essa palavra, pela ordem: "correta", "corveta", "corta", "coreto", "corretas" e "careta".

O que poucos sabem é que esta tecnologia de correção de texto para o português tem sotaque caipira - no bom sentido, é claro. Ela foi desenvolvida no interior paulista, no Instituto de Ciências Matemáticas e de Computação (ICMC), da Universidade de São Paulo, em São Carlos, a 241 quilômetros da capital.

É uma história que começou em 1993, quando a Itautec, uma fábrica brasileira de computadores hoje extinta, procurou o ICMC, por causa de seus pesquisadores com formação em computação com alguma ligação com linguagem natural, para que desenvolvessem um sistema de correção ortográfica - que depois evoluiu para gramatical e estilística.

Na época, a internet ainda era novidade. "A ideia era vender o sistema na forma de um CD, principalmente para uso em escritórios, no auxílio à redação de cartas e memorandos, ou seja, para usuários com ensino fundamental ou médio", lembra a cientista da Maria das Graças Volpe Nunes, do ICMC, coordenadora do projeto.

"Aceitamos o desafio e, em pouco mais de um ano, já tínhamos a primeira versão do revisor, que, como projeto científico, ficou conhecido como ReGra."

Maria das Graças conta que, para desenvolver a tecnologia do corretor, foi formada uma grande equipe de pesquisadores, estudantes de computação e linguística. O projeto teve apoio da Fundação de Amparo à Pesquisa do Estado de São Paulo (Fapesp), durante um certo período, num programa de parceria com a Itautec. Essa empresa, por sua vez, financiou a equipe durante 15 anos seguidos.

Em 2000, a Microsoft adquiriu uma licença da Itautec para incluir o revisor desenvolvido no ICMC nos seus programas do pacote Office. Mas a equipe continuou a dar assessoria para a Microsoft: novas regras de correção eram implementadas, adaptações eram feitas, como à nova ortografia do português, entre outras coisas. "Em 2008, a Itautec vendeu definitivamente os direitos do produto à Microsoft, e portanto o projeto chegou ao final, com bastante sucesso, por sinal", diz Maria das Graças.

Crédito, Getty Images Legenda da foto, Em 1993, uma fábrica brasileira de computadores procurou cientistas para eles desenvolverem um corretor de texto

Seu colega no projeto, o físico Osvaldo Novais de Oliveira Junior, do Instituto de Física de São Carlos (IFSC) da Universidade de São Paulo (USP), diz que o ReGra foi o primeiro revisor gramatical desenvolvido para o português.

"No nosso caso, com o léxico da versão brasileira da nossa língua", explica. "Quase na mesma época, uma empresa em Portugal, ativa até hoje, desenvolveu um revisor para a versão do idioma como é falado lá. O lançamento do deles deve ter ocorrido pouco depois do nosso."

Segundo Oliveira, o ReGra faz revisão com base em regras - algumas de análise sintática e algumas empíricas, de maneira semelhante ao revisor do inglês disponível no Word da Microsoft. "Que eu saiba, a Microsoft nunca desenvolveu revisor para o português", diz.

Procurada pela BBC Brasil a empresa se manifestou por meio de uma nota: "Inicialmente, a Microsoft realizou acordos para a utilização de licenças de corretores ortográficos de terceiros para muitos idiomas ao redor do mundo, mas gradativamente todos eles foram migrados para a plataforma da empresa. A ferramenta brasileira fez essa migração na versão do Office 2010, o que significa que a tecnologia presente no produto já é 100% Microsoft."

De acordo com Oliveira, pode-se dizer que houve pouquíssimo avanço em revisão gramatical automática nos últimos anos, pois aparentemente as empresas não estão dispostas a fazer grandes investimentos. "Isso seria necessário, pois hoje um revisor gramatical poderia ser muito mais eficiente se combinasse regras com métodos estatísticos e de aprendizado de máquina", complementa.

Oliveira diz que a Itautec "apostou muito numa equipe de jovens pesquisadores, sem garantia de retorno. Apenas para ilustrar, a Itautec investiu o equivalente a cerca de US$ 2 milhões (tínhamos que memorizar valores em dólares, pois a inflação em 1993 ainda era muito alta) nos primeiros anos do trabalho. Não prometemos fazer o revisor, mas apenas um estudo sobre o que era necessário e como criá-lo."

Crédito, IFSC/USP Legenda da foto, O físico Osvaldo Novais de Oliveira Junior, da Universidade Federal de São Carlos, também participou da criação do programa

O investimento da empresa tornou possível a formação de uma equipe multidisciplinar, e multi-institucional, que congregava professores das universidades de São Paulo (USP), Federal de São Carlos (UFSCar), e Estadual Paulista (Unesp) do câmpus Araraquara, para realizar pesquisas na área de Processamento de Linguagem Natural (PLN).

"Acho que ainda em 1993 decidimos que o grupo deveria ganhar um nome, que é o mesmo até hoje: Núcleo Insterinstitucional de Linguística Computacional (NILC)", lembra Oliveira. "A meu ver, a criação dele é o maior legado do Projeto ReGra."

De acordo com ele, o NILC é hoje um dos maiores centros de geração de tecnologia para o processamento automático do português. "Certamente é o que mais disponibilizou gratuitamente recursos lingüísticos computacionais para o nosso idioma", diz.

"Isso foi possível porque, desde o início, adotamos a política de franquear os recursos, como léxicos, corpus (base de textos, escritos ou falados, organizada e anotada, que possa servir como recurso linguístico-computacional) e ferramentas de processamento a colegas de todo o mundo. Mesmo aqueles recursos acessórios para o desenvolvimento do ReGra foram disponibilizados, com a autorização da Itautec."

Mas o NILC não parou por aí. Oliveira destaca os projetos que o núcleo desenvolveu e vem desenvolvendo nas áreas de tradução automática, terminologia, simplificação de texto, reconhecimento de autoria, identificação de fake news (notícias falsas), sistemas de busca, uso de linguagem para detecção de doenças e reconhecimento de fala, por exemplo.

"Ressalto que o processamento automático de língua natural está presente em muitos produtos, como os assistentes inteligentes que reconhecem voz e obedecem a comandos, os tradutores automáticos e os sistemas de busca na internet", explica.

Segundo ele, são tantos os produtos que muitos dos desenvolvedores já não se referem ao trabalho como sendo de Processamento de Linguagem Natural. "Como hoje uma das tarefas mais relevantes na tecnologia é ensinar uma máquina a ler (e compreender), o PLN é uma das áreas mais importantes de ciência e tecnologia", diz.