sexta-feira, junho 19, 2009

Mecanismo de busca aprimora pesquisa por palavras e populariza estatísticas do idioma


Edgard Murano/ Ilustrações: Negreiros

O maior site de buscas da internet deixou sua marca não só na vida das pessoas como na do próprio idioma. Entre os neologismos que já produziu, "googlar" - sinônimo de pesquisar no Google - foi parar até no dicionário. Sem contar o bordão irônico "joga no Google", repetido sempre que alguém desconhece uma palavra. Essa espécie de "oráculo" da era digital, visto com desconfiança por alguns, adicionou ao seu método de pesquisa mais uma função, a "busca semântica", que está deixando os resultados de investigações na internet ainda mais interessantes e enriquecedores. Além desse recurso, o recém-lançado Google Insight for Search fornece aos internautas estatísticas sobre a incidência de palavras nas pesquisas realizadas por meio da ferramenta.

Funções matemáticas usadas pelo mecanismo de busca - os algoritmos - processam dados de 235 milhões de buscas feitas diariamente no mundo todo, criando associações a partir dos termos mais procurados e sites mais visitados, entre outros hábitos de navegação. Ao todo são mais de 200 critérios usados no processamento das informações hospedadas na rede mundial de computadores, com o intuito de organizá-las e torná-las acessíveis aos usuários.

Segundo o critério da busca semântica, ao digitar, por exemplo, a expressão "teoria da relatividade", além de conferir outros sites que possuam a mesma expressão, teremos no pé da página sugestões de termos afins como "física quântica", "Albert Einstein", "velocidade da luz" e até a fórmula mais popular da história, "e=mc2".

- Na verdade, a busca semântica é uma questão filosófica que ninguém definiu ainda. É uma expressão da ânsia de ir além do termo-chave, que às vezes se acha descontextualizado. Vemos isso como uma busca mais completa, que vai além da palavra. A busca hoje, como é concebida, depende da palavra. E não deveria ser. Deveria ser independente da palavra, mais completa, traduzindo a intenção ou o universo em torno do assunto buscado. Mas como o ser humano traduz o universo por meio da palavra, é por aí que começamos - afirma Felix Ximenes, diretor de comunicação do Google Brasil.

Estatísticas
Palavras corriqueiras como "bbb" ou "orkut" aparecem em quase todas as listas de termos mais procurados que o Google divulga anualmente - projeto conhecido como Google Zeitgeist ["espírito de época" em alemão]. À parte a pretensão de querer refletir sua época fixando as palavras mais populares, trata-se de uma lista interessante, porém limitada. Isso porque o mecanismo de busca é utilizado para diversos propósitos, não só como dicionário ou enciclopédia, inclusive por quem procura links ou atalhos para outros sites, o que pode "viciar" os resultados.

Digitar "orkut", por exemplo, nem sempre representa um interesse pela palavra em si, mas antes pelo acesso à rede social que leva esse nome. O mesmo engano se dá com as con­soantes "bbb", que não se trata de uma palavra que requer exatamente uma definição, mas que é sobretudo índice de um universo semântico subjacente (pulverizado em expressões como reality show, "paredão", "eliminado", "capa da Playboy" etc.) Em resumo, uma coisa é a ocorrência da palavra em blogs e portais de notícias; outra é quantas vezes as pessoas a digitaram como "ponte" para outros domínios virtuais. Tomado esse cuidado, a possibilidade aberta pelo Google é enorme ao campo da pesquisa do idioma.

Pesquisa das pesquisas
O Insight for Search pode ser considerado um desdobramento do ­Zeitgeist mais interessante e democrático, pois "instrumentaliza" estatísticas sobre a incidência de buscas por palavras e as coloca à disposição. Pode-se pesquisar a popularidade de um vocábulo por país, estado, mês, dia, ano, ocorrência junto a outros vocábulos, entre outros parâmetros. Essa espécie de "Google dos Googles" permite a qualquer pessoa obter números e gráficos sobre quão pesquisado foi o termo, além de listar seus correlatos. Mesmo que os números não sejam absolutos, deixando dúvidas sobre o universo da amostragem, seu mérito é organizar e facilitar um conhecimento que parecia impossível antes da internet. Para o bem ou o mal, agora todo internauta pode bancar o linguista amador e tirar suas conclusões acerca da popularidade das palavras.

Ligações perigosas
Basta digitar a palavra "crise", por exemplo, para que vejamos um gráfico registrando a incidência cada vez maior do temido termo ao longo de 2009. Trata-se, pois, de uma constatação empírica, e não é preciso ler vários jornais ou ver muita televisão para saber que se trata de um fato linguístico plausível. Porém, uma queda na quantidade de menções à palavra "crise" não significaria necessariamente um abrandamento da situação econômica; poderia sugerir antes certa prudência da imprensa e dos blogueiros em relação a um vocábulo que evoca privação.

Por outro lado, ao pesquisar palavras por estado, a característica interjeição "uai" dos mineiros é mais popular em seu estado de origem do que em São Paulo, o que é natural. O mesmo acontece com "tchê", que tem maioria esmagadora no Rio Grande do Sul; ao passo que "acarajé" é o campeão da Bahia não só em sabor como também em interesse entre os internautas baianos.
De posse dessa informação, ao depararmos com a expressão "receita de acarajé" ao pé da página, chegamos à conclusão de que os termos "acarajé" e "receita" vêm juntos na maioria das ocorrências e o desejo de aprender a receita deve ser uma das principais motivações dessas buscas. O céu é o limite para deduções acerca de estatísticas como essas, e é preciso cuidado com as generalizações.

Apesar da irresistível vontade de interpretar os resultados do Google indiscriminadamente, um caso ocorrido no começo do ano passado mostrou que todo sistema é passível de falhas. A cantora Preta Gil ameaçou processar o site de buscas, basea­da no resultado "condicionado" de pesquisa sobre seu nome. Na busca por imagens da ferramenta, quando alguém digitava a expressão "atriz gorda" o mecanismo sugeria como possibilidade de busca: "experimente também preta gil".

A menção desabonadora havia sido "forjada" por um truque chamado Google bomb ("bomba Google"), feito por blogueiros com motivações políticas ou humorísticas. A manobra consiste em enganar os algoritmos da ferramenta, interferindo de maneira artificial na percepção sobre qual é a associação mais correta. Foi a primeira vez no país que o mecanismo de busca era acusado de ser tendencioso, sugerindo uma correlação indesejada. À época, a filha de Gilberto Gil recebeu uma ligação de Felix Ximenes, do Google Brasil, que lhe pediu desculpas. O caso acabou bem, mas o advogado de Preta Gil chegou a acusar a empresa de danos morais. Afinal, quais seriam os limites da ferramenta?

Linguística de corpus
Questionamento semelhante tem o crítico Andrew Keen, autor de O Culto do Amador (Jorge Zahar, 2009). Ele é taxativo em suas considerações sobre sites de busca e a internet em geral, e classifica o mecanismo como "uma agregação de milhões de perguntas feitas coletivamente ao Google", de modo que a ferramenta só nos diz "aquilo que já sabemos". Keen subestima o conhecimento produzido por uma coletividade que navega pela internet digitando interesses materializados em palavras e expressões que talvez configurem uma nova etapa na organização do conhecimento.

Embora as associações produzidas pela ferramenta de busca ainda sejam elementares, menos precisas do que os sinônimos dos dicionários, escritos por humanos, o novo tratamento dado à palavra já é sinal de um salto qualitativo. Porém, não se pode dizer que o banco de dados pesquisado, no qual se baseia o Google, seja representativo do idioma ou possua metodologia científica. A linguística de corpus há muito faz buscas mais complexas que as disponíveis na internet - por classes gramaticais, gêneros, falantes da língua etc. - em certos corpora [plural de corpus, "amostragem"].

- O corpus do Google é a totalidade de arquivos de computador que a empresa copiou da web e gravou em seus computadores. É uma "caixa preta" guardada na vasta rede da empresa - afirma Tony Berber Sardinha, professor de linguística da Pontifícia Universidade Católica de São Paulo (PUC-SP).

Segundo o professor, o corpus do Google é pouco representativo da conversação coloquial porque há poucas conversas transcritas disponíveis na internet. Por outro lado, o mecanismo representa melhor gêneros como blogs, por exemplo, que são "nativos" da grande rede mundial de computadores.

Abrangência
Só no Brasil são 40 milhões de internautas em atividade, segundo o Ibope/NetRatings. De um total de 6 bilhões de habitantes no planeta, "só" 1 bilhão acessa a internet, de modo que a adesão crescente de pessoas à rede resulta na incorporação de cada vez mais interesses e assuntos a esse "vocabulário" global. Os conteúdos não param de crescer. Segundo estatísticas do Google, de cada busca efetuada no mecanismo, 20% dos conteúdos apresentados são novos, não haviam aparecido na pesquisa anterior.

Já o projeto de digitalização de bibliotecas do planeta, pelo Google Livros, está a todo vapor, com novo fôlego depois de fechar acordo com representantes dos direitos autorais americanos. Acresça a esse banco de dados o crescente acervo do Google Acadêmico - ainda incipiente, com teses e dissertações acadêmicas - para concluir que em poucos anos essa base de dados será assustadoramente maior.

- O ideal seria ter um corpus tão vasto quanto o do Google, disponível para o grande público por meio de uma interface simples e rápida, mas que permitisse buscas mais detalhadas e trouxesse resultados mais confiáveis, coisas que o Google não permite. Mas esse mundo dos sonhos de internautas, professores e pesquisadores está cada vez mais perto - afirma o professor Berber, referindo-se ao Corpus Brasileiro, um projeto liderado por ele e financiado pela Fapesp, sediado na PUC-SP.

Trata-se de um corpus gigantesco do português brasileiro, com 1 bilhão de palavras, que estará disponível de graça na web a partir de 2010 e permitirá buscas rápidas e confiáveis, não só por palavras, como por expressões e classes gramaticais.

Se para a ciência as ferramentas do Google ainda se restringem ao campo da experimentação, a empresa vem se dedicando ao aperfeiçoamento de projetos já existentes, que aos poucos vão sendo lançados em outros idiomas, como o português.

- A língua portuguesa está na lista de prioridades do Google. Nossos produtos serão lançados no idioma em tempo real com outros países, já que o português é uma das principais línguas da internet hoje - afirma Ximenes.

Se, como quer o crítico Andrew Keen, o Google nos diz coisas que já sabemos, esse "nós" implica muita gente. Contribuir para um imenso banco de dados e utilizá-lo eticamente são os novos desafios que a era tecnológica nos impõe. Cabe aos internautas digerir as novidades e informações da rede mundial, policiando-se para não tirar conclusões precipitadas. Só o tempo, o grau de aprimoramento dessas ferramentas e o senso crítico do usuário poderão dizer o quanto podemos confiar nelas. Até lá, o universo de possibilidades de aplicação para o mecanismo é grande para a pesquisa. A palavra, ao que tudo indica, continuará a ter um papel vital na internet.

Fonte: revista da Língua - ver marcadores