16/08/2011
O Estado de São Paulo 03.08.08. A Powerset, que criou um sistema de busca semântica, foi comprada pela Microsoft para enfrentar o Google Renato Cruz
Um buscador que entende o que lê
A Powerset, que criou um sistema de busca semântica, foi comprada pela Microsoft para enfrentar o Google
Renato Cruz
Os mecanismos de busca da internet trabalham com palavras-chave. Eles não têm a menor idéia do significado do que está escrito nas páginas. O mais popular, do Google, usa um sistema de relevância baseado nos links que cada página recebe. Uma nova geração de buscadores promete sistemas que entendem, ainda de maneira básica, o que está escrito na página. A Powerset, pequena empresa americana da área de busca semântica, foi comprada no mês passado pela Microsoft. Ela é a aposta da companhia de Bill Gates para enfrentar o Google.
"Os mecanismos de busca se tornaram o ponto de entrada das pessoas na internet", explicou Barney Pell, fundador e presidente da Powerset, em entrevista por telefone. A força do Google vem da venda dos anúncios que acompanham os resultados das buscas. Por causa disso, a Microsoft tentou comprar o Yahoo e acabou comprando a Powerset.
A tecnologia da Powerset foi licenciada do Palo Alto Research Center (Parc), centro de pesquisas da Xerox. Na década de 1970, o Parc criou a interface gráfica do usuário, sistema computacional baseado em imagens que, na década seguinte, foi incluído no Macintosh, da Apple, e no Windows, da Microsoft. A pesquisa sobre uma interface de linguagem natural, que deu origem à tecnologia de busca semântica, começou há 30 anos. "Quando eles começaram, sabiam que seria muito mais difícil fazer uma interface conversacional, ou de linguagem natural, do que a interface gráfica do usuário", disse Pell.
O executivo, que também é pesquisador de inteligência artificial, explicou como o sistema funciona. "Depois de 30 anos de pesquisa, chegamos a um ponto em que os computadores podem, num nível bastante básico, entender a linguagem humana", disse Pell. "Eles não conseguem entender tudo, mas hoje podem ler e extrair as relações semânticas centrais de um documento ou da busca do usuário." Ou seja, o sistema consegue identificar relações entre conceitos que existem no texto.
O sistema percebe, por exemplo, que a mesma palavra pode ter sentidos diferentes, e que palavras diferentes podem significar a mesma coisa. Ou que uma palavra ou expressão podem ter o sentido contrário de outra.
"O que a Powerset faz é ler cada frase, uma por vez, para extrair dela muitas relações semânticas", afirmou o executivo. "Nós incluímos na tecnologia o funcionamento básico de determinada língua, como o inglês, com a regras gramaticais e uma espécie de dicionário."
Por causa disso, o sistema precisa ser adaptado para cada língua existente na web. "O algoritmo central é independente da língua", explicou Pell. "Ele entende como a linguagem humana funciona de uma forma básica, da mesma forma que um bebê, independente de onde tenha nascido, entende como a linguagem funciona, porque é humano. Mas, como o bebê, o sistema precisa aprender as regras e as palavras específicas de cada linguagem."
A Powerset lançou em maio seu primeiro produto, que faz buscas na Wikipedia. Quando a aquisição for concluída, a tecnologia da empresa deve ser incluída nos produtos da Microsoft.
A aplicação da tecnologia não se restringe a buscas. Ela pode ser usada como interface de computadores e celulares, que começariam a entender comandos falados em linguagem natural. "O iPhone mostrou como os celulares serão um meio cada vez mais importante de acesso à internet", disse Pell. Outra possibilidade é aplicar a busca semântica a documentos digitalizados das empresas.
A expectativa é que a tecnologia esteja presente nos produtos da Microsoft até o fim deste ano. "Estamos muito animados", contou o executivo. "Com os recursos da Microsoft, nosso serviço vai conseguir indexar um pedaço muito maior da internet."
PUBLICIDADE
O executivo vai participar do evento Search Marketing Expo, que acontece nas próximas quinta e sexta-feira em São Paulo. Além de explicar o que é a busca semântica, ele dará exemplos de como ela se aplica à publicidade. Se um anunciante vende roupas de times de futebol, por exemplo, sem a busca semântica ele precisa escolher muitas palavras-chave, que correspondam às diversas peças de roupa e aos nomes dos times de futebol. Com ela, poderá comprar a expressão "roupas de times de futebol" e o sistema entenderá o conceito, mesmo que essas palavras não estejam presentes na busca digitada pelo internauta ou nas páginas do resultado de busca.
O Google preferiu não comentar a tecnologia. No mês passado, publicou em seu blog oficial uma estimativa de que a web alcançou 1 trilhão de endereços únicos. O número não inclui endereços que apontam para a mesma página ou para páginas iguais. A empresa calcula que a internet ganha vários bilhões de páginas por dia. Em 1998, o primeiro índice do Google tinha 26 milhões de páginas. Em 2000, chegou a 1 bilhão.