Há 70 anos, Alan Turing propôs, em seu artigo Computing Machinery and Intelligence, o famoso teste de Turing. O exemplo ilustrativo original do artigo consiste no seguinte: um humano entra em uma conversa, em linguagem natural, com outro humano, e uma máquina projetada para produzir respostas indistinguíveis de outro ser humano. Se a máquina conseguir se passar por um humano sem que os outros participantes percebam, ela passou no teste. Foi aí que começou a história do processamento de linguagem natural (PLN). Basicamente, O PLN é uma subárea da ciência da computação que consiste no casamento entre inteligência artificial (IA) e linguística. Essas duas áreas juntas possuem um potencial enorme e diversas aplicações. Você já ouviu falar sobre PLN? Quais suas principais aplicações? E suas (des)vantagens? Vamos descobrir!
O PLN e os dados
Aqui nós temos uma das melhores aplicações de inteligência artificial junto à linguística. Atualmente, os dados são uma das commodities mais valiosas do mercado, superando até mesmo o petróleo. Na era da informação, os dados se tornaram cruciais para o desenvolvimento econômico de empresas e estados. A cada hora, centenas de milhões de pessoas estão produzindo todo tipo de informação de inúmeras formas. Seja acessando redes sociais, interagindo em fóruns, usando apps utilitários ou nas pesquisas ao decorrer do dia. Porém 80% dos dados gerados pelas empresas hoje não são estruturados.
E é aqui que entra a inteligência artificial e a linguística: na extração de informações. Com isso, a tarefa de extrair automaticamente dados estruturados de textos não estruturados se torna mais fácil. Muito dado relevante é extraído de entidades (nomes, locais e palavras-chave), agrupamento (identificando tópicos principais), extração de fatos (possibilita preencher banco de dados com informações estruturadas para análise), categorização de texto (por sentimento, setor ou finalidade) e de relacionamentos (usado para preencher bancos de dados de gráficos). Ok, mas o que isso significa?
Muitas das decisões de negócios ou de produtos feitas por gestores são influenciadas por informações presentes em mídias sociais e em vários outros ambientes da internet. Extrair informações estruturadas dessas fontes é muito valioso e pode melhorar, e muito, o serviço oferecido pela empresa aos seus clientes. A maior parte desse conteúdo produzido diariamente pelo usuários está na forma de textos e imagens. A principal aplicação do PLN nesse caso é acessar esses textos, analisar e extrair informações que possam ser usadas para tomadas de decisões. O que pode resultar em uma melhora no lucro e levar toda uma empresa a rumos diferentes.
O PLN e a pesquisa semântica
A função básica do PLN é ajudar computadores a entender, interpretar e manipular a linguagem humana. Quando você faz uma busca no Google, a precisão da resposta depende da interpretação e do sentindo empregados à sentença, também conhecido como semântica. E é isso que o PLN faz. Ele atribui um significado a sua pesquisa e interpreta o que você quis dizer. Antes, as pesquisas eram feitas por palavras-chaves e isso mal permitia levar os conectivos em conta. Hoje, se você pesquisar alguma coisa no Google usando “vc”, “pq” ou “tbm” o mecanismo de busca vai entender que isso é uma abreviação e não te corrige com mensagens do tipo “você quis dizer você”, “você quis dizer porque” ou “você quis dizer também”. Esse tipo de tecnologia só é possível graças a imensa quantidade de dados que o Google coletou de seus usuários ao longo do tempo. Essa é a pesquisa semântica. Uma pesquisa em que o próprio mecanismo de busca atribui certo significado a ela e mostra os resultados mais pertinentes. Isso pode, mas não necessariamente, se estender a pesquisas técnicas e científicas. Apesar de ser uma tecnologia importante em vários aspectos, é imperceptível aos usuários comuns.
O PLN e a tradução automática
A ideia de tradução automática é tão antiga quanto a inteligência artificial. É uma área de grande interesse e contribui cada vez mais para um mundo mais globalizado e conectado. Na CES desse ano, a Google anunciou que estava desenvolvendo um tradutor automático embutido em sua assistente virtual. A ideia é muito boa e sem dúvidas tem muitas utilidades. Seria fantástico se pudéssemos andar com um fone de ouvido em outro país e conseguirmos ir até um mercado e comprar nossas coisas sem nenhum problema de entendimento, mesmo sem sabermos a língua local. Mas será que algum dia a linguística computacional será capaz de reproduzir e identificar aspectos como contexto, subjetividade ou nuances culturais e literárias? Apesar de toda a tecnologia, uma única língua pode variar muito dependendo da região em que é falada. As pesquisas vão avançando a cada dia e esse campo é muito promissor. Enquanto isso, esperemos pela descoberta do peixe babel.
Conclusão
O PLN não é uma área de estudo simples. Tem muitas implicações linguísticas, estruturais e semânticas. E isso é uma desvantagem. Ainda temos muitas limitações para concretizar certas tecnologias, mas avançamos muito durante as últimas décadas. Os tradutores podem não ser tão precisos quanto gostaríamos, mas nossos chatbots e nossas pesquisas estão cada vez mais precisas e inteligentes. Os assistentes virtuais estão se tornando mais presente no cotidiano das pessoas, ajudando em tarefas simples, mas úteis e ágeis. O PLN muitas vezes está presente nas coisas mais simples do dia a dia. O avanço nas pesquisas e nos aprimoramentos nessa área é importante em diversos aspectos, tanto para a linguística quanto para a inteligência artificial.