
Você já disse olá para seus assistentes virtuais de comando de voz?
Hoje temos vários assistentes virtuais que fazem parte dos nossos afazeres. Podemos pedir para tocar uma música, realizar uma pesquisa, ligar um aparelho eletrodoméstico, acender ou apagar uma luz, mostrar um melhor trajeto de um lugar até o outro, contar uma piada ou simplesmente bater um papo aleatório.
Mas como esses assistentes conseguem ouvir e reconhecer as nossas vozes?
O som se propaga por meio de ondas mecânicas. Essas ondas são um dos tipos de ondas existentes, sendo os outros dois as ondas eletromagnéticas e as ondas gravitacionais. Cada uma delas possui características específicas que definem sua natureza. As ondas mecânicas tem como exemplo as ondas sonoras, as ondas eletromagnéticas tem a luz, já os exemplos das ondas gravitacionais merecem um texto à parte.

Figura 1: da esquerda para a direita, ondas sonoras, ondas gravitacionais e ondas eletromagnéticas.
As ondas podem vibrar em uma direção (unidirecional), em duas direções (bidirecionais) ou em três direções como as ondas sonoras. Quando o som sai do seu emissor, as ondas se propagam pelo ar fazendo as partículas vibrarem, até chegar ao receptor.
Transformando som em dados
Ao chegar ao receptor, as ondas sonoras são analisadas e traduzidas quanto as suas frequências e amplitudes, e assim convertidas em sinais elétricos, que interpretam cada vibração em frequência e amplitude.
A frequência está relacionada ao número de ciclos que uma ondas completa em um determinado tempo. Vamos pensar um uma joaninha em um gira gira, vamos marcar um ponto no gira gira e colocá-la pra girar. Quando a joaninha voltar ao mesmo ponto ela terá completado uma volta completa. Agora vamos colocar a joaninha pra girar durante 1 minuto e depois contar quantas voltas ela completou neste 1 minuto. Quando dividimos o número de voltas que a joaninhas fez pelo tempo que determinamos teremos como resultado a frequência da joaninha.
Para simplificar usamos a equação da frequência. A unidade usada é Hertz ou Hz (número de voltas por segundo). O T representado na equação é chamado período ou tempo.

Figura 2: equação para a frequência.
E a amplitude? A amplitude é o tamanho da onda. Vamos colocar uma onda vertical em um plano cartesiano. A Amplitude é a medida entre o eixo central ou o eixo X e o ponto mais alto (sua crista) e/ou o ponto mais baixo (vale).
A frequência e a amplitude de uma onda estão relacionadas ao timbre e a intensidade do som respectivamente.
Após a primeira conversão do som, os dados coletados (frequência e amplitude) são convertidos em dados digitais pelo ADC (conversão analógica para digital). O som analógico é transformado em pequenos pedaços e então em números binários que serão lidos pelo sistema.
Reconhecimento de padrões
E você já percebeu que muitas vezes o seu assistente de voz não obedece a outra pessoa a não ser você? Isso acontece devido a um sistema matemático chamado transformada de Fourie. Esta equação analisa as frequências e padrões como entonação, fonemas, ritmos e etc.
Quando você fala, ele analisa os padrões de sua voz com o banco de dados salvo em sua memória para que reconheça a sua voz dentre outras. Conforme você vai realizando pedidos ou falando com o assistente, o banco de dados vai aumentando, tornando o reconhecimento mais preciso.
O despertar pela palavra chave
Os assistente estão ativos o tempo todo, ouvindo o som ambiente e captando os sons para conseguir novos parâmetros e padrões para o banco de dados, porém só são ativados por uma palavra chave. Quando você fala a palavra chave, já gravada com sua voz anteriormente, ele ativa e a partir daí começa a obedecer seus comandos.
Tudo isso só é possível graças a conceitos básicos e avançados da física, como o estudo das ondas sonoras, a conversão de energia sonora em elétrica, e o uso de algumas equações matemáticas para análise de sinais. Esses fundamentos são combinados com tecnologia de ponta para criar algo que parece mágico, mas é pura ciência!!
Da próxima vez que você disser “tocar música” para seu assistente de voz, lembre-se: há muita física trabalhando para que sua voz seja entendida!
REFERENCIAS.
TRANSFORMADAS DE FOURIE: https://www.uel.br/projetos/matessencial/superior/pdfs/tfourier.pdf
CONVERSOES DE DADOS ANALOGICO PARA DIGITAL: https://www.cin.ufpe.br/~es238/arquivos/aulas/aula17_conversores_adda.pdf
ONDAS: https://portal.if.usp.br/controle/sites/portal.if.usp.br.ifusp/files/Ondas%20II.pdf