Alexa, como é que siri funciona? Controle de voz explicou

Podemos falar com quase todos os nossos aparelhos agora, mas exatamente como isso funciona? Quando você pergunta “Que música é essa?” Ou dizer “ligar para a mãe”, um milagre da tecnologia moderna está acontecendo. E enquanto ela parece que está na vanguarda, essa idéia de falar com dispositivos remonta décadas - quase tanto quanto jetpacks na ficção científica!

Video: Dicas de como usar a Siri

Hoje, a maior parte da atenção dada a computação orientada por voz é em smartphones. A Apple, Amazon, Microsoft e Google estão no topo da cadeia, cada um oferecendo a sua própria maneira de falar com a eletrônica. Você sabe quem eles são: Siri, Alexa, Cortana, eo inominável “Ok, Google” ser. O que levanta uma grande questão ...

Como é que um dispositivo de tomar as palavras faladas e transformá-los em comandos que podem entender? Em essência, ele se resume a correspondência de padrão e fazer previsões com base nesses padrões. Mais especificamente, o reconhecimento de voz é uma tarefa complexa vem Modelagem acústica e Modeling Language.

Modelagem acústica: Formas de onda & telefones

forma de onda

Acústica Modeling é o processo de tomar uma forma de onda de expressão e analisá-lo usando modelos estatísticos. O método mais comum para isso é Modelagem de Markov oculto, que é usado no que é chamado pronúncia modelagem para quebrar discurso em partes componentes chamados telefones (para não ser confundido com dispositivos de telefonia reais). Microsoft tem sido um dos principais pesquisadores neste campo por muitos anos.

Oculto de Markov Modeling: Probabilidade Unidos

Oculto de Markov Modeling é um modelo matemático preditivo onde o estado atual é determinada através da análise da saída. Wikipedia tem um ótimo exemplo usando dois amigos.

Imagine duas amigos - Local Friend e amigo remoto - que vivem em cidades diferentes. Local Friend quer descobrir o que o tempo é como onde amigo remoto vive, mas amigo remoto só quer falar sobre o que ele fez naquele dia: caminhada, fazer compras ou limpo. A probabilidade de cada actividade, dependendo do tempo do dia.

Modelagem de Markov oculto

Fingir que esta é a única informação disponível. Com ele, local amigo pode encontrar tendências na forma como o tempo mudou de dia para dia, e usando estas tendências, ela pode começar a fazer suposições sobre o que o tempo de hoje será com base na atividade de sua amiga ontem. (Pode-se ver um diagrama do sistema acima).

Se você quiser um exemplo mais complexo, veja este exemplo em Matlab. Em reconhecimento de voz, este modelo essencialmente compara cada parte da onda contra o que vem antes eo que vem depois, e contra um dicionário de formas de onda para descobrir o que está sendo dito.

Essencialmente, se você faz um som “th”, que vai verificar se o som contra os sons mais prováveis ​​que geralmente vêm antes e depois dele. Talvez isso significa verificar contra a “e” som, o “at” som, e assim por diante. Quando o padrão corresponde corretamente, então tem toda a sua palavra. Esta é uma simplificação excessiva, mas você pode ver toda a explicação de Microsoft aqui.

Modeling Language: Mais do que o som

Modelamento Acústico vai um longo caminho para ajudar o seu computador entender você, mas o que dizer de homônimos e variações regionais na pronúncia? Isso é onde a linguagem de modelagem entra em jogo. Google tem conduzido uma série de pesquisas nesta área, principalmente através do uso de N-grama Modelação.

Quando o Google está tentando entender o seu discurso, ele faz isso com base em modelos derivados de sua enorme banco de Voz Pesquisa e YouTube transcrições. Todas essas legendas de vídeo hilariante erradas têm realmente ajudou a Google a evoluir seus dicionários. Além disso, eles usaram o partido GOOG-411 para recolher informações sobre a forma como as pessoas falam.

shutterstock_70757203

Video: Amazon Echo: Review completo en español

Tudo isso coleção linguagem criada uma vasta gama de pronúncias e dialetos, o que fez para um dicionário robusto de palavras e como eles som. Isto permite jogos que têm uma taxa de erro muito reduzida do que a correspondência força bruta baseada em probabilidades matérias. Você pode ler um breve artigo descrevendo seus métodos aqui.

Embora o Google é líder neste campo, existem outros modelos matemáticos sendo desenvolvidos, incluindo modelos espaciais contínuos e modelos de linguagem posicionais, que são técnicas mais avançadas nascidos a partir de pesquisa em inteligência artificial. Estes métodos são baseados em replicar o tipo de raciocínio os seres humanos fazem quando ouvir uns aos outros. Estes são muito mais avançados, tanto em termos de tecnologia por trás deles, mas também a matemática e programação necessária para mapear esses modelos.

N-Gram Modeling: Probabilidade Atende Memória

N-gram trabalhos de modelagem baseada em probabilidades, mas usa um dicionário existente de palavras para criar uma árvore de ramificação de possibilidades, que é então suavizadas por uma questão de eficiência. Em uma forma, isto significa que a N-grama Modelação acaba com um lote da incerteza na referida oculto de Markov Modeling.

Como observado acima, a força deste método vem de ter um grande dicionário de palavras e uso, não apenas primitiva sons. Isto dá o programa a capacidade de dizer a diferença entre palavras homófonas, como “bater” e “beterraba”. É contextual, o que significa que quando você está falando de dezenas de ontem à noite, o programa não está puxando para cima palavras sobre borscht.

Mas esses modelos realmente não são as melhores para a linguagem, principalmente devido a problemas com probabilidades de palavras em frases mais longas. Como você adicionar mais palavras para uma sentença, este modelo fica um pouco fora como suas palavras iniciais não são susceptíveis de ter carregado tudo o necessário para o seu pensamento completo.

No entanto, é simples e fácil de implementar, tornando-se um grande jogo para uma empresa como a Google que goza jogando servidores em problemas computacionais. Você pode fazer ainda mais leitura em N-gram Modelieng na Universidade de Washington, ou você pode assistir a uma palestra na Coursera.

Gritando com nuvens: Apps & Devices

Qualquer um que tenha usado Siri conhece a frustração de uma conexão de rede lenta. Isto é porque os seus comandos para Siri são enviados através da rede para ser decodificado pela Apple. Cortana para Windows phone também requer uma conexão de rede para funcionar corretamente. Em contrapartida, porém, o eco da Amazon é apenas um alto-falante Bluetooth sem qualquer Internet.

Video: Amazon Echo Alexa - Subtítulos Español

Por que a diferença? Porque Siri e Cortana precisa de servidores pesados ​​para decodificar seu discurso. Poderia ser feito em seu telefone ou tablet? Claro, mas você mataria o seu desempenho e vida útil da bateria no processo. Ela só faz mais sentido para descarregar o processamento de máquinas dedicadas.

SIGCHI_Conference_Paper_Format _-_ KumarSpeechRecognitionForMobileApps_pdf

Pense nisso desta maneira: o seu comando é um carro preso na lama. Você provavelmente poderia empurrá-lo para fora se com bastante tempo e esforço, mas vai demorar horas e deixá-lo exausto. Em vez disso, você chamar assistência na estrada e eles puxar o seu carro para fora em apenas alguns minutos. A desvantagem é que você tem que fazer a chamada e esperar por eles, mas ainda é mais rápido e menos desgastante.

modelos de desktop como o Nuance tendem a usar os recursos locais devido ao hardware mais poderoso. Afinal, nas palavras de Steve Jobs, seu desktop é um caminhão. (O que o torna um pouco bobo que o OS X é o uso de servidores para o seu processamento.) Então, quando você precisa para processar linguagem e voz, ele já está equipado bem o suficiente para lidar com isso por conta própria.

Por outro lado, o Android permite que os desenvolvedores incluem reconhecimento de voz off-line em seus aplicativos. Google gosta de chegar à frente da tecnologia, e você pode apostar que as outras plataformas vai ganhar essa habilidade como seu hardware fica mais poderoso. Ninguém gosta quando fraca cobertura ou má recepção lobotomizes seu dispositivo.

Comece utilizando comandos de voz Agora

Agora que você conhece os conceitos fundamentais, você deve brincar com seus vários dispositivos. Experimente o novo digitação por voz no Google Docs. Como se a suíte de escritório Web já não era poderoso o suficiente, controle de voz permite-lhe ditar e formatar seus documentos completamente. Isso expande na poderosa tecnologia que já projetado para Chrome e Android.Como Voz digitação é o novo melhor recurso do Google DocsComo Voz digitação é o novo melhor recurso do Google Docsreconhecimento de voz tem melhorado aos trancos e barrancos nos últimos anos. No início desta semana, o Google finalmente introduzido voz digitando no Google Docs. Mas é bom? Vamos descobrir!consulte Mais informação

Outras idéias incluem a criação de seu Mac para usar comandos de voz e criação de seu Amazon eco com verificação geral automatizado. Viver no futuro e abraçar a falar com seus gadgets - mesmo se você está apenas pedindo mais toalhas de papel. Se você é um viciado em smartphone, também temos tutoriais para Siri, Cortana, e andróide.

Qual é o seu uso favorito de controle de voz? Deixe-nos saber nos comentários.


Artigos relacionados