Que língua é essa? 5 ferramentas para identificar línguas desconhecidas
ì ?? `i> ¹ì,¬ì ??`트ì- ?? í ™ ~ì~ ??. ì ??`것ì ?? € ë³`ê¸ ° i> ?? 본ì ??`e <¤
Conteúdo
Que língua é essa? Chinês? Japonês?
É coreana na verdade. Detectando isso manualmente teria me levado muito tempo. Felizmente, eu encontrei algumas ferramentas muito precisos que podem fazer isso automaticamente. Eles estão todos listados abaixo.
O experimento: Eu testei os sites que usam o texto da amostra (1-2 frases com 8 palavras) a partir das seguintes línguas: português, russo, coreano, vietnamita, italiano, turco, polonês, ucraniano, do Azerbaijão, Esloveno, Macedónio, Holandês, Filipino (Tagalog), grega, galego, Checa, Bielorrússia, finlandês, Tatar e norueguês.
No geral, eu testei 20 idiomas diferentes.
3 ferramentas para detectar Unknown Text Idioma
1. langid (Passaram 18 para fora de 20 ensaios, não passou tártaro e belorussian)
prós: No geral, excelente ferramenta online. Ele oferece funcionalidade básica de detecção de texto e eles também têm Twitter e bots de detecção de e-mail para resultados ainda mais rápidos.
contras: Seu motor é baseado no Google API, mas eles parecem ter melhores resultados do que o detector Google descrito abaixo. Parece que eles sabem como utilizar as coisas muito bem. Eu não gostava que eles não têm o seu próprio algoritmo exclusivo para detectar idiomas.
2. Detector Idioma Google (Passou de 17 para fora de 20 ensaios, não passou Português, Taglog e belorussian)
Video: O DOM DE FALAR EM LÍNGUAS - SERIA IDIOMA OU LÍNGUA DOS ANJOS ? Tire as suas dúvidas..
prós: Google tem uma das melhores API do mundo para a detecção de idioma. Eles coisa boa é que você é capaz de ver a probabilidade do resultado Eles exibem sendo verdadeiro. Eles foram capazes de passar a maior parte dos testes de amostra.
contras: Fiquei muito surpreso que eles não passar no teste de Português. Parece que eles têm um (espero temporária) bug com esta linguagem. Também pode certamente fazer um trabalho melhor em fazer o design da página melhor.
3. Que língua é essa (Passou 11 dos 20 testes, não passou russo, coreano, ucraniano, do Azerbaijão, Macedónio, o Tagalog, grego, Galego e tártaro)
prós: Algumas línguas, como os do Sul eslavas (sérvio, croata, esloveno) são bastante semelhantes. No caso de você digitar algum texto croata, digamos, o site irá dizer-lhe que o texto também poderia ser sérvio ou eslovena.
contras: Eles precisam trabalhar em fazer o seu sistema de detecção mais sofisticado. Eu estava pensando em colocar Translated.net (outro site para detecção de idioma) em vez de um presente, mas Traduzido prometeu detecção de mais línguas e realmente fez pior do que WhatLanguageIsThis.com.
2 ferramentas para detectar sites em Unknown Línguas
4. Google Tradutor com detectar Idioma como a primeira opção
Video: O Dom de Língua na Bíblia significa que a pessoa fala um idioma que só Deus entende?
Passado: 18 em 20, não passou Belorussian e tártaro.
prós: Esta ferramenta faz o seu trabalho muito bem. A coisa que eu gosto sobre Google Tradutor é que, se ele não suporta uma linguagem específica que lhe dá a seguinte tela:
Isso é um grande detector de idioma, se você me perguntar!
5. Microsoft Bing Translator com Detecção automática como a primeira opção.
Passado: 8 dos 20, não passou holandês, vietnamita, turco, ucraniano, do Azerbaijão, Esloveno, Macedónio, o Tagalog, grego, Galego, Checa e Bielorrússia
prós: Ele suporta um número limitado de idiomas. Para essas línguas, faz bem o seu trabalho.
contras: Estou muito decepcionado com a Microsoft. Eles têm um número muito limitado de idiomas para a detecção& tradução e sua Auto-Detect recurso é terrível. No caso de você entrar em uma linguagem que eles não suportam, você vai ter um resultado errado em vez de dizer-lhe que não suportam esse idioma.Top 4 serviços de tradução onlineTop 4 serviços de tradução onlineconsulte Mais informação
Pensamentos
No geral, minha opinião é as ferramentas acima estão indo em uma boa direção. Eles são atualmente os melhores para a detecção de idiomas on-line e fazer o seu trabalho muito bem quando se trata de linguagens populares. No entanto, eles devem trabalhar em adicionar mais línguas obscuras (nenhuma das ferramentas foram capazes de reconhecer Tatar) e tenho certeza de que todos eles, especialmente o Google vai nessa direção no futuro próximo.