Fazer ciência de dados na nuvem com scraperwiki

Se você tem as costeletas mentais, um talento para programação e contar histórias, e um olho para o projeto, você pode fazer pior do que ficar na ciência de dados. É a grande novidade em Tecnologia altamente moderno e muito bem pago, com cientistas de dados que está sendo procurado por algumas das maiores empresas do mundo.

ScraperWiki é uma empresa que tem sido associado com o campo da ciência de dados. Nos últimos anos, esta startup sediada Liverpool ofereceu uma plataforma para programadores para escrever ferramentas que obter dados, limpá-lo e analisá-lo na nuvem.

Com uma atualização recente ea crescente demanda por cientistas de dados na empresa, vale a pena dar uma boa olhada em ScraperWiki.

Divulgação completa: Eu era estagiário na ScraperWiki no verão passado.

O que faz ScraperWiki Do?

ScraperWiki mercados-se como um lugar para ficar, limpo e analisar dados, e entrega em cada um desses aspectos. Na sua forma mais simples, ele permite que você - o usuário - um lugar onde você pode escrever código que recupera dados de uma fonte, ferramentas para convertê-lo em um formato que é fácil de analisar e de armazenamento para mantê-lo para visualização mais tarde - o que você também pode lidar com ScraperWiki.

ScraperWiki-Home

Ele também vem com uma série de ferramentas pré-construídos que automatizam tarefas repetitivas, incluindo obtenção de dados de PDFs, que são notoriamente difíceis de decodificar. Isto é, além de Twitter busca e raspagem utilitários. Você não precisa de qualquer experiência em desenvolvimento de software para usá-los.5 Arrefecer Twitter Tricks pesquisa para monitorar o que as pessoas estão dizendo sobre você5 Arrefecer Twitter Tricks pesquisa para monitorar o que as pessoas estão dizendo sobre vocêSe você possui um site ou estão apenas tentando ganhar dinheiro online como freelancer, é sempre bom saber que as pessoas estão dizendo sobre você através da Internet. As pessoas podem estar citando ...consulte Mais informação

Custo

Como mencionado anteriormente, ScraperWiki abraça o modelo de precificação freemium e oferece um serviço que tem várias camadas. Aqueles apenas começando com a ciência de dados ou com necessidades limitadas podem fazer uso do serviço gratuito. Isto dá-lhe três conjuntos de dados - onde você armazenar seus dados e código.

Aqueles que planejam escrever vários raspadores ou querendo fazer montanhas de análise de dados pode desembolsar algum dinheiro para uma conta premium. Estes começam em US $ 9 por mês e oferecer 10 conjuntos de dados. Se isso ainda não é suficiente, você pode sempre atualizar para o seu nível mais elevado que vem com 100 conjuntos de dados e custa R $ 29 por mês.

Codificação

Os programadores são muitas vezes bastante especial quando se trata de como código. Alguns preferem linguagens de script mais de linguagens compiladas. Alguns preferem a experiência pared-back de um editor de texto sobre a de um ambiente de desenvolvimento integrado (IDE). ScraperWiki reconhece isso, e dá ao usuário uma enorme quantidade de escolha quando se trata de como você escrever seu código.

scraperwiki-escolha



Se você é tão inclinado, você pode escrever seu código no navegador. Como seria de esperar de qualquer profissional de grau, web-based ferramenta de desenvolvimento, isso vem com características que qualquer programador que considero ser essencial, como destaque de sintaxe.O Top 3 baseado em navegador IDE ao código na nuvemO Top 3 baseado em navegador IDE ao código na nuvemconsulte Mais informação

scraperwiki-coding-browser

Há um número de línguas em oferta. Esses incluem píton, uma linguagem de script popular usado pelos gostos de Google e NASA- Rubi, que alimenta uma série de sites populares como o Vivo Social- eo idioma análise estatística popular, R.

scraperwiki-language

Além disso, você também pode escrever código a partir da linha de comando usando SSH, Git e qualquer editor de texto você gosta de usar. Sim, você leu certo. SSH. Cada caixa que você usa é a sua própria conta de Linux, e você é capaz de se conectar a ele como se fosse um VPS ou qualquer outra conta shell. Há um número de editores de texto disponíveis, incluindo vitalidade que pode ser estendido com encaixes e editando a configuração. Aqueles intimidados por Vim pode usar Nano, que é um editor de texto linha de comando leve.O SSH é & Como é diferente de FTP [Tecnologia Explicada]O SSH é & Como é diferente de FTP [Tecnologia Explicada]consulte Mais informação

scraperwiki-vim

As bibliotecas instaladas deve ser suficiente para redação para recuperar dados e processá-la. Se você precisa de algo um pouco mais obscuro, você sempre pode criar um virtualenv a partir da linha de comando. Como você pode ver, há uma enorme quantidade de flexibilidade oferecida para os desenvolvedores.

Visualização de dados

Então, você tem seus dados. Você já normalizou-lo. Você limpa-lo. Você já analisou ele. Agora é hora de fazer alguma visualização e mostrar ao mundo o que você aprendeu.

ScraperWiki permite que os desenvolvedores para exibir seus dados usando páginas web construídas a partir do trio todo-familiar de HTML, CSS e javascript. Além disso, componentes Bootstrap são suportados fora da caixa.

scraperwiki-visualização

Há um número de visualizações pré-fabricados disponíveis, incluindo aqueles que traça seus dados em um mapa e encontrar tendências dentro suas descobertas. Para usá-los, você precisa garantir que seus dados são armazenados como arquivo SQLite com o nome ‘scraperwiki.sqlite`. Em seguida, basta adicionar a visualização que você está interessado. Simples, certo?

Conclusão

ScraperWiki oferece uma grande quantidade de desenvolvedores que querem fazer alguma análise de dados sem seu ambiente de desenvolvimento entrar em seu caminho, ao mesmo tempo ter a flexibilidade para agradar até o mais exigente dos usuários. Mas o que você acha? Deixe-me saber nos comentários abaixo.
Crédito da foto: Rocket Science (Dan Brown)


Artigos relacionados