Como construir um rastreador web básico para puxar informações de um site (parte 1)
Conteúdo
O rastreador web Google irá introduzir o seu domínio e digitalizar todas as páginas do seu site, extraindo títulos de página, descrições, palavras-chave e links - em seguida, apresentar um relatório ao Google HQ e adicionar as informações para a sua enorme base de dados.
Hoje, eu gostaria de ensiná-lo a fazer o seu próprio rastreador básica - não aquele que varre toda a Internet, embora, mas aquele que é capaz de extrair todos os links de uma página da web.
Video: Tecnologia VIVO M2M para rastreamento GPRS e 3G/4G imagens online
Geralmente, você deve se certificar de que você tem permissão antes de raspagem sites aleatórios, como a maioria das pessoas consideram que é muito cinza área jurídica. Ainda assim, como eu digo, a web não iria funcionar sem este tipo de indexadores, por isso é importante você entender como eles funcionam e como eles são fáceis de fazer.
Para fazer um rastreador simples, nós estaremos usando a linguagem de programação mais comum da internet - PHP. Não se preocupe se você nunca programado em PHP - Eu vou tomar-lo através de cada passo e explicar o que cada parte faz. Vou assumir um conhecimento básico absoluta de HTML, porém, o suficiente para que você entenda como um link ou imagem é adicionada a um documento HTML.
Video: Rastreador Com Escuta Espião Para Carros e Motos
Antes de começar, você vai precisar de um servidor para executar PHP. Você tem um número de opções aqui:
- Se você hospedar seu próprio blog usando o WordPress, você já tem um, então fazer o upload dos arquivos que você escreve via FTP e executá-los de lá. Matt nos mostrou alguns clientes FTP gratuito para Windows você poderia usar.
- Se você não tem um servidor web, mas têm um PC velho sentado ao redor, então você pode seguir o tutorial de Dave aqui para ligar um PC antigo para um servidor web.
- Apenas um computador? Não se preocupe - Jeffry nos mostrou como podemos executar um servidor local dentro do Windows ou Mac.
Começando
Nós estaremos usando uma classe auxiliar chamada simples HTML DOM. Baixe este arquivo zip, descompacte-o e fazer o upload do simple_html_dom.php arquivo contido no seu site em primeiro lugar (no mesmo diretório que você vai estar executando seus programas a partir). Ele contém funções que iremos utilizar para atravessar os elementos de uma página web com mais facilidade. Esse arquivo zip também contém código de exemplo de hoje.
Video: Rastreador Veicular SEM MENSALIDADE
Primeiro, vamos escrever um programa simples que irá verificar se o PHP está funcionando ou não. Também vamos importar o arquivo helper vamos usar mais tarde. Faça um novo arquivo em seu diretório web, e chamá-lo example1.php - o nome real não é importante, mas o .php final é. Copie e cole este código para ele:
? Lt; phpinclude_once ( `simple_html_dom.php`) - phpinfo () - gt;
Acessar o arquivo através de seu navegador de internet. Se tudo deu certo, você deve ver uma grande página de depuração aleatória e informações do servidor impresso como abaixo - tudo a partir da pequena linha de código! Não é realmente o que estamos procurando, mas pelo menos sabemos que tudo está funcionando.
As primeiras e últimas linhas simplesmente dizer ao servidor que vamos estar usando código PHP. Isto é importante porque nós podemos realmente incluir HTML padrão na página também, e ele irá processar apenas multa. A segunda linha puxa o ajudante DOM HTML simples que irá utilizar. o phpinfo () - linha é a que impresso tudo o que informações de depuração, mas você pode ir em frente e apagar isso agora. Note que em PHP, quaisquer comandos que temos deve ser terminado com dois pontos (-). O erro mais comum de qualquer iniciante PHP é esquecer que pouco de pontuação.
Uma tarefa típica que o Google realiza é para puxar todos os links de uma página e ver quais sites eles estão endossando. Tente o seguinte código seguinte, em um novo arquivo, se quiser.
lt;? phpinclude_once ( `simple_html_dom.php`) -
$ Target_url = “http://tokyobit.com/"-
$ Html = new simple_html_dom () -
$ Html-gt; load_file ($ target_url) -
foreach ($ html-gt; find ( ‘a `) quanto $ link) {
echo $ link-gt; href “.
“-
}
?gt;
Você deve obter uma página cheia de URLs! Maravilhoso. A maioria deles será ligações internas, é claro. Em uma situação real, o Google iria ignorar as ligações internas e simplesmente olhar para o que outros sites que você está ligando, mas que está fora do escopo deste tutorial.
Se você estiver executando em seu próprio servidor, vá em frente e mudar o Alvo URL variável a sua própria página web ou qualquer outro site que você gostaria de examinar.
Esse código foi bastante um salto do último exemplo, então vamos passar em pseudo-código para certificar que você entendeu o que está acontecendo.
Incluir uma vez que o arquivo helper DOM HTML simples.
Defina o URL de destino como http://tokyobit.com.
Criar um novo objeto simples DOM HTML para armazenar a página de destino
Carregar a nossa URL de destino para esse objeto
Para cada link que encontramos na página de destino
- Imprima o atributo HREF
É isso por hoje, mas se você quiser um pouco de desafio - tentar modificar para o segundo exemplo para que em vez de procurar ligações ( elementos), que agarra imagens em vez (). Lembre o src atributo de uma imagem especifica o URL para essa imagem, não HREF.
Gostaria saber mais? Deixe-me saber nos comentários se você estiver interessado em ler uma parte 2, ou mesmo se você gostaria de um tutorial back-básico PHP (com solução de trabalhos de casa!) - e eu vou cavar um up na próxima vez para você. Eu adverti-lo embora - uma vez que você começar com programação em PHP, você vai começar a fazer planos para criar o próximo Facebook, e todos os desejos latentes para dominar o mundo em breve consumi-lo. Programar é divertido.