Os limites da garimpagem de dados na internet
Web scraping é uma técnica usada para extrair dados e informações contidas em websites. Também é uma ótima ferramenta para repórteres que saibam usá-la porque é cada vez maior o número de instituições que publicam dados relevantes em suas páginas na web. Com a técnica dos web scrapers, também conhecidos como bots, é possível coletar grandes quantidades de dados para matérias jornalísticas. Eu, por exemplo, criei um bot para comparar os preços do álcool de Québec com os de Ontario [duas das principais cidades canadenses]. Meu colega Florent Daudens, que também trabalha para a Radio-Canada, usou um web scraper para comparar os preços de aluguel de vários bairros de Montreal com os de anúncios de Kijiji. Mas quais são as normas de ética que os repórteres devem seguir quando utilizarem web scraping? Essas normas são particularmente importantes porque, para pessoas sem uma minima intimidade com a internet, web scraping pode parecer pirataria. Infelizmente, nem o Código de Ética da Federação Profissional dos Jornalistas, nem as orientações sobre ética da Associação Canadense de Jornalistas dão uma resposta clara a esta questão.[ad name=”Retangulo – Anuncios – Direita”] Portanto, fiz algumas perguntas a vários colegas que são repórteres de dados e procurei algumas respostas por minha própria conta. Dados públicos, ou não? Este é o primeiro consenso por parte dos repórteres de dados: se uma instituição publica dados em seu website, esses dados são automaticamente públicos. Cédric Sam trabalha para o South China Morning Post, em Hong Kong. Também já trabalhou no jornal La Presse e na Radio-Canada. “Eu uso web scraping quase todos os dias”, diz ele. Para ele, os bots são tão responsáveis pelas informações recolhidas quanto os humanos que os criaram. “Se é um humano que copia e cola as informações, ou se um humano codifica um computador para fazê-lo, dá na mesma. É como se você contratasse mil pessoas que trabalhariam para você. O resultado é o mesmo.” Entretanto, os computadores do governo também guardam informações pessoais sobre os cidadãos. “A maioria dessas informações é escondida porque de outra forma estaria violando as leis de privacidade”, diz William Wolfe-Wylie, um desenvolvedor de programas da Canadian Broadcasting Corporation – CBC e professor de Jornalismo na Universidade de Toronto. E aqui está um limite muito importante entre web scraping e pirataria: o respeito à legislação. Os repórteres não deveriam bisbilhotar informações que gozam de proteção. Se um usuário comum não as pode acessar, os jornalistas não deveriam tentar obtê-las. “É muito importante que os repórteres reconheçam essas barreiras legais, que são legítimas, e as respeitem”, diz William Wolfe-Wylie. Roberto Rocha, que até recentemente era repórter de dados para a Montreal Gazette, acrescenta que os jornalistas deveriam ler sempre os termos e condições de uso de cada página web para evitar problemas. Outro detalhe importante a ser verificado é o arquivo robots.txt.file, que pode ser encontrado nas páginas website e informa o que é e o que não é permitido extrair ou fazer scraping. Por exemplo, este é o arquivo do Royal Bank of Canada com as restrições a bots externos (user-agents) : Você se identifica, ou não? Se você é um repórter e quer fazer algumas perguntas, a primeira coisa a fazer é apresentar-se e dizer qual a matéria que pretende fazer. Mas o que deveria acontecer quando você usa um botpara pesquisar ou enviar perguntas a um provedor ou a um banco de dados? A norma deveria ser a mesma? Para Glen McGregor, repórter de assuntos nacionais do Ottawa Citizen, a resposta é positiva. “Quando se trata de matérias com cabeçalho http, ponho meu nome, o número de meu telefone e uma nota dizendo: ‘Sou um repórter e estou extraindo dados desta página. Se você tiver problemas ou preocupações com isso, ligue para mim.’ Portanto, se o gerenciador da internet perceber, de repente, um enorme volume de problemas em seu website, se assustar e pensar que está sendo atacado, ele pode verificar quem o está fazendo. Verá minha nota e meu número de telefone. Acho que é uma coisa ética importante que deve ser feita.” Jean-Hugues Roy, professor de Jornalismo na Universidade do Québec em Montréal, que também usa o web scraper, concorda. Mas nem todo mundo pensa assim. Philippe Gohier, editor-chefe da versão digital do jornal L’Actualité, faz o possível para não ser identificado. “Às vezes, eu uso pseudônimos”, diz ele. “Mudo meu endereço IP, assim como os cabeçalhos, para que pareça um ser humano, e não um bot. Tento respeitar as normas, mas também tento não ser detectado.” Quando você não se identifica ao extrair dados de um website, isso é comparável, de certa forma, a fazer entrevistas com uma câmera ou um microfone escondidos. O Código de Ética da Federação Profissional dos Jornalistas de Québec tem algumas normas a este respeito. Procedimentos clandestinos Em alguns casos, é justificável que os jornalistas obtenham a informação que procuram por meios clandestinos: nomes falsos, microfones e câmeras escondidos, informações imprecisas sobre os objetivos de suas reportagens, espionagem, infiltração… Esses métodos devem sempre ser a exceção à regra. E os jornalistas os usam quando: – A informação procurada é, definitivamente, de interesse público. Por exemplo, casos em que ações sociais condenáveis devem ser expostas; – A informação não pode ser obtida ou checada por outros meios, ou estes já foram utilizados sem sucesso; – O benefício do público é maior que qualquer inconveniência individual. – O público deve ser informado sobre os métodos utilizados. De uma maneira geral, a melhor prática consistiria em você se identificar, mesmo que seja um botque faz todo o trabalho. Entretanto, você deve ser mais discreto se a instituição à qual foi feita a pergunta ou consulta tiver a possibilidade de alterar as condições de acesso às informações contidas em sua página, caso ela descobrir que o interessado é um repórter. E quanto àqueles que têm medo de ser bloqueados se você se identificar como repórter, não se preocupe; é bastante fácil mudar seu endereço de IP. Para alguns repórteres, a melhor prática é perguntar sobre