lucyLattes um script para manipular dados da plataforma Lattes

extraindo dados do currículo Lattes

Introdução

Historicamente o CNPq gerencia uma base dados sobre pesquisadores em C&T para diversos fins, cita-se como exemplo a avaliação de programas de pós-graduação, seleção de bolsas para pesquisadores, entre outros. Esta base dados é denominada Plataforma Lattes.

Devido esta referida plataforma ser amplamente utilizada, tornou-se padrão em universidades, órgãos de pesquisa, etc. Nesta plataforma é possível encontrar desde a formação acadêmica do profissional, as empresas que trabalhou, até sua produção científica, e artística, etc.

O que deixava o uso do Currículo Lattes tedioso era a extração dos dados, pois usualmente era manual, o que consequentemente torna o trabalho massante. Contudo, tudo mudou com scriptLattes. Este script GNU-GPL realiza a extração e compilação automática de: produções bibliográficas, técnicas,artísticas, orientações, projetos de pesquisa, etc, de um conjunto de pesquisadores cadastrados na plataforma Lattes.

Todavia, com a implementação do captcha (código de segurança), a utilização do scriptLattes foi impossibilitada, veja aqui.

Devido à necessidade estudar o panorama de um grupo de profissionais, e para contornar a impossibilidade do uso do scriptLattes, o lucyLattes foi desenvolvido.

O lucyLattes é um script em python, que faz a extração, a compilação, a organização dos dados dos currículos da plataforma Lattes em arquivos de texto, e a geração de um relatório simplificado, que proporcionam agilidade para a geração de informação. O inconveniente é ter que fazer o download dos arquivos .xml dos Currículo Lattes a serem analisados.

Caso você esteja se perguntando o porquê do nome lucyLattes, a resposta é simples. Como o nome mais obvio, que seria scriptLattes, já está em uso, parei para pensar e olhei para o lado, e encontrando a Lucy …

Figure 1: Lucy

Como usar e quais os resultados obtidos

Inicialmente, tudo ficará mais fácil se utilizar um sistema operacional Linux. Eu testei no Ubuntu e no Debian (distribuição que uso), mas fique à vontade para escolher a sua distribuição. No sistema Windows fiz poucos testes.

Os pacotes necessários e como proceder a instalação dos mesmos está descrito AQUI.

Uma vez que os requisitos necessários foram atendidos, torna-se possível utilizar o lucyLattes. Siga as seguintes etapas:

Passo 1

Após fazer o download do lucyLattes (download aqui), descompacte o arquivo lucyLattes-master.zip. Após a descompactação a pasta lucyLattes-master estará disponível. Abra esta pasta e você terá acesso aos seguintes arquivos e diretórios:

| lucyLattes-master
   | --- csv_producao/
   | --- __pycache__/
   | --- relatorio/
   | --- xml_zip/
   | --- qualis_admconta_periodicos_2016.csv
   | --- qualis_agrarias_periodicos_2016.csv
   | --- qualis_ciencamb_periodicos_2016.csv
   | --- qualis_enfermag_periodicos_2016.csv
   | --- qualis_interdic_periodicos_2016.csv
   | --- qualis_lingliterat_periodicos_2016.csv
   | --- grid.edgelist
   | --- FLOWCHART.md
   | --- README.md
   | --- extrafuns.py
   | --- grapho.py
   | --- lucyLattes.py
   | --- readidlist.py
   | --- report.py
   | --- scraperlattes.py
   | --- tidydf.py
   | --- config.txt
   | --- LICENSE.txt
   | --- list_id_name.txt

Passo 2

Acesse o site de busca de currículo Lattes e faça o download dos arquivos .xml de todos os currículos desejados. O botão com o link para fazer o download do arquivo .xml fica no canto direito superior da página com o currículo Lattes. Por exemplo, acesse http://lattes.cnpq.br/3275865819287843, preencha o captcha, e olhe no canto direito da página o botão XLM, é só clicar para fazer o download (Figure 2).

Figure 2: Download do arquivo `.XML`

Após clicar no botão XML será realizado o download do arquivo .zip com o nome 2300099357169820.zip. NÃO descompacte ou renomeie este arquivo, este número é o identificador do profissional na plataforma Lattes.

Neste exemplo usamos quatro currículos, consequentemente fizemos o download de quatro arquivos: 1292986021348016.zip, 2300099357169820.zip, 3275865819287843.zip, 5859946324646438.zip. Copie estes quatro arquivos na pasta xml_zip.

Passo 3

No diretório lucyLattes-master abra o arquivo list_id_name.txt com o EDITOR de texto e preencha de acordo com as orientações que estão no arquivo. Repare que não há espaço antes e após a vírgula, e obedeça a sequência: número do currículo, nome abreviado do profissional, grupo do profissional (Figure 3).

Figure 3: Preenchimento do arquivo list_id_name.txt

Passo 4

No diretório lucyLattes-master abra o arquivo config.txt com o EDITOR de texto. Defina qual o qualis desejado, repare que no diretório lucyLattes-master há seis arquivos disponíveis. Neste exemplo utilizamos o qualis da ciências agrárias que está no arquivo qualis_agrarias_periodicos_2016.csv, com início da análise desde o ano 2010 até 2019 (Figure 4).

Figure 4: Preenchimento do arquivo config.txt

Passo 5

Utilizando o Terminal acesse o diretório lucyLattes-master e digite python3 lucyLattes.py e aperte ENTER (Figure 5).

Figure 5: Executando o script pelo terminal

Passo 6 (último) :)

Se tudo ocorreu bem, no diretório lucyLattes-master, acesse a pasta relatório, e abra com o navegador (Firefox ou Chrome) o arquivo relatorio_producao.html. No navegador aparecerá um relatório com as seguinte informações: Equipe, Resumo da produção, Projetos de extensão, Projetos de pesquisa, Artigos em periódicos, Extrato de periódicos por integrante.

Além das informações supracitadas, são gerados três gráficos: relação de produção de artigos em periódicos por ano, relação de periódicos por qualis, e se há intereção entre os pesquisadores (Figuras 6, 7, e 8).

Figure 6: Número de publicações por ano

Figure 7: Publicações de periódicos por qualis.

Figure 7: Grafo de colaboração entre pesquisadores apenas em artigos.

O Extrato de periódicos por integrante resume o número de publicação(s) por ano e qualis:

Rafael Cesar Tieppo: produção total = 20

YEAR A2 B1 B2 B3 B5 C XX
0 2010 0 0 0 1 1 0 0
1 2011 0 1 0 0 2 0 0
2 2012 0 1 0 1 0 0 0
3 2013 0 1 0 0 0 0 0
4 2014 0 2 1 0 1 0 0
5 2016 0 0 0 1 0 0 0
6 2017 0 0 0 0 2 1 0
7 2018 0 0 0 1 1 0 1
8 2019 1 0 0 0 0 0 0

Considerações

Espero que o lucyLattes seja útil de alguma forma, dentro do possível estarei melhorando o script na sua funcionalidade.

Gostou?

  • Nos de uma estrela clicando na estrela no topo da página (lado direito) AQUI
  • Deixe um comentário aqui no Blog
  • Vc pode doar um café via Paypal ;)

Notas

O lucyLattes não tem vínculo com o CNPq. Este programa computacional é fruto de um esforço (independente) realizado com o objetivo de dar suporte às rotinas de análise de dados cadastradas nos Currículos Lattes (publicamente disponíveis).

Este programa é um software livre; você pode redistribui-lo e/ou modificá-lo dentro dos termos da Licença Pública Geral GNU. Verifique o arquivo LICENSE.txt .

Este programa é distribuído na esperança que possa ser útil, mas SEM NENHUMA GARANTIA; sem uma garantia implicita de ADEQUAÇÂO a qualquer MERCADO ou APLICAÇÃO EM PARTICULAR. Verifique o arquivo LICENSE.txt .

 Share!

 
comments powered by Disqus