Del martes 24 jun al 17 jul 2025 jueves

Curso Web Scraping con R y RStudio

Cursos
Online a través de plataforma Teams
24 y 26 de junio y 1, 3 , 8, 10, 15 y 17 de julio de 2025
150 €

CURSO DE ESPECIALIZACIÓN ONLINE

 Web Scraping con R y RStudio (16 horas)

Organizan: Fundación CENTRA y Asociación Andaluza de Sociología 

Fechas: 24, 26 de junio y 1,3 , 8, 10, 15, 17 de julio de 2025, de 16:30 a 18:30h.

PRESENTACIÓN: 

El presente curso tiene como principal objetivo entregar una aproximación general a técnicas avanzadas de web scraping que facilita el lenguaje de programación R. A lo largo de los encuentros se abordarán los diferentes tópicos referidos a las distintas etapas del raspado de páginas de internet (detención del tipo de página a raspar, inspección de su estructura básica, detección de los tags que enmarcan la información de interés, desarrollo de funciones para encadenar las líneas de código necesarias para obtener la información, transformación de datos semiestructurado a datos estructurados en formato ‘tidy’). Estos pasos quedarán escritos en scripts enmarcados en un proyecto de Rstudio.

Durante el curso se compartirán (vía GitHub) archivos de datos, código, aplicaciones y referencias bibliográficas de interés. De este modo, cada estudiante contará con el material ya construido en base al cual podrá continuar su aprendizaje a la vez que podrá implementar rápidamente el uso de técnicas avanzadas de web scraping en R y RStudio para sus propios fines de investigación, sea en el área académica o profesional.

DOCENTE:

Profesor y doctor en historia por la Universidad Nacional de Mar del Plata. Se desempeña como docente en el Departamento de Sociología de la Facultad de Humanidades del UNMdP. En los últimos cinco años ha impartido cursos sobre el uso de R en las ciencias sociales y las humanidades en carreras de grado y posgrado. Sus temas de interés se articulan en torno al análisis computacional de la conflictividad social pasada y presente. En el ámbito de la investigación se ha vinculado con proyectos de alto nivel académico y profesional desarrollados por prestigiosas instituciones internacionales y del sistema de investigación científica en Argentina (AUIP, CONICET). Actualmente es investigador independiente del CONICET con lugar de trabajo en el Instituto de Humanidades y Ciencias Sociales. Es autor y desarrollador de “ACEP” y “TweetScraperR”. ACEP: se trata de un paquete de funciones en lenguaje R útiles para la detección y el análisis de eventos de protesta en corpus de textos periodísticos. Sus funciones son aplicables a cualquier corpus de textos (https://agusnieto77.github.io/ACEP/). TweetScraperR: se trata de un paquete de funciones en lenguaje R útiles para extraer datos de X/Twitter, incluidos tweets, usuarixs y metadatos asociados. (https://github.com/agusnieto77/TweetScraperR).

OBJETIVOS: 

  • Objetivo general:

Aproximar a lxs estudiantes a diferentes técnicas de web scraping, al conocimiento de las estructuras de las páginas web y sus etiquetas html, a la transformación de datos semiestructurado a datos estructurado, a la gestión de corpus de texto, en base a las distintas librerías disponibles en CRAN. Se espera que al final del curso cada estudiante haya integrado los conocimientos necesarios y suficientes para adaptar autónomamente las distintas funciones de raspado web desarrolladas en el marco del curso a sus propias instancias de investigación académica y/o profesional.

  • Objetivos de aprendizaje específicos:
  1. Identificar las distintas estructuras que presentan las páginas web para definir el enfoque a ser aplicado en el proceso de raspado web.
  2. Manejar las herramientas básicas para desarrollar una inspección profunda de la estructura de etiquetas html de distintas páginas web.
  3. Conocer el abanico de librerías y paquetes de funciones disponible en CRAN para desarrollar raspado web con R y Rstudio.
  4. Desarrollar funciones de raspado web con el enfoque adecuado según sea el contenido y la estructura de la página web.
  5. Poder almacenar las grandes masas de texto raspadas en la web en un formato tabular.
  6. Reconocer la bibliografía especializada sobre las técnicas de web scraping.

PROGRAMA:  

1. Introducción al raspado web con R y RStudio Presentación general del curso. Repaso sobre R y RStudio. Organización del directorio de trabajo. Creación de proyectos. Vinculación con GitHub. ¿Qué es el web scraping? ¿Cuándo usarlo y cuándo no? API o No API. Introducción a la automatización con IA en web scraping. 

2. Introducción a la estructura de etiquetas HTML Introducción a HTML, CSS y XPath. Importancia de las etiquetas para recuperar información. Inspección de estructuras HTML con herramientas nativas y software especializado (F12, SelectorGadget, ScrapeMate).

3. Web scraping enpáginas estáticas Uso de R para extraer información de páginas estáticas. Introducción al paquete rvest: instalación y funciones básicas (read_html(), html_elements(), html_text(), html_table()).

4. Funciones para el raspado masivo de páginas estáticas Uso de rvest junto con purrr (del paquete tidyverse) para automatizar la extracción de múltiples páginas. Transformación de datos semi-estructurados en datos estructurados.

5. Web scraping en páginas dinámicas Introducción a la extracción de datos de páginas dinámicas con read_html_live(). Consideraciones para manejar contenido generado dinámicamente.

6. Funciones para el raspado masivo de páginas dinámicas Aplicación de rvest y tidyverse para el raspado masivo de páginas dinámicas. Almacenamiento de datos en formato tabular.

7. Automatización de tareas de raspadoweb: PC, Raspberry Pi, VPS Métodos de automatización en distintos entornos: 1) ejecución en PC, 2) en Raspberry Pi, 3) en VPS. Introducción a crontab, cronR (Linux) y taskscheduleR (Windows).

8. Visualización y análisis exploratorio de datos Limpieza y normalización de textos. Procesamiento de lenguaje natural (stopwords, lematización, etiquetas POS). Tokenización y análisis exploratorio con visualización de datos. Uso de diccionarios e IA.

REQUISITOS:  

.Cada estudiante deberá contar con un ordenador operativo y, en lo posible, un manejo intermedio en instalación y configuración de softwares (descarga de archivos, instalación y configuración de programas, etc.). Se recomienda el uso de dos pantallas que permitan al alumno para seguir el curso y practicar en paralelo.

Se espera que los estudiantes cuenten con las competencias básicas para usar lenguaje de programación R orientado al análisis de datos. Específicamente: lógica general en uso de sintaxis: lectura y manejo de bases de datos (desde formato CSV, TXT, RDS, SQL); gestión de paquetes de funciones especializadas; un manejo fluido de la familia de paquetes tidyverse (en particular dplyr)

CARACTERÍSTICAS

  • La clases se impartirán por Teams y dispondrás de un campus donde tendrás acceso a los materiales, las grabaciones  y al foro que te conecta con los profesores fuera de las clases.
  • Se emitirán Certificado de Asistencia (cumpliendo el 80% el horario en directo) y Certificado de Aprovechamiento.

BONIFICACIONES

  • Acumulables hasta un máximo del 40% del importe de la matrícula:
  • 40% para personas paradas de larga duración o menores de 30 años.
  • 20% para personas en situación de desempleo, miembros de familia numerosa y para grupos a partir de cinco personas.
  • 20% para socios de la Asociación Andaluza de Sociología en los cursos coorganizados junto a ella. Aquellos cursos que no están dentro del convenio tendrán un descuento del 10%.
  • 10% para profesionales colegiados miembros del Colegio Oficial de Ciencias Políticas y Sociología de Andalucía,socios de la Asociación Andaluza de Antropología o del Colegio Oficial de Psicología de Andalucía Oriental.
  • 10% en las sucesivas inscripciones a cursos dentro de una misma edición.

ANULACIONES

Cancelación gratis hasta 6 días antes del curso, recargo del 10% si cancelas después.

Dos días antes del curso sólo se devolverá el importe por motivos de causa mayor debidamente justificados.

La Fundación CENTRA se reserva el derecho de cancelación o aplazamiento.

[+] CONSULTA LA OFERTA FORMATIVA DE CURSOS VIGENTE

Colabora:

AAS

Mapa web del
Centro de Estudios Andaluces