CURSO DE ESPECIALIZACIÓN ONLINE
Web Scraping con R y RStudio (16 horas)
Organizan: Fundación CENTRA y Asociación Andaluza de Sociología
Fechas: 24, 26 de junio y 1,3 , 8, 10, 15, 17 de julio de 2025, de 16:30 a 18:30h.
PRESENTACIÓN:
El presente curso tiene como principal objetivo entregar una aproximación general a técnicas avanzadas de web scraping que facilita el lenguaje de programación R. A lo largo de los encuentros se abordarán los diferentes tópicos referidos a las distintas etapas del raspado de páginas de internet (detención del tipo de página a raspar, inspección de su estructura básica, detección de los tags que enmarcan la información de interés, desarrollo de funciones para encadenar las líneas de código necesarias para obtener la información, transformación de datos semiestructurado a datos estructurados en formato ‘tidy’). Estos pasos quedarán escritos en scripts enmarcados en un proyecto de Rstudio.
Durante el curso se compartirán (vía GitHub) archivos de datos, código, aplicaciones y referencias bibliográficas de interés. De este modo, cada estudiante contará con el material ya construido en base al cual podrá continuar su aprendizaje a la vez que podrá implementar rápidamente el uso de técnicas avanzadas de web scraping en R y RStudio para sus propios fines de investigación, sea en el área académica o profesional.
DOCENTE:
Profesor y doctor en historia por la Universidad Nacional de Mar del Plata. Se desempeña como docente en el Departamento de Sociología de la Facultad de Humanidades del UNMdP. En los últimos cinco años ha impartido cursos sobre el uso de R en las ciencias sociales y las humanidades en carreras de grado y posgrado. Sus temas de interés se articulan en torno al análisis computacional de la conflictividad social pasada y presente. En el ámbito de la investigación se ha vinculado con proyectos de alto nivel académico y profesional desarrollados por prestigiosas instituciones internacionales y del sistema de investigación científica en Argentina (AUIP, CONICET). Actualmente es investigador independiente del CONICET con lugar de trabajo en el Instituto de Humanidades y Ciencias Sociales. Es autor y desarrollador de “ACEP” y “TweetScraperR”. ACEP: se trata de un paquete de funciones en lenguaje R útiles para la detección y el análisis de eventos de protesta en corpus de textos periodísticos. Sus funciones son aplicables a cualquier corpus de textos (https://agusnieto77.github.io/ACEP/). TweetScraperR: se trata de un paquete de funciones en lenguaje R útiles para extraer datos de X/Twitter, incluidos tweets, usuarixs y metadatos asociados. (https://github.com/agusnieto77/TweetScraperR).
OBJETIVOS:
Aproximar a lxs estudiantes a diferentes técnicas de web scraping, al conocimiento de las estructuras de las páginas web y sus etiquetas html, a la transformación de datos semiestructurado a datos estructurado, a la gestión de corpus de texto, en base a las distintas librerías disponibles en CRAN. Se espera que al final del curso cada estudiante haya integrado los conocimientos necesarios y suficientes para adaptar autónomamente las distintas funciones de raspado web desarrolladas en el marco del curso a sus propias instancias de investigación académica y/o profesional.
PROGRAMA:
1. Introducción al raspado web con R y RStudio Presentación general del curso. Repaso sobre R y RStudio. Organización del directorio de trabajo. Creación de proyectos. Vinculación con GitHub. ¿Qué es el web scraping? ¿Cuándo usarlo y cuándo no? API o No API. Introducción a la automatización con IA en web scraping.
2. Introducción a la estructura de etiquetas HTML Introducción a HTML, CSS y XPath. Importancia de las etiquetas para recuperar información. Inspección de estructuras HTML con herramientas nativas y software especializado (F12, SelectorGadget, ScrapeMate).
3. Web scraping enpáginas estáticas Uso de R para extraer información de páginas estáticas. Introducción al paquete rvest: instalación y funciones básicas (read_html(), html_elements(), html_text(), html_table()).
4. Funciones para el raspado masivo de páginas estáticas Uso de rvest junto con purrr (del paquete tidyverse) para automatizar la extracción de múltiples páginas. Transformación de datos semi-estructurados en datos estructurados.
5. Web scraping en páginas dinámicas Introducción a la extracción de datos de páginas dinámicas con read_html_live(). Consideraciones para manejar contenido generado dinámicamente.
6. Funciones para el raspado masivo de páginas dinámicas Aplicación de rvest y tidyverse para el raspado masivo de páginas dinámicas. Almacenamiento de datos en formato tabular.
7. Automatización de tareas de raspadoweb: PC, Raspberry Pi, VPS Métodos de automatización en distintos entornos: 1) ejecución en PC, 2) en Raspberry Pi, 3) en VPS. Introducción a crontab, cronR (Linux) y taskscheduleR (Windows).
8. Visualización y análisis exploratorio de datos Limpieza y normalización de textos. Procesamiento de lenguaje natural (stopwords, lematización, etiquetas POS). Tokenización y análisis exploratorio con visualización de datos. Uso de diccionarios e IA.
REQUISITOS:
.Cada estudiante deberá contar con un ordenador operativo y, en lo posible, un manejo intermedio en instalación y configuración de softwares (descarga de archivos, instalación y configuración de programas, etc.). Se recomienda el uso de dos pantallas que permitan al alumno para seguir el curso y practicar en paralelo.
Se espera que los estudiantes cuenten con las competencias básicas para usar lenguaje de programación R orientado al análisis de datos. Específicamente: lógica general en uso de sintaxis: lectura y manejo de bases de datos (desde formato CSV, TXT, RDS, SQL); gestión de paquetes de funciones especializadas; un manejo fluido de la familia de paquetes tidyverse (en particular dplyr)
CARACTERÍSTICAS
BONIFICACIONES
ANULACIONES
Cancelación gratis hasta 6 días antes del curso, recargo del 10% si cancelas después.
Dos días antes del curso sólo se devolverá el importe por motivos de causa mayor debidamente justificados.
La Fundación CENTRA se reserva el derecho de cancelación o aplazamiento.
[+] CONSULTA LA OFERTA FORMATIVA DE CURSOS VIGENTE
Colabora:
L | M | X | J | V | S | D |
---|---|---|---|---|---|---|
1
|
2
|
3
|
4
|
5
|
6
|
|
7
|
8
|
9
|
10
|
11
|
12
|
13
|
14
|
15
|
16
|
17
|
18
|
19
|
20
|
21
|
22
|
23
|
24
|
25
|
26
|
27
|
28
|
29
|
30
|