Corpus Annotation and Analysis of Sarcasm on Twitter: #CatsMovie vs. #TheRiseOfSkywalker.

Item request has been placed! ×
Item request cannot be made. ×
loading   Processing Request
  • Additional Information
    • Alternate Title:
      Anotación de corpus y análisis del sarcasmo en Twitter: #CatsMovie vs. #TheRiseOfSkywalker.
    • Subject Terms:
    • Abstract:
      Sentiment analysis is a natural language processing task that has received increased attention in the last decade due to the vast amount of opinionated data on social media platforms such as Twitter. Although the methodologies employed have grown in number and sophistication, analysing irony and sarcasm still poses a severe problem. From the linguistic perspective, sarcasm has been studied in discourse analysis from several perspectives, but little attention has been given to specific metrics that measure its relevance. In this paper we describe the creation of a manually-annotated dataset where detailed text markers are included. This dataset is a sample from a larger corpus of tweets (n= 76,764) on two highly controversial films: Cats and Star Wars: The Rise of Skywalker. We took two different samples for each film, one before and one after their release, to compare reception and presence of sarcasm. We then used a sentiment analysis tool to measure the impact of sarcasm in polarity detection and then manually classified the mechanisms of sarcasm generation. The resulting corpus will be useful for machine learning approaches to sarcasm detection as well as discourse analysis studies on irony and sarcasm. [ABSTRACT FROM AUTHOR]
    • Abstract:
      El análisis de sentimiento es una de las aplicaciones del procesamiento del lenguaje natural que más atención ha recibido en la última década, principalmente debido a la cantidad de opiniones vertidas en redes sociales como Twitter. Pese a que las metodologías empleadas son cada vez más sofisticadas, el sarcasmo sigue siendo un gran problema. Aunque el sarcasmo ha sido estudiado desde varias perspectivas en el análisis del discurso, no se ha prestado mucha atención a su presencia y relevancia real, aportando métricas concretas. En este trabajo se describe la creación de un dataset anotado manualmente en el que se incluyen marcadores textuales. Dicho dataset es la muestra de un corpus de tweets (n= 76.764) sobre dos películas controvertidas: Cats y Star Wars. El Ascenso de Skywalker. Tomamos dos muestras para cada película, antes y después de su estreno, para comparar su acogida. Empleamos una herramienta de análisis de sentimiento para medir el impacto del sarcasmo en la detección de la polaridad, y posteriormente identificamos y clasificamos los mecanismos de generación de sarcasmo. Este corpus puede ser de gran utilidad para la detección del sarcasmo mediante aprendizaje automático, así como para estudios de análisis del discurso sobre la expresión del sarcasmo. [ABSTRACT FROM AUTHOR]