Análisis de metadatos de noticias para la extracción de información del código fuente. El software METADATOSHTML. (Spanish)

Item request has been placed! ×
Item request cannot be made. ×
loading   Processing Request
  • Additional Information
    • Abstract:
      Introduction. The objectives of this work are to determine which schemes are used for title, abstract, keywords, authorship and newspaper in press; to know what guidelines newspapers follow in the implementation of these schemes; and to find out how this affects the extraction of information. Methodology. For this purpose, a newspaper sample is defined and its source code is analysed, identifying the schemas used and usage patterns. This allows us to extract data values using the MetadadosHTML application. Results. Standard, ad hoc and newspaper schemes have been detected. Various practices have been found, such as values grouped in the same line of code or separately; noise in a value; and errors when referring to the names of the attributes of standard schemas. These issues affect data extraction based on metadata and metadata schemas in MetadadosHTML Conclusions. It is necessary to make progress in the use of standard schemas such as Dublin Core or schema.org, favouring the implementation of these (or others) in the news source codes. It is also imperative to adopt good practices in making explicit data and data values. Only in this way is it possible to evolve interoperability between systems and the retrieval and reuse of information. [ABSTRACT FROM AUTHOR]
    • Abstract:
      Introducción. Los objetivos de este trabajo son determinar qué esquemas se utilizan para título, resumen, palabras clave, autoría y periódico en prensa; conocer qué pautas siguen los periódicos en la implementación de dichos esquemas; y averiguar cómo esto afecta a la extracción de información. Metodología. Para ello, se define una muestra de diarios y se analiza su código fuente, identificando esquemas utilizados y patrones de uso. Esto permite extraer valores de dato utilizando la aplicación MetadadosHTML. Resultados. Se han detectado esquemas estándar, ad hoc y propios de los periódicos. Se han hallado diversas prácticas, como valores agrupados en una misma línea de código o por separado; ruido en un valor y errores al referir los nombres de los atributos de esquemas estándar. Estos problemas afectan a la extracción de datos basada en esquemas de metadatos y metadatos en MetadadosHTML Conclusiones. Es necesario avanzar en el uso de esquemas estándar, como Dublin Core o schema.org, favoreciendo la implantación de estos (u otros) en los códigos fuente de noticias. También resulta imprescindible la adopción de buenas prácticas al explicitar datos y valores de datos. Sólo así es posible evolucionar en la interoperabilidad entre sistemas y en la recuperación y reutilización de información. [ABSTRACT FROM AUTHOR]
    • Abstract:
      Copyright of Information Research is the property of University of Boras and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)