Computational tools and spoken corpora design: an ongoing dialogue

Victoria Vázquez Rozas; Mario Barcala

doi:10.7203/caplletra.69.17270

Computational tools and spoken corpora design: an ongoing dialogue

Autores/as

Victoria Vázquez Rozas Universidade de Santiago de Compostela http://orcid.org/0000-0001-8155-669X
Mario Barcala NLPgo Technologies S.L. http://orcid.org/0000-0002-6736-2773

DOI:

https://doi.org/10.7203/caplletra.69.17270

Palabras clave:

oral corpora, stand-off annotation, in-line annotation, segmentation, POS tagging

Resumen

The design of an oral corpus and the processes of registering, codifying and treating the materials in order to build a useful resource for linguistic analysis prompt numerous decisions regarding theory and methodology. This article is focused on those stages of corpus construction which are more clearly conditioned by the computational processing necessary to make it functional. In order to adequately match the initial expectations and the real possibilities of using the tool, each feature we intend to codify must be measured against the workload and the means required to do so. Therefore, it is essential to take into account the available possibilities of processing and exploitation as they have a crucial impact on decisions regarding the corpus’ construction.

Based on experience acquired in the construction of the ESLORA corpus, the present article looks into some of the problems arising in the process of designing an oral corpus, such as the delicacy with which oral phenomena are represented, the segmentation of the discourse, the coexistence of different simultaneous tagging systems and the particularities of annotation in a bilingual or multilingual context.

Descargas

Los datos de descargas todavía no están disponibles.

Descargas

PDF (English)

Publicado

2020-10-07

Cómo citar

Vázquez Rozas, V., & Barcala, M. (2020). Computational tools and spoken corpora design: an ongoing dialogue. Caplletra. Revista Internacional De Filologia, (69), 221–240. https://doi.org/10.7203/caplletra.69.17270

Descargar cita

Metrics

Vistas/Descargas

Resumen
730
PDF
220

Número

Caplletra 69 (tardor 2020)

Sección

ARTÍCULOS MONOGRÁFICO

Licencia

El autor o autora que dirija un trabajo a la redacción de Caplletra para ser publicado tiene que ser la persona titular legítima de los derechos de explotación. La legitimación para la publicación del trabajo tiene que incluir también las imágenes, las tablas, los gráficos y otros materiales que puedan complementar el texto, con independencia de si es su autor o autora.

Copyright. Al publicar el trabajo en la revista, el autor o autora cede a Caplletra. Revista Internacional de Filologia los derechos de explotación (reproducción, distribución y comunicación pública), tanto para la edición impresa en papel como para la versión electrónica.

Todos los trabajos publicados en Caplletra se encuentran bajo una licencia Creative Commons del tipo Reconocimiento-NoComercial-SinObraDerivada 4.0.

RESPONSABILIDAD

Caplletra. Revista Internacional de Filologia no se identifica necesariamente con los puntos de vista sostenidos en los trabajos que publica.Caplletra. Revista Internacional de Filologia declina toda responsabilidad derivada de cualquier vulneración eventual de los derechos de propiedad intelectual que pudiera ser llevada a cabo por los autores o autoras.

Computational tools and spoken corpora design: an ongoing dialogue

Autores/as

DOI:

Palabras clave:

Resumen

Descargas

Descargas

Publicado

Cómo citar

Número

Sección

Licencia

Métrica

Artículos similares

Callpetra

indexacio

Enviar un artículo

Idioma

Información

Palabras clave