eArticles

Home

eArticles

검색결과 돌아가기

검색화면

Export 프린트

E-Mail
EndNote
RefWorks

TIPECS : A corpus cleaning method using machine learning and qualitative analysis

Resource Type
Authors: Bogaert, Jérémie; Escouflaire, Louis; de Marneffe, Marie-Catherine; Descampe, Antonin; Standaert, François-Xavier; Fairon, Cédrick
Source
Subject: machine learning
corpus linguistics
corpus cleaning
transformers
Language: English

Online Access

Open Access (OpenAIRE)

초록

We present TIPECS ("Train, Infer Predictions, Explain, Clean, Start again"), a corpus cleaning method relying on a mixed approach between machine learning and manual analysis. The aim of our dataset cleaning approach is to remove tokens or segments that are considered as discriminant features by a classification model trained on a given dataset for a given task, but that cannot be generalized to other similar tasks or datasets.

공지

DAU Library

eArticles

요약정보

TIPECS : A corpus cleaning method using machine learning and qualitative analysis

Online Access

초록