1. KLUE(Korean Language Understanding Evaluation, KLUE) : 한국어 자연어 이해 벤치마크
자연어 task를 하다보면, 다음과 같은 작업을 직면하게 된다.
문장 분류, 관계 추출, 문장 유사도, 자연어 추론, 개체명 인식, 품사 태깅
질의 응답, 목적형 대화, 의존 구문 분석 등...
2. 의존 구문 분석
단어들 사이의 관계를 분석하는 task
2.1 특징
- 지배소 : 의미의 중심이 되는 요소
- 의존소 : 지배소가 갖는 의미를 보완해주는 요소
- 어순과 생략이 자유로운 한국어와 같은 언어에서 주로 연구된다.
2.2 분류 규칙
- 지배소는 후위언어이다. 즉, 지배소는 항상 의존소보다 위에 위치한다.
- 각 의존소의 지배소는 하나이다.
- 교차 의존 구조는 없다.
2.3 분류 방법
- Sequence labeling 방식으로 처리 단계를 나눈다.
- 앞 어절에 의존소가 없고 다음 어절이 지배소인 어절을 삭제하며 의존 관계를 만든다.
- 복잡한 자연어 형태를 그래프로 구조화해서 표현 가능하다. 각 대상에 대한 정보 추출이 가능하는 것이다.
3. 단일 문장 분류 task
- 주어진 문장이 어떤 종류의 범주에 속하는 지를 구분하는 task
3.1 감정분석(Sentiment Analysis)
- 문장의 긍정 또는 부정 및 중립 등 성향을 분류하는 프로세스
- 문장을 작성한 사람의 느낌, 감정 등을 분석 할 수 있기 때문에 기업에서 모니터링, 고객지원, 또는 댓글에 대한 필터링 등을 자동화하는 작업에 주로 사용
- 어디에 쓰는 가?
-> 혐오 발언 분류 : 댓글, 게임 대화 등 혐오 발언을 분류하여 조치를 취하는 용도로 활용
-> 기업 모니터링 : 소셜, 리뷰 등 데이터에 대해 기업 이미지, 브랜드, 선호도, 제품평가 등 긍정 또는 부정적 요인을 분석
3.2 주제 라벨링(Topic Labeling)
- 문장의 내용을 이해하고 적절한 범주를 분류하는 프로세스
- 주제별로 뉴스 기사를 구성하는 등 데이터 구조화와 구성에 용이
- 어디에 쓰는 가?
-> 대용량 문서 분류 : 대용량의 문서를 범주화
-> VoC(Voice of Customer) : 고객의 피드백을 제품 가격, 개선점, 디자인 등 적절한 주제로 분류하여 데이터를 구조화
3.3 언어 감지(Language Detection)
- 문장이 어떤 나라 언어인지를 분류하는 프로세스
- 주로 번역기에서 정확한 번역을 위해 문장이 어떤 나라의 언어인지 타켓팅 하는 작업이 가능
- 어디에 쓰는 가?
-> 번역기 : 번역할 문장에 대해 적절한 언어를 감지함
-> 데이터 필터링 : 타겟 언어 이외의 데이터는 필터링
3.4 의도 분류(intent Classification)
- 문장이 가진 의도를 분류하는 프로세스
- 입력 문장이 질문, 불만, 명령 등 다양한 의도를 가질 수 있기 때문에 적절한 피드백을 줄 수 있는 곳으로 라우팅 작업이 가능
- 어디에 쓰는 가?
-> 챗봇 : 의도가 있는 문장, 질문, 명령, 거절 등을 분석하고 적절한 답변을 주기 위해 활용한다.
'BoostCamp AI Tech - P Stage' 카테고리의 다른 글
| [Week 11]BoostCamp AI Tech - Day54 (0) | 2021.04.17 |
|---|---|
| [Week 10]BoostCamp AI Tech - Day46 (0) | 2021.04.05 |
| [Week 9]BoostCamp AI Tech - Day41 (0) | 2021.03.30 |
댓글