논문을 이렇게까지 방치해도 되는 걸까?
얼렁뚱땅 주제가 확정되었는데 내가 진짜 뭘 하고 싶은 건지도 모르겠고, 이 연구가 실현 가능한지도 모르겠다.
일러두기
IK-2 = 의문사 있는 의문문 (WHQ) ЧТО это?
IK-3 = 의문사 없는 의문문 (YNQ, 가부의문문) Это СИНЯЯ ручка?
1. 데이터 처리
1) 일단 코퍼스 내에서 어떤 게 IK-2이고 어떤 게 IK-3인지 구분해야 한다. GPT API를 이용해볼 계획이긴 하다. 그러나,
문제 1: 코퍼스 텍스트에 물음표가 없어서 일반 평서문과 가부의문문을 구분할 수 없을 것이라 생각된다. (Это синяя ручка. Это СИНЯЯ ручка? — 문장부호가 사라지는 순간 텍스트상으로는 똑같다.)
문제 2: 정확도를 검증할 방법이 너무 나이브하다. (랜덤으로 백 개 뽑아서 연구자=내가 수동 검증)
2) 게다가 여기서 드는 의문: "GPT가 문장 내용만으로 (또는 음성만으로) IK-2, 3을 구분할 수 있으면 네 연구가 왜 필요함?" 에 대한 방어기제를 잘 설정해야 한다.
3) 만약 아예 GPT가 실패한다면 물음표를 포함하고 있는 더 작은 코퍼스(RUSLAN)를 써야 한다.
2. ToBI 기반 자동분석
- 쉽게 말해 "삐빅- 이 문장의 피치 악센트는 LH* 복합성조입니다"를 판단하는 로봇이 필요하다.
- 즉, ToBI 기반의 이진적 억양 구분(H, L)을 자동화할 수 있는 모델을 만든다
- 이를 위해서는 TCoG(L*H와 LH*를 구분하는 지표로 사용) 등 기존의 이론들을 참조해볼 수도 있겠으나 결국은 머신러닝/딥러닝으로 가야 할 것 같다는 예감이 든다.
- 그렇다면 내가 수동으로 어떤 게 H이고 어떤 게 L이고 L*H이고 LH*인지 마킹한 뒤 그걸 학습시켜야 한다. 그러나 연구의 목적 자체가 '객관적 지표를 통해 ToBI식 마킹을 한다'인데, 내가 만든 자료를 학습 재료로 쓴다면 결국은 나의 ToBI관을 복사하는 기계를 만드는 것밖에 안 되는 것이 아닌가? 게다가 나의 ToBI 직관은 내가 봐도 꽤 수준이 낮다.
3. 추가적인 주석작업
- 억양의 분석 대상이 강조단어가 아니라 문장 전체라면, 문장 전체가 몇 단어로 구분되어있는지, 강조되는 단어의 위치는 그 속에서 어디인지도 주석작업 해야 한다.
- 이것도 인공지능이 해줄 수 있을까?
4. 최종 연구 목적
- IK-2, IK-3의 억양 차이가 단지 위치의 차이에 불과한지, 또는 세부적인 음성 디테일 (피치의 높이 등)의 차이가 있는지 점검하는 것이 최종 목적.
- 즉, WHO are you?와 is this YOU?처럼 그냥 위치의 차이인 건지, 아니면 단어 내에서의 피치의 흐름이나 높이, 변화폭, 속도 등이 다른지를 봐야 한다.
아무래도 지도교수님과 미팅을 잡아봐야겠다. 전체적으로 방향 자체를 너무 방대하게 잡고 있다는 생각이 든다.
'러시아 > 학업과 진로' 카테고리의 다른 글
| 박논 연구계획: 면담 내용 정리 (0) | 2025.11.25 |
|---|---|
| 박사논문 주제에 대한 수정된 생각 (4) | 2025.11.24 |
| 진학 대학 고민 및 국비장학 결과 발표 (3) | 2025.07.24 |
| 앓으면서 맞이하는 모스크바의 주말 (2) | 2025.06.22 |
| 제2입학시험 전 쓰는 글 (1) | 2025.06.19 |