본문 바로가기
러시아/러시아어 공부

2023-2학기 기말레포트 (등급성 반의어, 게임리뷰 감성분석, 음성학)

by 누에고치 2023. 12. 30.

입학하자마자 얼레벌레 한 학기가 흘러가고 어느덧 학기가 끝나버렸다. 

연구방법론(노어학개론)

요약: 영어 '등급성 반의어' 형용사에 대한 연구(Lee 2013)을 대상을 러시아어로 바꿔보기. (출현빈도 및 연어 분석에 의한 등급성 반의어 관계 및 유무표성 검증)

문제점: 코퍼스는 어떻게 찾고 분석기는 뭘 돌려야 하는가? 선행연구는 뭘 봐야 하는가? 찾기가 쉽지 않음...

  1. 코퍼스: 가장 대중적인 국립러시아어코퍼스(RNC)를 사용.
  2. 분석기: 따로 AntConc 필요없이 RNC가 웹 UI로 연어를 찾고 엑셀로 내보낼 수 있어서 편리했음. 내보내진 엑셀을 하나의 파일에 묶고 시트명 기준으로 불러오는 수식을 짜서 공통연어를 찾아냄.
  3. 선행연구: 구글 스콜라를 뒤져서 적절한 연구들을 찾아보았는데,
    1. LogDice: 단순 출현빈도보다 LogDice를 기준으로 삼는 게 좋을 것 같아 관련 논문을 인용
    2. 번역어: 원래 스웨덴어/영어였던 형용사를 러시아어로 바꾸는 과정에서 번역어의 선정을 위해 관련 논문들의 사례 인용.
    3. 이중척도형용사: 대상으로 삼은 형용사 쌍 가운데 new-old의 유무표성이 통계적으로 드러나지 않았음. 그래서 '해당 단어쌍은 통상적인 단일척도 등급성 형용사가 아니라 "이중척도" 형용사라서 유무표대립이 없다'라는 터키어 논문을 인용

 

감성언어분석

요약: 스팀 게임 리뷰를 추출해서 게임 분야의 domain-specific 한 긍정극성어휘를 찾아내기

문제점: 이것만으로 의미가 있을지 모르겠음

  1. 코퍼스: steam-review-scraper라는 파이썬 모듈을 사용해서 스팀 게임 <켄시>의 러시아어 리뷰 데이터를 크롤링함. (변수형이 잘못 되어있는지 에러가 나서  모듈 자체 코드를 조금 손봤음.) 원래 <켄시>는 시험삼아 제안서 작성까지만 활용해보고 실제 연구에서는 러시아에서 인기가 많은 월탱을 하려고 했는데, 무료게임이라서 그런지 리뷰들이 짧고 스팸도 많아서 <켄시> 데이터를 재활용함. 참고로 켄시는 20-1학기 교환학생 생활 후반부를 삭제시킨 주범이다. (관련글) 스팀에서 한국어에 대한 lang 태그는 왠지 모르겠지만 a가 하나 붙은 "koreana"임.
  2. 툴: 꽤 많은 툴을 사용함.
    1. 원형화(lemmatizing): Spacy를 활용함. nltk도 써봤는데 예상처럼 코드가 동작하지 않았음. 노트북에서 돌리니까 시간을 꽤 잡아먹어서 한 10만개 정도 돌리고 싶다는 원대한 원래의 꿈은 날아갔음.
    2. 빈도추출, RegEx 일괄적용, 시각화: DecoSentA를 활용. 외대에서 교육용으로 만든 소프트웨어인데 감성분석을 위한 웬만한 기능들을 GUI로 쉽게 할 수 있도록 넣어두었고, 수업에서도 이걸 활용하는 걸 전제로 가르쳤기에 최대한 활용함.
    3. 연어검색: AntConc을 단어사전 수동 구축시 다단어표현을 최대한 포함하기 위해 사용. 처음에는 파이썬 프로그램 짜서 엑셀 테이블로 나오게 할까 했는데, 어차피 수동으로 단어 찾는 과정에서 참조하기 위한 거라서 GUI로 보는 게 편했음.
    4. XML 태깅: Unitex. 태그 적용을 위한 문법 그래프를 시각적으로 그릴 수 있어서 유용했음.
  3. 목적 달성 여부: 나름 켄시특화 단어들(출혈, 노예 등등)도 많이 속성어로 잡고 грабить корованы(쓸데없는 기능이다/lit. 암소를 훔치다)라는 게임도메인특화 숙어표현이 하나 나오긴 했는데, 워낙 작은 코퍼스라 조금 주먹구구식 연구같은 느낌으로 마무리된 감은 있음.

 

음성학(+음운론)

요약: 소련 시절부터 현재까지 러시아 뉴스 아나운서 보이스를 추출해서 특정 음소에 대해 어떻게 발음하는지 시대별 변화를 praat로 분석. 즉, 과거 아나운서들의 '옛스러운' 발음이 음성학적으로 어떻게 나타나는가?를 보자는 것.

문제점:  우선 같은 음소를 일일히 찾아내기도 힘들고, 무엇보다 실험환경이 아니라서 엄밀한 통제가 불가해서 신뢰도가 낮음.

 

현재 수동으로 골라내는 건 때려치고 ORD(Один Речевой День)이라는 음성코퍼스를 만들어서 분석한 상트페테르부르크대학교 연구 등을 참조해서 음성 코퍼스를 분석하는 방향으로 알아보는 중...

반응형