본문 바로가기
러시아/에세이,레포트

게임 리뷰에서 은어 찾아내기

by 누에고치 2025. 12. 2.
본 글은 2023년 "러시아어 게임 리뷰의 속성기반감성분석 및 도메인특화 다단어극성어휘 분석"이라는 제목으로 수업 과제 등으로 제출된 것을 블로그에 맞게 재단한 것으로, 어떠한 경우에도 출처를 남기지 않는 인용, 무단 전재 및 복제를 금합니다.

 

0. 저자의 말

한창 감성분석을 배울 때 레포트로 적었던 글입니다. 감성(Sentiment)분석이란 이 문장이 긍정적인지 부정적인지 (또는 중립적인지) 이진(삼진)적으로 골라내는 기법이고요, 조금 더 세분화된 것으로 '감정'(Emotion)분석이라고 해서 흔히 생각하는 감정들(기쁨, 슬픔, 분노 등)을 조금 더 세밀하게 골라내는 기법이 있습니다.

 

참고로 저자는 음성학의 길을 선택했기에 2년이 지난 지금(2025년 12월) 시점에서 감성분석과 같은 의미론, 화용론적인 분야에 대한 지식을 많이 잊어버리긴 했으나 그래도 궁금하신 점은 질문주시면 최대한 아는 범위 내에서 답변드리겠습니다.

 

 

1. 서론

스팀(Steam)은 “게임을 플레이하고, 게임에 대해 토론하고, 게임을 창작하는 최고의 공간”(Steam 2023)이라는 사이트 소개에서 알 수 있듯 제작자들이 올린 게임을 구매자들이 구매하고 플레이한 뒤 자유롭게 리뷰를 남길 수 있는 세계 최대의 ‘게임 쇼핑몰’ 플랫폼이다. 2023년 11월 월간 최대 접속자는 3,210만 명에 달하며, 이는 5년 전인 2018년 11월의 1,660만 명에 비해 약 2배 증가한 수치로 빠르게 성장하는 게임 시장을 보여준다. (SteamDB 2023)

 

리뷰 도메인으로서의 게임은 다른 분야와 비교했을 때 다소 도메인 특화적인(=자기들끼리만 쓰는 단어가 있는) 성격을 띈다.

  1. 냉소적이고 반어법적이다.
  2. 비속어나 욕설, 은어가 많다.
  3. 특정 게임을 즐기는 사람들만 공유해 다른 게이머들도 알 수 없는 폐쇄적인 어휘구성이 나타나기도 한다.

이는 젊은 남성층을 주류로 하는 이용자 그룹의 구성에 영향을 받는 것으로 추정된다. 러시아의 경우 여론조사기관 ВЦИОМ(2019)의 통계에 따르면 전체 게이머 가운데 18~24세의 비율이 40%, 25-34세가 25%를 차지했으며 포털사이트 Яндекс(2019)의 통계에 따르면 남성 비율이 68%에 달하는 등 주로 남성, 청년층에 의해 게임이 향유되는 것을 확인할 수 있다.

 

본 논문에서는 분석의 대상으로 ‘켄시’(Kenshi)의 러시아어 리뷰(총 9,405개)를 선정하였다. 이는 멸망 이후의 세계를 배경으로 한 오픈월드 샌드박스 게임이다.[각주:1] 사전 구축 등 일부 과정에서는 ‘월드 오브 탱크’의 리뷰(23,723개)를 함께 활용하였으나, 결과에는 포함시키지 않았다.[각주:2] 약 1만개의 리뷰에 대해 속성기반감성분석(AbSA)를 실시하고, 그 과정에서 어떠한 도메인특화 다단어표현(MWE) 극성어휘가 나타나는지 알아볼 것이다.

 

2. 선행연구

가장 현대적인 복합예술작품인 게임 리뷰에 대한 감성분석은 여러 차례 시도되었다.

  1. 자체적인 알고리즘을 통한 분석 (Bais, Odek and Ou 2017)부터 시작하여, LSTM 기반 신경망 분석 (박정윤, 배병철 2022)을 통해 유저가 등록한 극성과 얼마나 일치하는지 실험한 사례도 있었다.
  2. 속성기반감성분석(AbSA)의 사례를 살펴보자면, 먼저 2020년 인디 장르 상위 10개 게임 리뷰에 대해 분석한 사례 (Urriza and Clarino 2021)가 있었다. 해당 실험에서는 총 3개 속성(오디오, 그래픽, 게임성)으로 단일화하여 극성을 평가하였다.
  3. 다음으로, Yu, et al.(2023)의 경우 장르별 주요 온라인 게임 4개를 선정하여 자체 알고리즘에 의해 속성을 추출하고, 4개 게임이 공통으로  가진 속성에 초점을 두는 방식을 사용하고 있다.

한편, 모든 게임은 저마다의 시스템을 가지고 있다. 이는 각 게임이 가진 속성이 엄밀히는 모두 달라야 함을 뜻한다. 따라서, 본 논문에서는 위에서 살펴본 선행연구들과는 다르게 단일 게임(=켄시)에 대한 리뷰만을 대상으로 도메인특화적인 속성과 극성어휘들을 살펴보기로 한다.

 

3. 연구과정 및 결과

3-1. 데이터 수집

기구축된 러시아어 스팀 리뷰 데이터셋을 구하기 어렵고, 특정 게임을 선택하여 데이터를 수집하고 싶었기 때문에 직접 크롤링하여 데이터를 수집하였다. 파이썬 모듈인 steam-game-scrap[각주:3]를 이용하여 크롤링하였다.

 

‘켄시’의 경우 러시아어로 등록된 리뷰는 총 9,405개 얻을 수 있었다. Unitex를 통해 확인된 총 토큰(띄어쓰기로 구분되는 단어)의 수는 981,106개로, 문장당 평균 토큰은 약 104개였다.[각주:4]

 

다음으로, 러시아어에서는 영어와는 다르게 단어 자체의 형태가 변화하기 때문에 원형화(lemmatizing) 과정을 거쳐야 했다. (예를 들어 창문'окно'은 окна, окон, окну 등으로 변하므로 원형화하지 않으면 다 다른 단어로 잡히게 된다) 이를 위해 파이썬의 Spacy[각주:5] 모듈을 활용하였다.

 

본 연구에서는 여러 개의 게임 데이터를 추출해 최대 5~10만개의 리뷰를 비교하려고 했으나, Multi-threadding 등의 효율화 과정을 거쳤음에도 불구하고 크롤링 및 원형화 과정이 매우 오래 걸림에 따라 ‘켄시’ 단일 게임의 리뷰 데이터만을 활용하기로 하였다. 단, 사전 구축 과정에서는 ‘월드 오브 탱크’의 리뷰(23,723개)를 병합하여 함께 활용하였다.

 

3-2. 사전구성

OTW 사전구성을 위한 과정에서 원형화된 원문에서의 단어출현빈도(term frequency) 파악에는 DecoSentA를 이용하였다. 추출된 단어출현빈도를 바탕으로 속성어, 긍/부정 극성어를 육안으로 분석하는 전통적인 방식을 채택하였으며, 출현빈도 100회 이상의 단어를 분석 대상으로 하였다. 대상어(entity word)의 경우 모든 리뷰가 단일한 대상인 ‘켄시’를 다루고 있기에 별도로 분석하지 않았다.

 

Urriza and Clarino(2021)의 연구에서는 속성을 오디오, 게임플레이, 그래픽 3개 요소로 단일화하였으나, 본 연구에서의 속성과 일치하지 않고 판단기준이 자의적임에 따라 Yu, et al.(2023)의 연구에서 4대 주요 게임의 공통 지표로 언급하고 있는 “그래픽, 캐릭터, 맵, 최적화, 업데이트, 게임플레이” 6개 지표를 중심으로 하고자 하였다.[각주:6] 그러나 이중 ‘업데이트’의 경우 ‘켄시’가 대규모 업데이트가 드문 게임임에 따라 거의 나타나지 않아, 차순위 속성인 ‘가격’으로 대체하였다.

 

단일한 단어로 출현하지 않는 다단어표현(MWE) 속성어 및 극성어의 경우 AntConc를 사용하여 연어(collocation) 관계를 찾아봄으로서 확인하였다. 대부분의 의미있는 다단어 표현은 3-gram으로 나타났다. 일부 예시는 다음과 같다.

 

 

특기할만한 표현은 표 가장 마지막 항목인 можно грабить корованы, '암소를 훔칠 수 있다'는 표현이다. 해당 표현은 грабить(훔치다)에 대한 연어를 조사하는 과정에서 드러났다. 연구 초기에는 게임 내 일부 기능을 설명하는 어구로 취급하였으나, 재검토 과정에서 출현빈도가 꽤 높아 재차 주목되었다.

 

해당 어구는 러시아 게이머 사이에서 '쓸모없는 기능'을 뜻하는 은어로 사용된다. 여러 인터넷 사전(Викисловарь 2022; Викиреальность 2022)에 의하면 이는 게임 개발사 Best Way의 포럼에 키릴(Кирилл)이라는 사용자가 남긴 포스트에서 유래하였다. 특정한 게임을 개발해달라는 내용이었는데, 맞춤법이 틀리고 아동적인 문체로 소위 '잼민이'같은 느낌을 주는 바람에 게이머들 사이에서 조롱의 대상이 되었다. 해당 유저가 일반적인 기능이 아니라 '암소를 훔치는 기능'을 넣어 개발해달라고 한 것이 유행어가 되어, 이후 '쓸모없는 기능'을 게임에 넣는 것으로 게임 분야의 도메인특화 은어로 굳어졌다.

 

이외에도 게임 자체의 시스템 등에서 기인한 '노예', '출혈', '적' 등의 특화된 어휘 역시 속성어로 분류하여 각각의 맞는 카테고리에 넣어주었다.

 

3-3. XML 태깅 & 시각화

 

 

우선, 본격적인 태깅을 시작하기에 앞서 여러 표현으로 나뉘어진 속성을 단일화시키기 위해 DecoSentA의 PGT Table 기능을 본래 용도가 아닌 후처리 용도로 사용하였다. 상술한 6개 속성에 해당하는 값을 영어 속성값으로 변환하도록 테이블을 구성하였다.[각주:7]

 

 

속성값 변환이 완료된 후, OTW 사전을 XML 형식으로 태깅하는 데에는 Unitex를 사용하였다. 한국어의 ‘매우’와 ‘너무’에 각각 해당하는 ‘ochen’과 ‘slishkom’을 intensifier로 보아 부정어와 긍정어 앞에 붙는 경우 각각 강한부정/강한긍정으로 설정하였고, intensifier 앞에 ‘ne’가 붙은 경우 ‘너무 나쁘지는 않다’와 같이 약한 부정을 띈다고 생각해 부정어와 긍정어 앞에 ‘ne ochen/ne slishkom’이 붙은 경우 각각 약한긍정/약한부정으로 설정하였다. 이외에, ‘그럭저럭하다’를 의미한 normalnyj의 경우 그 자체를 약한긍정으로 설정하였다. 해당 관계는 Sub-graph를 사용하여 아래 도표와 같이 설정하였다.

 

최종적으로 시각화(visualize)하는 데에는 DecoSentA의 기능을 활용하였다. 러시아어의 기본적인 문장구조상 수식하는 형용사가 명사보다 앞에 위치하므로 leftmost로 설정하였으며, 대상이 ‘켄시’라는 단일 게임이기 때문에 모든 문장에 대하여 대상 ‘kenshi’를 강제 적용하였다.

 

그 결과 대부분의 속성에 대하여 긍정 표현이 더 큰 비율로 나타났고 특히 호평받는 부분인 ‘맵’에 바인딩된 긍정 극성어휘의 비율이 상당히 높게 나타난 반면, 최적화에 대해서는 부정표현이 앞서는 경향을 보였다. 이는 해당 게임이 1인 개발로 시작하였고, 개발사 Lo-fi games가 스스로 “small, independent games studio” (Lo-fi Games 2023)라고 소개하듯 소규모 개발팀을 유지하면서 구형 게임엔진을 개량하는 방식으로 개발되어왔기에 대규모 개발사가 제공하는 게임에 비해 컴퓨팅 자원을 낭비할 수밖에 없는 한계를 가진 점이 리뷰 분석에 드러난 것으로 보인다.

 

4. 결론

지금까지 샌드박스 RPG 게임 ‘켄시’의 러시아어 리뷰를 대상으로 AbSA를 실시해보았다. 본 연구의 의의는 첫째, 방법론적인 측면에 있다. 기존에 수집된 코퍼스를 이용하는 것이 아니라 게임 플랫폼 ‘스팀’에서 특정 게임의 러시아어 리뷰만을 직접 크롤링하고 추출하였으며, 이를 코드를 통해 원형화하였다. 이외에도 DecoSentA에서 제공하지 않는 러시아어 텍스트를 태깅하기 위하여 UniTex를 이용하거나 연어 분석을 위해 AntConc를 사용하는 등 수업에서 제시되지 않았던 다양한 도구를 사용하는 것이 큰 모험이자 시도였는데, 결과적으로 모든 도구가 정상적으로 작동했다는 점에서 방법론적인 의의를 찾을 수 있다.

 

둘째로, 당초 목표로 했던 도메인특화 어휘를 성공적으로 찾아낼 수 있었다. 어휘빈도 를 바탕으로 한 단일단어 추출에서, 특히 속성어휘의 경우 ‘노예, 출혈’(게임성), ‘적’(캐릭터) 등 타 분야에서는 쓰지 않거나 오히려 부정 극성어휘에 가까운 표현이 속성어휘로 나타나는 것을 확인할 수 있었다. 특히 다단어표현을 살펴보는 과정에서 “암소를 훔칠 수 있다”가 게임 분야에 특정하여 “쓸모없는 기능이다”라는 은어로 쓰이는 등 도메인특화 어휘를 확인할 수 있었다.

 

마지막으로, 결과의 유효성이다. 대상 게임인 켄시는 광대하고 풍부한 맵을 바탕으로 한 오픈월드게임으로 게임 속 세계의 볼륨은 환호받는 반면, 성능에 비해 시스템 자원을 많이 잡아먹는 부족한 최적화로 비판받았다. XML 태그를 바탕으로 속성별 감성 비율을 확인해보니. 다른 속성에 비해 ‘맵’ 속성은 긍정 비율이, ‘최적화’ 속성은 부정 비율이 높게 드러나는 등 충분히 유효한 결과가 도출되었다.

 

본 연구의 한계는 무엇보다 기술적인 부분에 있다고 할 수 있다. 먼저 당초에 목표로 하였던 5~10만개정도의 많은 데이터를 활용하지 못한 점을 한계로 둘 수 있다. 1만 개도 되지 않는 리뷰 데이터에서 도출되는 결과는 아무리 연구자가 감시한다고 할지라도 편협한 결과가 도출될 가능성이 높다. 다음으로, 리뷰 본문 외의 다른 데이터를 사용하지 못한 점이다. 일부 선행연구에서도 보조지표로 사용하고 있는 유용성 지수(‘이 리뷰가 유용하다’고 판단한 다른 유저들의 추천 개수), 리뷰 작성자의 플레이 시간, 리뷰 작성 시기 등 다양한 부가정보를 함께 수집할 수 있었음에도 전혀 사용하지 않았던 것은 기술적 한계로 인한 것이다. 더 많은 코퍼스를 활용하고, 본문 외 부가적인 지표들을 활용하여 더욱 정확한 감성분석을 실시하는 것은 미래의 과제로 남겨둔다.

 

참고 문헌

Anketolog. "Most played video games in Russia 2022, by gender." Statista. August 26, 2022. https://www.statista.com/statistics/1040819/poll-favorite-video-games-of-russians/ (accessed December 17, 2023).

Bais, Rohan, Pasal Odek, and Seyla Ou. "Sentiment Classification on Steam Reviews." Stanford University, 2017.

Lin, Dayi, Cor‐Paul Bezemer, Ying Zou, and Ahmed E. Hassan. "An Empirical Study of Game Reviews on the Steam Platform." Empirical Software Engineering 24, no. 1 (June 2018): 170-207.

Lo-fi Games. "About Kenshi." Kenshi. March 3, 2023. https://lofigames.com/about-kenshi/ (accessed December 20, 2023).

—. "About Us." Kenshi. March 13, 2023. https://lofigames.com/about/about-us/ (accessed December 21, 2023).

Steam. “정보.” “Steam.” 2023. https://store.steampowered.com/about/ (액세스: 2023년 12월 17일).

SteamDB. "Steam charts." SteamDB. September 23, 2023. https://steamdb.info/app/753/charts/ (accessed December 20, 2023).

Urriza, Ian Michael, and Maria Art Antonette Clarino. "ASPECT-BASED SENTIMENT ANALYSIS OF USER CREATED GAME REVIEWS." 2021 24th Conference of the Oriental COCOSDA International Committee for the Co-ordination and Standardisation of Speech Databases and Assessment Techniques (O-COCOSDA). IEEE, 2021. 76-81.

Yu, Yang, Bahung Nguyen, Fangyu Yu, Vannam Huynh, and Duytai Dinh. "Mining Insights from Esports Game Reviews with an Aspect-Based Sentiment Analysis Framework." Access. IEEE, 2023. 61161-72.

Викиреальность. “Грабить корованы.” “Викиреальность.” 2022년 6월 3일. https://wikireality.ru/wiki/Грабить_корованы (액세스: 2023년 12월 21일).

Викисловарь. “грабить корованы.” “Викисловарь.” 2022년 4월 7일. https://ru.wiktionary.org/wiki/грабить_корованы (액세스: 2023년 12월 21일).

ВЦИОМ. «Видеоигры – и кто в них играет?» 19 8 2019 г. https://wciom.ru/analytical-reviews/analiticheskii-obzor/videoigry-i-kto-v-nikh-igraet (дата обращения: 15 12 2023 г.).Яндекс. «Обзор Рынка Игровой Индустрии.» 29 9 2019 г. https://yandex.ru/adv/solutions/analytics/2019-research-game (дата обращения: 15 12 2023 г.).

박정윤, 배병철. “한국어 게임 리뷰 감성 분석 연구.” “한국정보과학회 학술발표논문집.” 2022. 2093-2095.

 

파이썬 모듈 정보

SPACY. “Russian · SPACY Models Documentation.” Accessed December 16, 2023.

https://spacy.io/models/ru#ru_core_news_sm.

PyPI. “Steam-Review-Scraper,” May 26, 2021. https://pypi.org/project/steam-review-scraper/.

  1. 제작사 측에서는 다음과 같이 소개하고 있다. “Kenshi is a single player sandbox PC game set in a vast and atmospheric 'Sword-Punk' style open world.” (Lo-fi Games 2023) [본문으로]
  2. 무료 게임이기 때문에 접근성이 높고, 리뷰 개수가 적절하여 단일 대상으로 한정하더라도 충분한 결과를 도출할 수 있으며, 러시아 남성 게이머의 14%가 이 게임을 플레이할만큼 대중적이라는 통계 (Anketolog 2022)가 있는 등의 이유로 인해 원래 해당 게임 리뷰를 대상으로 하려고 하였으나, 리뷰 개개의 길이가 짧고 전체가 특수문자로 구성되는 스팸성 리뷰가 많은 등 대상으로서 적절치 않아 부득이하게 제안서 제출 시의 대상인 ‘켄시’로 재차 교체하였다. [본문으로]
  3. 웹 크롤링 모듈인 Beautifulsoup를 기반으로 하는 파이썬 모듈로, 크롤링  시 언어를 선택하여 크롤링할 수 있다. 단, 실제 텍스트는 영어더라도 사용자가 러시아어로 설정한 경우에는 함께 추출된다. 본 연구에서는 원 모듈을 그대로 사용할 시 오류가 생기는 관계로 코드를 소폭 수정하여 사용하였다. 자세한 정보는 PyPI, “Steam-Review-Scraper,” May 26, 2021. https://pypi.org/project/steam-review-scraper/ 참조. [본문으로]
  4. 문장당 평균토큰이 42개인 ‘월드 오브 탱크’에 비해 ‘켄시’의 리뷰는 비교적 상세하게 작성되었음을 확인할 수 있다. [본문으로]
  5. 파이썬 모듈인 Spacy의 러시아어 모델 중 Small에 해당하는 ru_core_news_sm를 데이터셋으로 활용하였다. 해당 데이터셋에 대한 자세한 정보는 SPACY. “Russian · SPACY Models Documentation.” https://spacy.io/models/ru#ru_core_news_sm. 참조. [본문으로]
  6. “‘‘graphics’’, ‘‘character’’, ‘‘map’’, ‘‘optimization’’, ‘‘update’’, and ‘‘gameplay.” [본문으로]
  7.  to값을 한국어로 넣지 않은 이유는 Unitex에서 언어를 러시아어로 설정 시 한글이 정상적으로 표출되지 않는다는 기술적인 이유 때문이다. [본문으로]
반응형