본문 바로가기

루모의 일상사16

FAQ :: polarity.csv와 어떻게 매칭하면 좋나요 감성 분석 관련 글을 올리고 난 뒤 댓글로 가장 많이 받는 질문 중 하나입니다. 이메일 주소를 남기고 코드를 보내달라고 요청하시는 분이 많아서 간단하게 작성 해 보았습니다. 방법은 그렇게 복잡하지 않기에 댓글에 일일이 답변을 달고 있지만 여전히 같은 질문을 많이들 주셔서.... {'Neg': '1', 'Neut': '0', 'Pos': '0'} 코드는 간단합니다. polarity.csv를 열고 dictionary에 mapping 한 것 뿐입니다. key는 단어(string)이고 value는 부정, 중립, 긍정을 가지고 있습니다. 마지막 라인에서 '화재'의 값을 찾아보면 Neg가 1이군요. 전적으로 부정적인 단어라는 것을 알 수 있습니다. 위 코드를 기반으로 아래와 같은 코드를 작성 해 볼 수 있겠습니다... 2019.05.10
ICU tokenizer fasttext는 한국어에 대해 ICU 토크나이저를 사용 하고 있다고 합니다. We used the Stanfordword segmenter (Chang et al., 2008) for Chinese, Mecab (Kudo, 2005) for Japanese and UETsegmenter (Nguyen and Le, 2016) for Vietnamese. For languages written using the Latin, Cyrillic, Hebrew or Greek scripts, we used the tokenizer from the Europarl preprocessing tools (Koehn, 2005). For the remaining languages, we used the ICU toke.. 2019.04.03
감성 분석 REST API 'Hart' 공개 감성분석 3부작 https://rumo.tistory.com/92 https://rumo.tistory.com/93https://rumo.tistory.com/94 감성분석을 주제로 3부작으로 글을 쓰려고 했었습니다. 3개 모두 완성된 글은 아니지만 많은 분들이 댓글이나 이메일로 궁금한 점을 질문하거나 자료 공유를 하였습니다. 비록 글은 완성하지 못했지만 먼저 감성 분석을 위한 API를 공개합니다. Hart는 Facebook의 fasttext로 만들어졌습니다. Hart는 왓챠 영화 평가와 네이버 영화 평점 데이터 약 100만 개를 skipgram으로 학습했습니다. 모델은 천천히 공유 하도록 하겠습니다. 아래에서 Hart를 사용해 보세요. 당연하지만 아직 성능이 그렇게 좋지는 않습니다. 지극히 평가적인 문.. 2019.01.03
어벤저스 인피니티 워 자막 오역에 대한 생각 (작성중) 어벤저스 인피니티 워 자막 오역에 대한 생각 자막 오역에 대한 말이 많습니다. 저도 과거에 개인적으로 영국드라마 자막을 여러번 만들곤 했습니다. 과거에는 공공연히 이런 자막을 만드는 행위를 했지만 요즈음에는 엄연한 불법이므로 이제와서 당당하게 말할 일은 아닌 것 같습니다. ㅋ.ㅋ. 아무튼 이야기 시작합니다. 통역, 번역이라는 것이 결코 완벽할 수는 없는 노릇입니다. 세상에 안 그런 일이 어딨겠냐만은... 아무리 완벽하게 전달하려고 애써도 영어와 한국어의 근본적인 차이는 극복 해 낼 수 없는 부분도 있습니다. 예를들어 볼까요. "Life is just"영화 브루스 올 마이티 中 브루스 올 마이티라는 영화에서 한 노숙자가 Life if just라고 적힌 종이를 들고 서 있는 장면이 있습니다. 어떻게 번역하면.. 2018.06.21