본문 바로가기

전체 글57

fasttext with khaiii 학습 리포트 (작성중) 시작 일단 해 보기 fasttext로 word2vec를 만들어보면 한글은 그저 공백을 단위로 토크나이징 하고 있다는 걸 알 수 있습니다. 형태소 단위로 분리하지 않고 그대로 학습 할 경우 아래와 같은 결과가 나옵니다. '세일'의 Nearest Neighbor를 찾은 것입니다. 세일 세일에 세일로 세일할 세일가 사람은 단어를 읽으면 의미를 파악하지만 머신은 '세일에'와 '세일로'를 데이터 관점에서 보기 때문에 두 단어는 분명히 다른 단어입니다. 세일과 비슷한 단어로 '세일에', '세일로'... 등이 나오는 결과는 그다지 바람직하지 못합니다. 아래는 형태소 분석기로 토크나이징 한 뒤 '세일'의 Nearest Neighbor를 찾은 결과입니다. 세일 할인 세일좀 행사 세일때 '세일좀', '세일때'와 같이 토크.. 2019.04.12
ICU tokenizer fasttext는 한국어에 대해 ICU 토크나이저를 사용 하고 있다고 합니다. We used the Stanfordword segmenter (Chang et al., 2008) for Chinese, Mecab (Kudo, 2005) for Japanese and UETsegmenter (Nguyen and Le, 2016) for Vietnamese. For languages written using the Latin, Cyrillic, Hebrew or Greek scripts, we used the tokenizer from the Europarl preprocessing tools (Koehn, 2005). For the remaining languages, we used the ICU toke.. 2019.04.03
Hart 디자인 이야기 - 수치 시각화 (작성중) Hart를 만들 때 긍정과 부정의 수치를 어떻게 시각화하면 좋을까 고민하다가 처음 별표 표현 방식을 버리고 슬라이더로 바꾸게 되었습니다. 이것을 주제로 글을 쓴다는 것 자체가 조금 부끄러운 일 같습니다. 그러나 프로그래머로서 시각 디자인에 관해 나름대로 깨달은 하나의 발견을 한 번 살펴보도록 합시다. Ratings 처음의 디자인은 별표를 사용해 표현하도록 했습니다. 우리가 매우 흔하게 접해온 UI 입니다. 특히 영화 평점이나 음식점 리뷰에서 많이 찾아 볼 수 있는 디자인입니다. 이 방식으로 감성의 '긍정'과 '부정'을 표현하도록 하면 부정적인 감정은 표가 적게, 긍정적인 감정에 대해선 별표가 많이 나오게 됩니다. 지극히 당연한 방식의 UI입니다. 실제로 Hart는 각종 네이버와 왓챠의 영화 평점 데이터를.. 2019.01.14
키워드 추출 REST API 'Keywi' 공개 대충 뉴스 기사 본문 긁어서 넣으면 키워드 추출 해 줌. 대부분 단일 명사만 추출되지만 Keywi는 복합명사로 제공.ㅇㅇ. https://keywi-demo.herokuapp.com/ 2019.01.07