Word2vec

기계 학습과 데이터 마이닝

패러다임 지도 학습 비지도 학습 온라인 기계 학습 메타-학습 준지도 학습 자기 지도 학습 강화 학습 규칙 기반 기계 학습 양자 기계 학습
문제 분류 클러스터 분석 회귀 분석 클러스터 분석 이상 탐지 데이터 정제 연관 규칙 구조 기반 예측 특징 공학 특징 학습 순위 학습 문법 유도 온톨로지 학습 멀티모달 학습
지도 학습 (통계적 분류 • 회귀 분석) 결정 트리 학습법 앙상블 학습법 (배깅, Boosting, 랜덤 포레스트) 최근접 이웃 탐색 k-NN 선형 회귀 나이브 베이즈 인공신경망 로지스틱 회귀 퍼셉트론 상관 벡터 머신(RVM) 서포트 벡터 머신(SVM)
클러스터 분석 BIRCH 계층적 군집화 k-평균 알고리즘 기댓값 최대화 알고리즘 DBSCAN OPTICS Mean-shift
차원 축소 인자 분석 CCA 독립 성분 분석 LDA 음수 미포함 행렬 분해 주성분 분석 t-SNE
구조화 예측 그래프 모형 베이즈 네트워크 조건부 무작위장 은닉 마르코프 모형 잠재 디리클레 할당
이상 탐지 k-최근접 이웃 알고리즘 국소 특이점 요인
인공 신경망 오토인코더 인지 컴퓨팅 딥 러닝 딥드림 생성적 적대 신경망 확산 모델 다층 퍼셉트론 순환 신경망 LSTM GRU 제한된 볼츠만 머신 변환기 비전 자기조직화지도 합성곱 신경망
강화 학습 Q 러닝 SARSA 시간차 학습
인간 참여학습 러닝 커브 크라우드소싱 인간 참여형
모델 진단 러닝 커브
이론 편향-분산 트레이드오프 계산학습이론 경험적 위험 최소화 PAC 러닝 통계적 학습이론 VC 이론
회의/저널 NeurIPS ICML ICLR ML JMLR
관련 문서 기계 학습 알고리즘 목록 기계 탈학습 지식 증류 유사도 학습 대조 학습
v t e

Word2vec은 단어 벡터 표현들을 가져오기 위한 자연어 처리(NLP) 기술이다. 이러한 벡터는 단어의 의미와 문맥에서의 사용법에 대한 정보를 포착한다. word2vec 알고리즘은 대규모 말뭉치의 텍스트를 모델링하여 이러한 표현을 추정한다. 학습된 모델은 동의어를 감지하거나 부분 문장에 대해 추가 단어를 제안할 수 있다. 이름에서 알 수 있듯이 word2vec은 벡터라고 불리는 특정 숫자 목록을 사용하여 각 개별 단어를 나타낸다. 벡터는 단어의 의미적, 구문적 특성을 포착할 수 있도록 신중하게 선택된다. 따라서 간단한 수학 함수(코사인 유사도)는 해당 벡터로 표현되는 단어 간의 의미 유사성 수준을 나타낼 수 있다.

같이 보기

외부 링크

Wikipedia2Vec[1] (introduction)

구현체

C
C#
Python (Spark)
Python (TensorFlow)
Python (Gensim)
Java/Scala
R

자연어 처리

일반

텍스트 분석

연어 추출
Concept mining
공통참조해결
Deep linguistic processing
Distant reading
정보 추출
개체명 인식
온톨로지 학습
구문 분석
품사 태깅
의미역 결정
의미 유사도
감성 분석
용어 추출
텍스트 마이닝
Textual entailment
Truecasing
단어 중의성 해소
Word-sense induction

Text segmentation	Compound-term processing 표제어 추출 낱말 분석 Text chunking 어간 추출 문장 분할 단어 분절

자동 요약

다중 문서 요약
문장 추출
텍스트 단순화

기계 번역

컴퓨터 보조
예시 기반 번역
규칙 기반 번역
통계적
전이학습 기반 번역
신경망

분포 의미론 모델

언어 자원,
데이터셋, 말뭉치

유형, 표준	말뭉치언어학 Lexical resource Linguistic Linked Open Data 기계 가독형 사전 병렬말뭉치 PropBank 시맨틱 네트워크 Simple Knowledge Organization System 음성 코퍼스 말뭉치 Thesaurus (information retrieval) Treebank 보편 의존
데이터	BabelNet Bank of English 디비피디아 FrameNet 구글 엔그램 뷰어 UBY 워드넷