Word2vec

机器学习数据挖掘
范式
问题
  • 因素分析
  • CCA
  • ICA
  • LDA
  • NMF英语Non-negative matrix factorization
  • PCA
  • PGD英语Proper generalized decomposition
  • t-SNE英语t-distributed stochastic neighbor embedding
  • SDL
结构预测英语Structured prediction
  • RANSAC
  • k-NN
  • 局部异常因子英语Local outlier factor
  • 孤立森林英语Isolation forest
与人类学习
  • 主动学习英语Active learning (machine learning)
  • 众包
  • Human-in-the-loop英语Human-in-the-loop
模型诊断
  • 学习曲线英语Learning curve (machine learning)
数学基础
  • 内核机器英语Kernel machines
  • 偏差–方差困境英语Bias–variance tradeoff
  • 计算学习理论英语Computational learning theory
  • 经验风险最小化
  • 奥卡姆学习英语Occam learning
  • PAC学习英语Probably approximately correct learning
  • 统计学习
  • VC理论
大会与出版物
  • NeurIPS
  • ICML英语International Conference on Machine Learning
  • ICLR
  • ML英语Machine Learning (journal)
  • JMLR英语Journal of Machine Learning Research
相关条目
  • 人工智能术语英语Glossary of artificial intelligence
  • 机器学习研究数据集列表英语List of datasets for machine-learning research
  • 机器学习概要英语Outline of machine learning

Word2vec是一群用來產生詞向量的相關模型。這些模型為淺层雙層的神經網路,用來訓練以重新建構語言學之詞文本。網路以詞表現,並且需猜測相鄰位置的輸入詞,在word2vec中词袋模型假設下,詞的順序是不重要的。

訓練完成之後,word2vec模型可以把每個詞映射到一個向量,來表示詞与詞之間的關係。該向量為神經網路的隱藏層[1]

Word2vec依賴skip-grams或連續詞袋(CBOW)來建立神經詞嵌入。Word2vec為托馬斯·米科洛夫(Tomas Mikolov)在Google帶領的研究團隊創造。該演算法漸漸被其他人所分析和解釋[2][3]

Skip-grams和CBOW

CBOW把一個詞從詞窗剔除。在CBOW下給定n詞圍繞著詞w,word2vec預測一個句子中其中一個缺漏的詞c,即以機率 p ( c | w ) {\displaystyle p(c|w)} 來表示。相反地,Skip-gram給定詞窗中的文本,預測當前的詞 p ( w | c ) {\displaystyle p(w|c)}

延伸

Word2vec用來建構整份文件(而分獨立的詞)的延伸應用已被提出[4], 該延伸稱為paragraph2vec或doc2vec,並且用C、Python[5][6]和 Java/Scala[7]實做成工具(參考下方)。Java和Python也支援推斷文件嵌入於未觀測的文件。

分析

對word2vec框架為何做词嵌入如此成功知之甚少,約阿夫·哥德堡(Yoav Goldberg)和歐莫·列維(Omer Levy)指出word2vec的功能導致相似文本擁有相似的嵌入(用余弦相似性計算)並且和約翰·魯伯特·弗斯分佈假說英语Distributional semantics有關。

實作

參見

参考文献

  1. ^ Mikolov, Tomas; et al. Efficient Estimation of Word Representations in Vector Space (PDF). [2015-08-14]. (原始内容 (PDF)存档于2022-05-09). 
  2. ^ Goldberg, Yoav; Levy, Omar. word2vec Explained: Deriving Mikolov et al.’s Negative-Sampling Word-Embedding Method (PDF). [2015-08-14]. (原始内容 (PDF)存档于2022-01-22). 
  3. ^ Řehůřek, Radim. Word2vec and friends (Youtube video). [2015-08-14]. (原始内容存档于2020-05-22). 
  4. ^ Le, Quoc; et al. Distributed Representations of Sentences and Documents. (PDF). [2016-02-18]. (原始内容 (PDF)存档于2021-11-23). 
  5. ^ Doc2Vec tutorial using Gensim. [2015-08-02]. (原始内容存档于2021-01-23). 
  6. ^ Doc2vec for IMDB sentiment analysis. [2016-02-18]. (原始内容存档于2020-01-07). 
  7. ^ Doc2Vec and Paragraph Vectors for Classification. [2016-01-13]. (原始内容存档于2015-12-31). 
一般术语
文本挖掘
自动摘要英语Automatic summarization
  • 多文档摘要英语Multi-document summarization
  • 句子抽取英语Sentence extraction
  • 文本简化英语Text simplification
分散式語意模型
机器翻译
  • 電腦輔助翻譯
  • 基于实例英语Example-based machine translation
  • 基于规则英语Rule-based machine translation
自动识别
与数据采集
主题模型
计算机辅助
审查
英语Computer-assisted reviewing
  • 自动作文评分英语Automated essay scoring
  • 语料库检索工具英语Concordancer
  • 文法检查器英语Grammar checker
  • 预测文本英语Predictive text
  • 拼寫檢查
  • 语法猜测英语Syntax guessing
自然语言
用户界面
英语Natural language user interface
可微分计算
概论
概念
应用
硬件
  • TPU
  • VPU
  • IPU英语Graphcore
  • 憶阻器
  • SpiNNaker英语SpiNNaker
软件库
实现
视觉·语音
自然语言
决策
人物
组织
架构
  • 主题 主题
    • 计算机编程
    • 技术
  • 分类 分类
    • 人工神经网络
    • 机器学习