Seq2Seq模型

Seq2seq（Sequence to sequence）模型，是将序列（Sequence）映射到序列的神經網絡機器學習模型。這個模型最初設計用於改進機器翻譯技術，可容許機器通過此模型發現及學習將一種語言的語句（詞語序列）映射到另一種語言的對應語句上。^[1]除此之外，Seq2Seq也能廣泛地應用到各種不同的技術上，如聊天機器人、Inbox by Gmail等，但需要有配對好的文本集才能訓練出對應的模型。^[2]

Seq2seq是用于自然语言处理的一系列机器学习方法。^[3]应用领域包括机器翻译，图像描述，对话模型和文本摘要。^[4]

历史

此算法最初由Google开发，并用于机器翻译.^[4]

在2019年， Facebook宣布其用于求解微分方程。相比 Mathematica，MATLAB 和 Maple等商业解决方案，该算法能够更快更精准的解决复杂方程。首先，方程被解析为树形结构来避免书写方式带来的偏差。之后应用一个LSTM神经网络，基于标准模式识别来处理方程树。^[5]

在2020年，谷歌发布了Meena，一个在341GB数据集上训练的26亿参数的seq2seq聊天机器人。谷歌称，该聊天机器人的模型容量比OpenAI的GPT-2多出1.7倍.^[6]

技术

Seq2seq将输入序列转换为输出序列。它通过利用循环神经网络（递归神经网络）或更常用的LSTM GRU（英语：Gated recurrent unit）网络来避免梯度消失问题。当前项的内容总来源于前一步的输出。Seq2seq主要由一个编码器和一个解码器组成。编码器将输入转换为一个隐藏状态向量，其中包含输入项的内容。解码器进行相反的过程，将向量转换成输出序列，并使用前一步的输出作为下一步的输入。^[4]

优化包括：^[4]

注意力机制：解码器的输入只有一个单独的向量，这个向量包含输入序列的全部信息。注意力机制允许解码器有选择的分块地使用输入序列的信息。
束搜索，而不是选择单一的输出(文字)作为输出、多极有可能选择是保留，结构化作为一个树（使用 Softmax 上设置的注意力的分数^[7]）。平均编码器国家加权关注的分布。
存入桶:变序列长度是可能的，因为填补0，这可以做到的输入和输出。然而，如果的序列长度为100和输入只有3项长、昂贵的空间被浪费。桶可以不同规模和指定的输入和输出的长度。

训练通常使用通常使用交叉熵损失函数。^[7]

参考

人工神经网络

参考文献

^ Li, Zuchao and Cai, Jiaxun and He, Shexia and Zhao, Hai, Seq2seq dependency parsing, Proceedings of the 27th International Conference on Computational Linguistics, 2018: 3203––3214
^ ^2.0 ^2.1 Overview - seq2seq. google.github.io. [2019-12-17]. （原始内容存档于2019-09-25）.
^ Sutskever, Ilya; Vinyals, Oriol; Le, Quoc Viet. Sequence to sequence learning with neural networks. 2014. arXiv:1409.3215  [cs.CL].
^ ^4.0 ^4.1 ^4.2 ^4.3 Wadhwa, Mani. seq2seq model in Machine Learning. GeeksforGeeks. 2018-12-05 [2019-12-17]. （原始内容存档于2019-12-17）（美国英语）.
^ Facebook has a neural network that can do advanced math. MIT Technology Review. December 17, 2019 [2019-12-17]. （原始内容存档于2019-12-27）（美国英语）.
^ Mehta, Ivan. Google claims its new chatbot Meena is the best in the world. The Next Web. 2020-01-29 [2020-02-03]. （原始内容存档于2020-01-30）（美国英语）.
^ ^7.0 ^7.1 Hewitt, John. Sequence 2 sequence Models (PDF). Stanford University. 2018. （原始内容存档 (PDF)于2019-12-17）.

外部链接

A ten-minute introduction to sequence-to-sequence learning in Keras. blog.keras.io. [2019-12-19]. （原始内容存档于2018-05-18）.
Dugar, Pranay. Attention — Seq2Seq Models. Medium. 2019-11-24 [2019-12-19]. （原始内容存档于2020-09-12）（英语）.
Nag, Dev. seq2seq: the clown car of deep learning. Medium. 2019-04-24 [2019-12-19]. （原始内容存档于2019-12-19）（英语）.
Adiwardana, Daniel; Luong, Minh-Thang; So, David R.; Hall, Jamie; Fiedel, Noah; Thoppilan, Romal; Yang, Zi; Kulshreshtha, Apoorv; Nemade, Gaurav; Lu, Yifeng; Le, Quoc V. (2020-01-31). "Towards a Human-like Open-Domain Chatbot". arXiv:2001.09977 [cs.CL].

查论编自然语言处理

一般术语	语料库口语语料库停用词词袋完全人工智慧（英语：AI-complete） n元语法（双字母组、三元语法（英语：Trigrams））

文本挖掘	文本分割词性标注（英语：Part-of-speech tagging）拆句处理（英语：Shallow parsing）复合词处理（英语：Compound term processing）搭配提取（英语：Collocation extraction）词干提取词形还原命名实体识别指代文本情感分析概念挖掘（英语：Concept mining）语法分析词义消歧术语提取（英语：Terminology extraction）真实大小写处理（英语：Truecasing）

自动摘要（英语：Automatic summarization）	多文档摘要（英语：Multi-document summarization）句子抽取（英语：Sentence extraction）文本简化（英语：Text simplification）

分散式語意模型	潜在语义学 Seq2Seq模型 Word2vec 語言模型大型语言模型基础模型 LLaMA ChatGPT GPT-4 文心一言

机器翻译	電腦輔助翻譯基于实例（英语：Example-based machine translation）基于规则（英语：Rule-based machine translation）

自动识别与数据采集	语音识别语音合成光学字符识别自然语言生成提示工程

主题模型	弹珠分布（英语：Pachinko allocation）隐含狄利克雷分布潜在语义索引

计算机辅助审查（英语：Computer-assisted reviewing）	自动作文评分（英语：Automated essay scoring）语料库检索工具（英语：Concordancer）文法检查器（英语：Grammar checker）预测文本（英语：Predictive text）拼寫檢查语法猜测（英语：Syntax guessing）

自然语言用户界面（英语：Natural language user interface）	自动在线助手聊天機器人文字冒险游戏問答系統

可微分计算

概论

可微分编程
自動微分
张量微积分（英语：Tensor calculus）
信息几何
统计流形
神经形态工程（英语：Neuromorphic engineering）
模式识别
运算学习理论（英语：Computational learning theory）
归纳偏置

概念

梯度下降
- SGD（英语：Stochastic gradient descent）
聚类
回归
- 过拟合
幻觉
对抗（英语：Adversarial machine learning）
注意力
卷积
損失函數
反向传播
激活函数
- softmax
- sigmoid
- ReLU
正则化
数据集
扩散（英语：Diffusion process）
自回归

应用

硬件

TPU
VPU
IPU（英语：Graphcore）
憶阻器
SpiNNaker（英语：SpiNNaker）

软件库

Theano
TensorFlow
- Keras
PyTorch
JAX
Flux.jl（英语：Flux (machine-learning framework)）

实现

视觉·语音	AlexNet WaveNet 人像合成手寫识别 OCR 语音合成语音识别人脸识别 AlphaFold DALL-E Midjourney Stable Diffusion Sora Whisper（英语：Whisper (speech recognition system)）

自然语言	Word2vec Seq2seq BERT LaMDA Bard NMT 辩手项目（英语：Project Debater）沃森 GPT GPT-1 GPT-2 GPT-3 GPT-4 GPT-J（英语：GPT-J） ChatGPT 文心一言 Chinchilla AI（英语：Chinchilla AI） PaLM（英语：PaLM） BLOOM（英语：BLOOM (language model)） LLaMA

决策	AlphaGo Q学习 SARSA OpenAI Five（英语：OpenAI Five）自动驾驶 MuZero 行动选择（英语：Action selection） Auto-GPT 机器人控制（英语：Robot control）