Back_To_Home..

Nlp

ICLR2013,Word2Vec 词向量扛鼎之作

《Efficient Estimation of Word Representation in Vector Space》https://arxiv.org/abs/1301.3781

“Efficient Estimation of Word Representations in Vector Space”由Tomas Mikolov等人撰写。在自然语言处理领域,传统将单词视为原子单位的方法在一些任务中受限,词向量表示应运而生。本文旨在从大规模数据集中学习高质量词向量,提出两种新模型架构,并在词相似度任务中评估。结果显示新模型计算成本低、准确性高,在句法和语义相似度测试集上表现优异,为自然语言处理应用提供了有力支持。

  1. 研究背景
    • 传统方法局限:许多当前NLP系统将单词视为原子单位,在一些任务中达到瓶颈,如自动语音识别和机器翻译等领域,简单技术的提升效果有限。
    • 词向量的优势:随着机器学习技术发展,分布式词表示成为重要概念,神经网络语言模型优于N-gram模型,但现有词向量训练架构存在计算成本高的问题。
  2. 模型架构
    • 前馈神经网络语言模型(NNLM):由输入、投影、隐藏和输出层组成,计算投影层和隐藏层之间较复杂,可通过分层softmax等方法降低复杂度,本文使用基于Huffman二叉树的分层softmax。
    • 循环神经网络语言模型(RNNLM):无投影层,通过循环矩阵连接隐藏层形成短期记忆,复杂度主要来自隐藏层自身的计算,也可使用分层softmax降低输出层复杂度。
    • 并行训练神经网络:在DistBelief框架上实现多个模型的并行训练,采用小批量异步梯度下降和Adagrad自适应学习率程序。
    • 新的对数线性模型
      • 连续词袋模型(CBOW):去除非线性隐藏层,共享投影层,将所有单词投影到同一位置,用上下文预测当前词,训练复杂度为$Q = N×D + D×log₂(V)$。
      • 连续跳字模型(Skip - gram):与CBOW类似,但基于当前词预测周围词,通过采样调整远距离词的权重,训练复杂度为$Q = C×(D + D×log₂(V))$。
  3. 实验结果
    • 任务描述:定义包含五种语义和九种句法问题的测试集,评估词向量质量,要求精确匹配答案。
    • 准确性最大化:使用Google News语料库训练,限制词汇量为100万最频繁词。发现增加向量维度和训练数据量可提高准确性,但存在收益递减,需同时增加两者。同时给出不同模型架构在不同条件下的准确性数据。
    • 模型架构比较:在相同数据和向量维度下比较不同模型,Skip - gram在语义部分表现最佳,CBOW在句法任务上优于NNLM,且训练速度更快。还与公开可用词向量比较,本文模型表现更好。此外,训练数据量加倍用1个epoch训练的效果与3个epoch相当或更好。
    • 大规模并行训练:在DistBelief框架上训练模型,给出不同模型在Google News 6B数据集上的训练结果,CBOW和Skip - gram模型在分布式框架下CPU使用率更接近。
    • 微软句子完成挑战:Skip - gram模型在此任务上虽单独表现不如LSA相似性,但与RNNLMs结合可达到新的最优结果58.9%准确率。
  4. 结论与后续工作
    • 研究表明简单模型架构可训练高质量词向量,计算成本低,能从大规模数据集中计算准确的高维词向量。这些词向量可应用于多种NLP任务,有望推动相关技术发展。
    • 后续发布了单机多线程C++代码和大量命名实体向量,相关工作将在后续论文中发表。

EMNLP2014,Glove:最出名的词向量训练方法之一

https://aclanthology.org/D14-1162.pdf

《GloVe: Global Vectors for Word Representation》

“GloVe: Global Vectors for Word Representation”由Jeffrey Pennington、Richard Socher和Christopher D. Manning撰写。在自然语言处理中,词向量表示至关重要。以往的全局矩阵分解和局部上下文窗口方法存在缺陷。本文提出GloVe模型,结合两者优势,通过对词共现矩阵非零元素训练,高效利用统计信息。实验表明,该模型在词类比、相似度和命名实体识别任务上表现出色,优于相关模型,为词向量学习提供了新方法。

研究背景

GloVe模型介绍

实验过程与结果

模型分析

研究结论

EMNLP2015,Char Embedding 第一篇介绍字符嵌入的论文

https://arxiv.org/abs/1301.3781

《Compositional character models for open vocabulary word representation》

“Efficient Estimation of Word Representations in Vector Space”由Tomas Mikolov等人撰写。随着自然语言处理发展,传统将单词视为原子单位的方法在一些任务中受限,词向量表示成为研究热点。本文旨在从大规模数据集中高效学习高质量词向量,提出两种新模型架构,并在词相似度任务中与已有方法对比。实验表明新模型计算成本低、准确性高,在句法和语义相似度测试集上表现出色,对自然语言处理应用具有重要意义。

研究背景

模型架构

实验结果

结论与后续工作

EMNLP2014,TextCNN 第一篇 CNN 用于文本分类的文章

《Convolutional Neural Network for Sentence Classification》

https://arxiv.org/abs/1408.5882

NIPS2015,CharTextCNN 第一篇字符级别文本分类模型

“Convolutional Neural Networks for Sentence Classification”由Yoon Kim撰写。在自然语言处理领域,句子分类是重要任务。传统方法有局限,深度学习中卷积神经网络(CNN)在图像和语音领域成果显著,但在NLP中的应用有待深入研究。本文利用预训练词向量训练CNN进行句子分类,实验表明简单CNN效果优异,微调词向量可提升性能,还提出多通道架构改进模型,为句子分类提供了新方法和思路。

EACL2017,FastText 细粒度的文本分类

《Bag of Tricks for Efficient Text Classification》

https://arxiv.org/abs/1607.01759

LSTM_NMT 使用 LSTM 解决机器翻译问题

“Bag of Tricks for Efficient Text Classification”由Armand Joulin等人撰写。在自然语言处理中,文本分类是重要任务,神经网络模型虽性能好但训练和测试慢,线性分类器有潜力但存在局限。本文提出fastText模型,通过一系列设计实现高效文本分类。实验表明,fastText在准确性上与深度学习分类器相当,训练和评估速度却快得多,为大规模文本分类提供了有效方法。

ICLR2015,Bahdanau_NMT 第一篇介绍 attention 的论文

《Neural Machine Translation by Jointly Learning to Align and Translate》

https://arxiv.org/abs/1409.0473

“Neural Machine Translation by Jointly Learning to Align and Translate”由Dzmitry Bahdanau等人撰写。传统的神经机器翻译采用编码器 - 解码器架构,将源句子编码为固定长度向量进行解码,但在处理长句子时存在瓶颈。本文提出一种新架构,通过让模型在生成每个目标词时自动搜索源句子的相关部分,实现了更好的翻译性能,尤其在长句子翻译上表现突出,在英法翻译任务中取得了与现有基于短语的系统相当的结果。

NAACL2016,Han_Attention attention 用于文本分类

《Hierarchical Attention Networks for Document》

https://aclanthology.org/N16-1174.pdf

“Hierarchical Attention Networks for Document Classification”由Zichao Yang等人撰写。在自然语言处理中,文本分类是基础任务,传统方法用稀疏词汇特征和线性模型或核方法,深度学习方法虽有成效但仍有改进空间。本文提出层次注意力网络(HAN),利用文档的层次结构和两级注意力机制构建文档表示。实验表明,该模型在六个大规模文本分类任务上显著优于先前方法,注意力层可视化显示其能有效选取重要信息,为文档分类提供了新的有效方法。

Coling2018,SGM 第一篇使用序列生成做多标签文本分类

《SGM: Sequence Generation Model for Multi-label Classification》

https://arxiv.org/abs/1806.04822

“SGM: Sequence Generation Model for Multi - Label Classification”由Pengcheng Yang等人撰写。多标签分类在自然语言处理中至关重要,但现有方法存在不足。本文提出将多标签分类视为序列生成问题,利用具有新颖解码器结构的序列生成模型解决该问题。实验表明,该方法显著优于已有方法,能有效捕捉标签间相关性并自动选择关键信息。

© 2025 ai-charlie   •  Powered by Soopr   •  Theme  Moonwalk