白云网站建设公司湖南营销网站建设

当前位置: 首页 > news >正文

白云网站建设公司,湖南营销网站建设,免费购物网站模板,设备上哪个网站做外贸推广人工智能自然语言处理#xff1a;N-gram和TF-IDF模型详解 1.N-gram 模型 N-Gram 是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为 N 的滑动窗口操作#xff0c;形成了长度是 N 的字节片段序列。 每一个字节片段称为 gram#xff0c;对所… 人工智能自然语言处理N-gram和TF-IDF模型详解 1.N-gram 模型 N-Gram 是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为 N 的滑动窗口操作形成了长度是 N 的字节片段序列。 每一个字节片段称为 gram对所有 gram 的出现频度进行统计并且按照事先设定好的阈值进行过滤形成关键 gram 列表也就是这个文本的向量特征空间列表中的每一种 gram 就是一个特征向量维度。 该模型基于这样一种假设第 N 个词的出现只与前面 N-1 个词相关而与其它任何词都不相关整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计 N 个词同时出现的次数得到。常用的是二元的 Bi-Gram 和三元的 Tri-Gram。 当 n1 时一个一元模型为 P ( w 1 ​ , w 2 ​ , ⋯ , w m ​ ) ∏ i 1 m ​ P ( w i ​ ) P(w1​,w2​,⋯,wm​)∏i1m​P(wi​) P(w1​,w2​,⋯,wm​)∏i1m​P(wi​) 当 n2 时一个二元模型为 P ( w 1 ​ , w 2 ​ , ⋯ , w m ​ ) ∏ i 1 m ​ P ( w i ​ ∣ w i − 1 ​ ) P(w1​,w2​,⋯,wm​)∏i1m​P(wi​∣wi−1​) P(w1​,w2​,⋯,wm​)∏i1m​P(wi​∣wi−1​) 当 n3 时一个三元模型为 P ( w 1 ​ , w 2 ​ , ⋯ , w m ​ ) ∏ i 1 m ​ P ( w i ​ ∣ w i − 2 ​ , w i − 1 ​ ) P(w1​,w2​,⋯,wm​)∏i1m​P(wi​∣wi−2​,wi−1​) P(w1​,w2​,⋯,wm​)∏i1m​P(wi​∣wi−2​,wi−1​) 一个 n-gram 是 n 个词的序列 一个 2-grambigram 或二元是两个词的序列例如 “I love” 一个 3-gramtrigram 或三元是三个词的序列例如 “I love you”。 需要注意的是通常 n-gram 即表示词序列也表示预测这个词序列概率的模型。假设给定一个词序列w1w2···wm根据概率的链式法则可得公式 (1.1) P ( w 1 ​ , w 2 ​ , ⋯ , w m ​ ) P ( w 1 ​ ) ∗ P ( w 2 ​ ∣ w 1 ​ ) ⋯ P ( w m ​ ∣ w 1 ​ , ⋯ , w m − 1 ​ ) ∏ i 1 m ​ P ( w i ​ ∣ w i − 2 ​ , w i − 1 ​ ) P(w1​,w2​,⋯,wm​)P(w1​)∗P(w2​∣w1​)⋯P(wm​∣w1​,⋯,wm−1​)∏i1m​P(wi​∣wi−2​,wi−1​) P(w1​,w2​,⋯,wm​)P(w1​)∗P(w2​∣w1​)⋯P(wm​∣w1​,⋯,wm−1​)∏i1m​P(wi​∣wi−2​,wi−1​) 公式1.1右边的 Pwi | w1w2···wi-1表示某个词 wi 在已知句子 w1w2···wi-1 后面一个词出现的概率 1.1 马尔科夫假设 在实践中如果文本的长度较长时公式1.1右边的 P w i ∣ w 1 w 2 ⋅ ⋅ ⋅ w i − 1 Pwi | w1w2···wi-1 Pwi∣w1w2⋅⋅⋅wi−1的估算会非常困难因此需要引入马尔科夫假设。 马尔科夫假设是指每个词出现的概率只跟它前面的少数几个词有关。比如二阶马尔科夫假设只考虑前面两个词相应的语言模型是三元trigram模型。应用了这个假设表明当前这个词仅仅跟前面几个有限的词有关因此也就不必追溯到最开始的那个词这样便可以大幅缩减上述算式的长度。 基于马尔科夫假设可得公式 (1.2): P ( w i ​ ∣ w 1 ​ , ⋯ , w i − 1 ​ ) ≈ P ( w i ​ ∣ w i − n 1 ​ , ⋯ , w i − 1 ​ ) P(wi​∣w1​,⋯,wi−1​)≈P(wi​∣wi−n1​,⋯,wi−1​) P(wi​∣w1​,⋯,wi−1​)≈P(wi​∣wi−n1​,⋯,wi−1​) 当 n 1 时称为一元模型unigram model公式1.2右边会演变成 P(wi)此时整个句子的概率为 P ( w 1 ​ , w 2 ​ , ⋯ , w m ​ ) P ( w 1 ​ ) ∗ P ( w 2 ​ ) ⋯ P ( w m ​ ) ∏ i 1 m ​ P ( w i ​ ) P(w1​,w2​,⋯,wm​)P(w1​)∗P(w2​)⋯P(wm​)∏i1m​P(wi​) P(w1​,w2​,⋯,wm​)P(w1​)∗P(w2​)⋯P(wm​)∏i1m​P(wi​) 当 n 2 时称为二元模型bigram model公式1.2右边会演变成 P(wi | wi-1)此时整个句子的概率为 P ( w 1 ​ , w 2 ​ , ⋯ , w m ​ ) P ( w 1 ​ ) ∗ P ( w 2 ​ ∣ w 1 ​ ) ⋯ P ( w m ​ ∣ w m − 1 ​ ) ∏ i 1 m ​ P ( w i ​ ∣ w i − 1 ​ ) P(w1​,w2​,⋯,wm​)P(w1​)∗P(w2​∣w1​)⋯P(wm​∣wm−1​)∏i1m​P(wi​∣wi−1​) P(w1​,w2​,⋯,wm​)P(w1​)∗P(w2​∣w1​)⋯P(wm​∣wm−1​)∏i1m​P(wi​∣wi−1​) 当 n 3 时称为三元模型trigram model公式1.2右边会演变成 P(wi| wi-2,wi-1)此时整个句子的概率为 P ( w 1 ​ , w 2 ​ , ⋯ , w m ​ ) P ( w 1 ​ ) ∗ P ( w 2 ​ ∣ w 1 ​ ) ⋯ P ( w m ​ ∣ w m − 2 ​ , ⋯ , w m − 1 ​ ) ∏ i 1 m ​ P ( w i ​ ∣ w i − 2 ​ , w i − 1 ​ ) P(w1​,w2​,⋯,wm​)P(w1​)∗P(w2​∣w1​)⋯P(wm​∣wm−2​,⋯,wm−1​)∏i1m​P(wi​∣wi−2​,wi−1​) P(w1​,w2​,⋯,wm​)P(w1​)∗P(w2​∣w1​)⋯P(wm​∣wm−2​,⋯,wm−1​)∏i1m​P(wi​∣wi−2​,wi−1​) 估计 n-gram 模型概率采用极大似然估计maximum likelihood estimationMLE。即通过从语料库中获取计数并将计数归一化到01从而得到 n-gram 模型参数的极大似然估计。即 其中 c o u n t W i − n 1 ⋅ ⋅ ⋅ W i countWi-n1···Wi countWi−n1⋅⋅⋅Wi表示文本序列 W i − n 1 ⋅ ⋅ ⋅ W i Wi-n1···Wi Wi−n1⋅⋅⋅Wi在语料库中出现的次数。 1.2 N-gram 模型优缺点 总结下基于统计的 n-gram 语言模型的优缺点 优点 采用极大似然估计参数易训练完全包含了前 n-1 个词的全部信息可解释性强直观易理解 缺点 缺乏长期依赖只能建模到前 n-1 个词随着 n 的增大参数空间呈指数增长数据稀疏难免会出现 OOV 词out of vocabulary的问题单纯的基于统计频次泛化能力差
2.TF-IDF TF-IDF(term frequency-inverse document frequency词频 - 逆向文件频率) 是一种用于信息检索 (information retrieval)) 与文本挖掘 (text mining) 的常用加权技术。它是一种统计方法用以评估一个字或词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加但同时会随着它在语料库中出现的频率成反比下降。 在信息检索 (Information Retrieval)、文本挖掘(Text Mining) 以及自然语言处理 (Natural Language Processing) 领域TF-IDF 算法都可以说是鼎鼎有名。虽然在这些领域中目前也出现了不少以深度学习为基础的新的文本表达和算分 (Weighting) 方法但是 TF-IDF 作为一个最基础的方法依然在很多应用中发挥着不可替代的作用。 TF-IDF 的主要思想是如果某个单词在一篇文章中出现的频率 TF 高并且在其他文章中很少出现则认为此词或者短语具有很好的类别区分能力适合用来分类。 TF全称 TermFrequency中文含义词频即关键词出现在网页当中的频次。 IDF全称 InverseDocumentFrequency中文含义逆文档频率即该关键词出现在所有文档里面的一种数据集合。 TF-IDF 的计算过程为 第一步计算词频。 词频TF 文章的总词数某个词在文章中的出现次数​ 或者 词频TF 该文出现次数最多的词出现的次数某个词在文章中的出现次数​ 第二步计算逆文档频率。 逆文档频率IDFlog(包含该词的文档数 1 语料库的文档总数​) 如果一个词越常见那么分母就越大逆文档频率就越小越接近 0。分母之所以要加 1是为了避免分母为 0即所有文档都不包含该词。log 表示对得到的值取对数。 第三步计算 TF-IDF。 TF−IDF 词频TF× 逆文档频率IDF
可以看到TF-IDF 与一个词在文档中的出现次数成正比与该词在整个语言中的出现次数成反比。所以自动提取关键词的算法就是计算出文档的每个词的 TF-IDF 值然后按降序排列取排在最前面的几个词。 2.1 TF-IDF 算法总结 TF-IDF 算法是一种常用的文本特征表示方法用于评估一个词对于一个文档集或语料库中某个文档的重要程度常用于以下领域 1搜索引擎 2关键词提取 3文本相似性 4文本摘要。 TF-IDF 算法优点 简单有效TF-IDF 算法简单易实现计算速度快并且在很多文本相关任务中表现良好。 考虑词频和文档频率TF-IDF 综合考虑了词频和文档频率两个因素可以准确表示词语在文档中的重要性。 强调关键词TF-IDF 算法倾向于给予在文档中频繁出现但在整个语料库中较少见的词更高的权重从而能够突出关键词。 适用性广泛TF-IDF 算法可以应用于各种文本相关任务如信息检索、文本分类、关键词提取等。 TF-IDF 算法缺点 无法捕捉语义信息TF-IDF 算法仅根据词频和文档频率进行计算无法捕捉到词语之间的语义关系因此在处理一些复杂的语义任务时可能效果有限。 忽略词序信息TF-IDF 算法将文本表示为词语的集合并忽略了词语之间的顺序信息因此无法捕捉到词语顺序对于文本含义的影响。 对文档长度敏感TF-IDF 算法受文档长度的影响较大较长的文档可能会有较高的词频从而影响到特征权重的计算结果。 词汇表限制TF-IDF 算法需要构建词汇表来对文本进行表示词汇表的大小会对算法的性能和计算开销产生影响同时也可能存在未登录词的问题。 主题混杂问题在包含多个主题的文档中TF-IDF 算法可能会给予一些频繁出现的词较高的权重导致提取的关键词并不完全与文档主题相关。
3.关键知识点总结 在N-gram模型中N表示表示每次取出的单词数量 在N-gram模型中当N取值越大模型的效果会不一定变得更好要合适 N-gram模型可以用于文本分类、语音识别和机器翻译等自然语言处理任务。 N-gram模型的主要优点是可以捕捉上下文信息但缺点是无法处理未知的单词。 在TF-IDF模型中IDF值越大代表该词对文本内容的区分度越高 在TF-IDF模型中词频TF指的是某个词在一篇文档中出现的次数。
本分类、语音识别和机器翻译等自然语言处理任务。 N-gram模型的主要优点是可以捕捉上下文信息但缺点是无法处理未知的单词。 在TF-IDF模型中IDF值越大代表该词对文本内容的区分度越高 在TF-IDF模型中词频TF指的是某个词在一篇文档中出现的次数。