网站客户流失求推荐个网站
- 作者: 五速梦信息网
- 时间: 2026年03月21日 07:32
当前位置: 首页 > news >正文
网站客户流失,求推荐个网站,机关网络 网站 建设,麟游住房和城市建设局网站一、说明 自然语言处理已经进入大模型时代#xff0c;然而从业人员必须了解整个知识体系、发展过程、知识结构#xff0c;应用范围等一系列知识。本篇将报道此类概况。 二、自然语言处理简介 自然语言处理#xff0c;或简称NLP#xff0c;是处理和转换文本的计算机科学学科…一、说明 自然语言处理已经进入大模型时代然而从业人员必须了解整个知识体系、发展过程、知识结构应用范围等一系列知识。本篇将报道此类概况。 二、自然语言处理简介 自然语言处理或简称NLP是处理和转换文本的计算机科学学科。它由几个任务组成这些任务从标记化开始将文本分成单独的意义单位应用句法和语义分析来生成抽象的知识表示然后再次将该表示转换为文本用于翻译、问答或对话等目的。 本文简要介绍了自然语言处理。它首先简要介绍了科学学科的历史概述解释了所使用的不同时期和方法然后解释了各种NLP任务分为连贯的兴趣领域然后概述了当前的NLP程序。在接下来的几周里其他文章将研究 Python 库和 NLP 的具体项目。 2.1、自然语言处理的起源 来源自然语言处理、语言学、机器学习、人工智能 自然语言处理是一门计算机科学学科可追溯到1950年。它是几个科学领域的综合目标、范式和方法从中协同并具体化。这些领域是语言学、机器学习和人工智能。对这些领域的简要概述有助于理解NLP如何处理语言以及该学科如何在不同的亿万年中发展在此期间其他学科的进步和见解被合并。 语言学是对语言及其不同方面的经典研究如句法、语义、形态学和音韵学。它试图创建一个通用的框架语言是如何被创造和工作的。特别是在理论语言学中引入和研究了不同类型的逻辑以反映信息是如何从表达中表示和推断的。 机器学习涉及设计处理结构化或非结构化数据的算法以识别模式并评估与这些模式相关的其他或更新数据。数据以数字表示或转换为数字表示然后应用不同的数学模型和算法。机器学习还具有几个目标聚类、检测单独的相关数据组、异常检测、查找不属于已知模式的数据或回归创建近似复杂输入以生成输出值的函数。 人工智能关注的是机器如何构建或表示智能的一般问题。这是一门跨越数学算法、计算机程序、数据结构、电子学和机器人技术的学科。它制定了以下研究领域这些领域本身代表了一个单独的目标。在推理和问题解决中程序应该处理概念的符号表示并执行支持程序目标或议程的计算。通过知识表示程序需要能够表示有关其应用领域的知识例如使用本体连接概念并表达其关系的类似网络的数据结构。最后自动和自主数据处理需要学习和感知以提高知识和推理能力特别是通过处理来自文本、图片、视频和声音等许多不同领域的数据 如果把所有这些学科放在一起这幅图景就会演变。人工智能的牵强附会目标塑造了NLP研究的视野创建理解处理和推理语言的程序与人类交谈或形成有关文档的知识。机器学习为其处理数值数据的算法提供了数学基础。通过将文本表示为数字数据可以对文本进行分类、分类和比较。在某种程度上从文本的数字表示中事实和三段论可能会受到干扰。最后语言学塑造了语言基础结构的遗产将语言分为句法、语义等。这种分离极大地形成了早期的NLP方法因为程序被设计为通过创建句法模型将启发式应用于令牌使用最终转换为知识表示的语义表示来逐步处理文本。 2.2、自然语言处理的历史 来源自然语言处理 NLP在三个不同的时代发展符号统计和神经。通过遵循上述考虑很明显每个时代的目标和方法都反映了继承人相邻学科的知识体系。 第一个时代被称为符号NLP。语言是通过其语法和语义来考虑的。语言表达是单词的有序序列其中单词代表一个概念其中细粒度的内部结构和单词关系塑造了整体含义。将一个句子简化为不同的词将词简化为它们的引理即它们的屈折词源表达了表达的内容。然而只有考虑其句法和语法单词的高阶关系才会显现出来句子的真正含义才得以实现。这个时代的NLP系统关注创建复杂的规则这些规则以句法和语义形式处理和表示语言。直到今天这些基于规则的系统过去和现在都用于多个NLP任务。 第二个时代称为统计NLP。用于研究和工业的计算机越来越可用以及计算机可读取的数据量不断增加导致提出了处理语言的统计方法。通过使用这种先进的处理能力可以并行处理多个文本和文档然后应用先进的机器学习算法来检测语言模式。这个时代的典型机器学习模型是贝叶斯网络、隐马尔可夫模型和支持向量机它们仍然用于 NLP 任务。应用统计学可以带来一些关于语言本质的见解这些见解甚至反映在理论语言学中。这最终形成了与决策有关的专家系统和涉及符号信息的表示和推理的知识系统。 第三个时代被称为神经NLP因为它使用了庞大而复杂的神经网络。神经网络是由单个神经元组成的复杂结构也称为感知器。感知器的概念可以追溯到1950年当时它被用来对执行简单输入输出转换的函数进行建模。就像在第二个时代一样计算处理能力的提高特别是能够对大量数据执行数学功能的图形处理单元的提高导致了越来越复杂。神经网络被用于困难的机器学习任务因为它们显示出一个有前途的特征神经网络不是手动创建重要特征即算法工作的数据输入模式而是自己学习特征。他们接受训练的数据越多特征和结果就越强大。当应用于处理文本的数字表示时考虑了相同的效果。网络学习了语言的结构并很快在几个NLP任务中超越了既定的基准。如今基于神经网络的NLP正在成为NLP研究的主要形式。 三、自然语言处理的目标 3.1 自然语言处理任务 资料来源在实践中利用LLM的力量关于ChatGPT及其他的调查自然语言处理最新技术当前趋势和挑战3深度学习在自然语言处理中的用途调查维基百科自然语言处理 结合科学论文维基百科和Python中常见的NLP项目NLP任务列表令人惊讶。以下列表并不详尽它侧重于Python NLP库支持的任务并且分组与维基百科的分组不同。 需要将两个主要组分开核心NLP任务结构为经典语言学的片段主要操作在令牌和句子上以及使用计算机的高级NLP任务及其经典NLP任务的组合技能顶部操作并生成任意数量的文本。 3.2 核心 NLP 任务 文本处理 - 确定和分析句子的单个标记 标记化将句子分成单独的标记或称为块的标记组例如通过检查原始文本的标点符号或使用规则/启发式方法对相关单词进行分组。也称为分块和分词。词形还原通过应用规则和启发式方法识别引理这是一种单词核心形式词干分析通过使用语言词典将屈折词简化为其核心形式 句法分析 - 识别并表示句子的语法。 文本语法 解析确定句子的语法结构使用依赖解析考虑单词的关系或选区解析使用概率方法词性标记应用 pars 树并将句子中的标记标记为名词、动词、形容词、标点符号等。 文本语义 - 识别句子中单词的含义 命名实体识别 NER识别权利例如人员、城市或头衔词义消歧识别并解决给定上下文中单词的同义词、多义词、下义词和亢义词特征语义角色标签标识句子中名词的角色例如执行操作的代理、操作发生的主题或位置等。另请参阅语义角色 文档语义 - 识别段落和完整文本的含义 文本分类定义文本所属的不同类别例如用于垃圾邮件筛选。主题建模自动识别不同文档的主题。情绪分析计算文本对主题的正、中或负的极性毒性识别对文本的细微解释识别语言使用的负面方面。 3.3 高级 NLP 任务 文本生成 - 为预期主题创建有意义的文本 拼写更正更正句子中单个单词的拼写文本摘要将文档压缩为其关键思想可以进一步指定为通用或基于查询机器翻译将文本从一种自然语言翻译成另一种自然语言问答从给定的文本中确定与语言相关的相关部分抽取模型或生成一个新文本将包含的事实构建成新陈述生成模型。同样有区别的是他的问题是否封闭在一个领域还是开放领域因此也包括所有外部背景。 知识与干扰 - 从文本中提取事实并进行逻辑干扰以发现新事实。 开放性问题/推理在开放环境中识别并解决问题。信息提取从给定的文本中识别与外部标准相关的信息然后以外部格式存储此信息 自然语言理解 - 定义整个语言的抽象表示 形态学单词如何变化以表示一组单词内的时间、性别或单词间关系的规则集语法如何形成连贯的结构化和有意义的单词组来传达含义的规则集语义单词的固有含义它们所代表的概念。语言建模确定在一组单词、句子甚至段落组中给定前一个单词的下一个单词的概率 四、自然语言处理编程管道 典型的NLP项目遵循相同的预处理和转换步骤使文本适用于算法。这些步骤是预处理、统计/语义信息收集、数值表示转换和目标任务应用。 在预处理期间文本被分成有意义的单元。通常这些单元也会进一步减少以减少下游任务处理的信息量。 标记化将句子分隔为单个标记。词干分解删除标记的屈折结尾并根据规则集提供基本词。词形还原删除标记的屈折结尾并根据字典提供基本单词。分块识别构成语义单元的相关单词组例如识别一个人的名字、中间名和姓氏而不是三个单独的名词。 要应用任何 NLP 算法、机器学习模型或将文本输入神经网络需要将文本转换为数字表示。通常这种表示不仅考虑单个文本还考虑一组作为语料库创造的相关文本。对于文本语料库可以使用以下技术来生成数字表示 词袋由每个单词的单词/出现次数对组成的数据结构。One-Hot Encoding二进制标识每个单词的单词是否存在于文档中。TFID一种指标它将文本中单词的绝对出现率与整个校园中单词的反频率相结合平衡非常频繁和很少使用的单词的出现。词嵌入表示单词相对含义的多维向量通过处理大量文本和分析相关单词的出现而产生。词嵌入是衡量单词相似性的非常有效的工具。这个想法可以升级为句子、段落甚至整个文档构建向量以查找语料库中不同级别的相似性。 从这里开始经典的NLP任务从语法和语义开始以及高级NLP任务都是可行的。 五、总结 自然语言处理是一门计算机科学学科共享语言学、机器学习和人工智能的传统、目标和方法。通过符号、统计和神经处理的三个时代创建了一个复杂的理解和广泛的 NLP 任务列表。今天执行句法和语义分析从显式的笼子规则系统转变为神经网络中学习的特征表示。由此文本翻译、问答、推理和最终文本生成等高级 NLP 任务变得可行。在本文中您了解了时代、NLP 任务和典型 NLP 项目的步骤。下一篇文章展示了用于各种NLP任务的具体Python库。
相关文章
-
网站可以做多少个关键词安装wordpress报404错误
网站可以做多少个关键词安装wordpress报404错误
- 技术栈
- 2026年03月21日
-
网站可以不进行icp备案吗做网站模块
网站可以不进行icp备案吗做网站模块
- 技术栈
- 2026年03月21日
-
网站开站淘宝客网站主题
网站开站淘宝客网站主题
- 技术栈
- 2026年03月21日
-
网站课程建设申报书旧电脑做网站服务器
网站课程建设申报书旧电脑做网站服务器
- 技术栈
- 2026年03月21日
-
网站空间 流量网站怎么做404页面
网站空间 流量网站怎么做404页面
- 技术栈
- 2026年03月21日
-
网站空间ip查询沧州网站制作多少钱
网站空间ip查询沧州网站制作多少钱
- 技术栈
- 2026年03月21日
