汕头seo网站优化如何建一个自己网站
- 作者: 五速梦信息网
- 时间: 2026年03月21日 09:25
当前位置: 首页 > news >正文
汕头seo网站优化,如何建一个自己网站,公司简历模板,网站制作公司怎么运营一、说明 文本预处理涉及许多将文本转换为干净格式的任务#xff0c;以供进一步处理或与机器学习模型一起使用。预处理文本所需的具体步骤取决于具体数据和您手头的自然语言处理任务。 常见的预处理任务包括#xff1a; 文本规范化——将文本转换为标准表示形式#xff0c;… 一、说明 文本预处理涉及许多将文本转换为干净格式的任务以供进一步处理或与机器学习模型一起使用。预处理文本所需的具体步骤取决于具体数据和您手头的自然语言处理任务。 常见的预处理任务包括 文本规范化——将文本转换为标准表示形式例如全部小写。删除停用词、标点符号、特殊单词或文本片段例如井号标签、URL、表情符号、非 ASCII 字符等。词干提取——从文本单词中删除后缀词形化 - 将单词转化为它们的引理形式引理是字典中存在的单词的形式。拼写更正——更正任何拼写错误通过绘图进行探索性分析 NLTK、SpaCy 等库提供内置的文本预处理功能。 二、文本预处理 2.1 文本预处理的好处 降维包含许多单词的文本文档可以表示为多维向量。文档的每个单词都是向量的维度之一。应用文本处理有助于删除对您所针对的实际 NLP 任务可能没有意义的单词从而减少数据的维度这反过来又有助于解决维数灾难问题并提高 NLP 任务的性能。 2.2 文本预处理 下载到您的计算机并将其加载到 pandas 数据框中。如果使用 read_csv()请使用编码 latin-1。数据集有很多列我们只对这篇关于文本预处理的文章的原始推文列感兴趣。
Read the dataset into a dataframe
import pandas as pd train_data pd.read_csv(Corona_NLP_train.csv, encodinglatin-1) train_data.head()# Remove the columns not relevant to Text-Preprocessing Task train_data train_data.drop([UserName, ScreenName, Location, TweetAt, Sentiment], axis 1) train_data.columns 2.3 小写转换 #1. Case Conversion to Lower Case train_data[OriginalTweet] train_data[OriginalTweet].str.lower() train_data.head() 2.4 删除停用词和标点符号 #Remove stop words and punctuation marks #https://stackoverflow.com/questions/29523254/python-remove-stop-words-from-pandas-dataframe import nltk import string from nltk.corpus import stopwords stop_words stopwords.words(english) stopwordsandpunct stop_words list(string.punctuation)train_data[OriginalTweet] train_data[OriginalTweet].apply(lambda w: .join(w for w in w.split() if w not in stopwordsandpunct)) train_data[OriginalTweet] 2.5 删除 URL
Remove URLs from all the tweets
import re def remove_url(tweet):tweet re.sub(r\w:\/{2}\d\w-(?:(?:\/[^\s/]))*, , tweet)return tweettrain_data[OriginalTweet] train_data[OriginalTweet].apply(remove_url) train_data[OriginalTweet].head() 2.6 删除提及和井号标签
remove mentions and hashtags
def remove_mentionshashs(tweet):tweet re.sub([A-Za-z0-9],, tweet) #Remove mentionstweet re.sub(#[A-Za-z0-9_],, tweet) #Remove hashtagsreturn tweettrain_data[OriginalTweet] train_data[OriginalTweet].apply(remove_mentions_hashs) train_data[OriginalTweet].head() 2.7 删除表情符号
Removing emojis from tweets
Source Credit: https://stackoverflow.com/a/49146722/330558
import re def remove_emojis(tweet):pat re.compile([u\U0001F600-\U0001F64F # emoticonsu\U0001F300-\U0001F5FF # symbols pictographsu\U0001F680-\U0001F6FF # transport map symbolsu\U0001F1E0-\U0001F1FF # flags (iOS)u\U00002702-\U000027B0u\U000024C2-\U0001F251], flagsre.UNICODE)return pat.sub(r, tweet)train_data[OriginalTweet] train_data[OriginalTweet].apply(remove_emojis) train_data.head() 2.8 删除非 ASCII 字符 #https://docs.python.org/2/library/unicodedata.html#unicodedata.normalize import unicodedata def remove_nonascii(text):text unicodedata.normalize(NFKD, text).encode(ascii, ignore).decode(utf-8, ignore)# apply compatibility decompositionreturn text train_data[OriginalTweet] train_data[OriginalTweet].apply(remove_nonascii) train_data.head() 2.9 删除空字符串 import string def remove_empty_strings1(tweet):tweet re.sub(r^\s|\s$, NaN, tweet)return tweet train_data[OriginalTweet] train_data[OriginalTweet].apply(remove_empty_strings1) 2.10 删除主题标签、URL 后删除所有包含 NaN 的行 train_data train_data[train_data[OriginalTweet] ! NaN]# Now resetting index of Data frame train_data train_data.reset_index(drop True) 三、文本内容预处理 3.1 使用 TextBlob 进行拼写更正
Spelling correction
import warnings
warnings.filterwarnings(ignore)
from textblob import TextBlob
train_data[SpellCorrectedTweet] train_data[OriginalTweet].apply(lambda x : str(TextBlob(x).correct()))
train_data.head()
3.2 使用 NLTK 的内置 Tokenizer 进行标记化
Now we will perform tokenization
import nltk from nltk import word_tokenize tokenizer nltk.tokenize.WhitespaceTokenizer() def tokenize(text):return tokenizer.tokenize(text)train_data[OriginalTweet] train_data[OriginalTweet].apply(tokenize) train_data[OriginalTweet].head() 3.3 使用 NLTK 的 WordNetLemmatizer 进行词形还原 import nltk tokenizer nltk.tokenize.WhitespaceTokenizer() lemmatizer nltk.stem.WordNetLemmatizer()def lemmatize(text):return [lemmatizer.lemmatize(w) for w in text]train_data[OriginalTweet] train_data[OriginalTweet].apply(lemmatize) train_data.head() 3.4 使用 NLTK 的 PorterStemmer 进行词干提取
Stemming
from nltk.stem import PorterStemmer stemmer PorterStemmer()def stemming(text):return [stemmer.stem(w) for w in text]train_data[OriginalTweet] train_data[OriginalTweet].apply(stemming) train_data.head() 3.5 计算推文中最常见的单词
Counting most frequent words in tweets
#https://docs.python.org/3/library/itertools.html#itertools.chain import itertools import collections all_tweets list(train_data[OriginalTweet]) all_tokens list(itertools.chain(*all_tweets)) token_counts collections.Counter(all_tokens)# Print 10 most common words with their frequency print(token_counts.most_common(10))# Convert above words and frequencies to a dataframe df pd.DataFrame(token_counts.most_common(20), columns[Token,Count]) df.head()# Plotting frequencies using Matplotlib barplot import matplotlib.pyplot as plt plt.rcParamsfigure.figsize df.sort_values(by Count).plot.bar(xToken, yCount) plt.title(Most Used Words) plt.show() 四、总结 本文总结出关于文本预处理的大多数处理方法。对于文本处理的实际过程可以抽取某些过程进行整合处理。对于更加特殊的处理也可以特别处理。 下一篇文章介绍文本表示技术 使用 Python 进行自然语言处理第 4 部分文本表示
- 上一篇: 汕头seo建站椒江网站制作
- 下一篇: 汕头搭建建站潍坊网站建设公司排名
相关文章
-
汕头seo建站椒江网站制作
汕头seo建站椒江网站制作
- 技术栈
- 2026年03月21日
-
陕西做网站公司哪家好微商城搭建平台
陕西做网站公司哪家好微商城搭建平台
- 技术栈
- 2026年03月21日
-
陕西做网站的公司电话为什要做网站
陕西做网站的公司电话为什要做网站
- 技术栈
- 2026年03月21日
-
汕头搭建建站潍坊网站建设公司排名
汕头搭建建站潍坊网站建设公司排名
- 技术栈
- 2026年03月21日
-
汕头东莞网站建设系部网站建设创新点
汕头东莞网站建设系部网站建设创新点
- 技术栈
- 2026年03月21日
-
汕头个人建站模板计算机编程与网站建设
汕头个人建站模板计算机编程与网站建设
- 技术栈
- 2026年03月21日
