首页 - 技术栈

邯郸做企业网站设计的公司wordpress 简码使用

作者: 五速梦信息网
时间: 2026年06月19日 11:00

当前位置：首页 > news >正文

邯郸做企业网站设计的公司,wordpress 简码使用,做网站谈单,上海高端网站定制建设公司随着OpenAI大火#xff0c;从事AI开发的人趋之若鹜#xff0c;这次使用Python selenium抓取了领英上几万条岗位薪资数据#xff0c;并使用Pandas、matplotlib、seaborn等库进行可视化探索分析。但领英设置了一些反爬措施#xff0c;对IP进行限制封禁#xff0c;因此会用到…随着OpenAI大火从事AI开发的人趋之若鹜这次使用Python selenium抓取了领英上几万条岗位薪资数据并使用Pandas、matplotlib、seaborn等库进行可视化探索分析。但领英设置了一些反爬措施对IP进行限制封禁因此会用到IP代理用不同的IP进行访问我这里用的是亮数据的IP代理。亮数据是一家提供网络数据采集解决方案的网站它拥有全球最大的代理IP网络覆盖超过195个国家和地区拥有超过7200万个不重复的真人IP地址。这些IP地址可以用于匿名浏览网页、绕过IP封锁、抓取网页数据等。亮数据官网地址 https://get.brightdata.com/weijun 另外亮数据提供各种数据采集工具帮助企业轻松采集网页数据。这些工具包括Web Scraper IDE、亮数据浏览器、SERP API等等。下面是关于Python爬取领英的步骤和代码。 1、爬虫采集AI岗位数据-selenium亮数据2、处理和清洗数据-pandas3、可视化数据探索-matplotlib seaborn 1、爬虫采集AI岗位数据-selenium亮数据

导入相关库

import random from selenium import webdriver from selenium.webdriver.common.by import By import time import requests import pandas as pd from scripts.helpers import strip_val, get_value_by_path# 选择Edge浏览器 BROWSER edge# 创建网络会话登录Linkedin

create_session函数用于创建一个自动化的浏览器会话并使用提供的电子邮件和密码登录LinkedIn。

它首先根据BROWSER变量选择相应的浏览器驱动程序Chrome或Edge然后导航到LinkedIn的登录页面自动填写登录表单并提交。

登录成功后它会获取当前会话的cookies并创建一个requests.Session对象来保存这些cookies以便后续的HTTP请求可以保持登录状态。最后它返回这个会话对象。

def create_session(email, password):if BROWSER chrome:driver webdriver.Chrome()elif BROWSER edge:driver webdriver.Edge()# 登录信息driver.get(https://www.linkedin.com/checkpoint/rm/sign-in-another-account)time.sleep(1)driver.find_element(By.ID, username).send_keys(email)driver.find_element(By.ID, password).send_keys(password)driver.find_element(By.XPATH, //*[idorganic-div]/form/div[3]/button).click()time.sleep(1)input(Press ENTER after a successful login for {}: .format(email))driver.get(https://www.linkedin.com/jobs/search/?)time.sleep(1)cookies driver.get_cookies()driver.quit()session requests.Session()for cookie in cookies:session.cookies.set(cookie[name], cookie[value])return session# 获取登录账号和密码 def get_logins(method):logins pd.read_csv(logins.csv)logins logins[logins[method] method]emails logins[emails].tolist()passwords logins[passwords].tolist()return emails, passwords# JobSearchRetriever类用于检索LinkedIn上的职位信息。

它初始化时设置了一个职位搜索链接并获取登录凭证来创建多个会话。

它还定义了一个get_jobs方法该方法通过会话发送HTTP GET请求到LinkedIn的职位搜索API获取职位信息并解析响应以提取职位ID和标题。

如果职位被标记为赞助即广告它也会记录下来。

class JobSearchRetriever:def init(self):self.job_search_link https://www.linkedin.com/voyager/api/voyagerJobsDashJobCards?decorationIdcom.linkedin.voyager.dash.deco.jobs.search.JobSearchCardsCollection-187count100qjobSearchquery(origin:JOB_SEARCH_PAGE_OTHER_ENTRY,selectedFilters:(sortBy:List(DD)),spellCorrectionEnabled:true)start0emails, passwords get_logins(search)self.sessions [create_session(email, password) for email, password in zip(emails, passwords)]self.session_index 0self.headers [{Authority: www.linkedin.com,Method: GET,Path: voyager/api/voyagerJobsDashJobCards?decorationIdcom.linkedin.voyager.dash.deco.jobs.search.JobSearchCardsCollection-187count25qjobSearchquery(origin:JOB_SEARCH_PAGE_OTHER_ENTRY,selectedFilters:(sortBy:List(DD)),spellCorrectionEnabled:true)start0,Scheme: https,Accept: application/vnd.linkedin.normalizedjson2.1,Accept-Encoding: gzip, deflate, br,Accept-Language: en-US,en;q0.9,Cookie: ; .join([f{key}{value} for key, value in session.cookies.items()]),Csrf-Token: session.cookies.get(JSESSIONID).strip(),# TE: Trailers,User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36,# X-Li-Track: {clientVersion:1.12.7990,mpVersion:1.12.7990,osName:web,timezoneOffset:-7,timezone:America/Los_Angeles,deviceFormFactor:DESKTOP,mpName:voyager-web,displayDensity:1,displayWidth:1920,displayHeight:1080}X-Li-Track: {clientVersion:1.13.5589,mpVersion:1.13.5589,osName:web,timezoneOffset:-7,timezone:America/Los_Angeles,deviceFormFactor:DESKTOP,mpName:voyager-web,displayDensity:1,displayWidth:360,displayHeight:800}} for session in self.sessions]# self.proxies [{http: fhttp://{proxy}, https: fhttp://{proxy}} for proxy in []]# 添加亮数据代理IP# get_jobs函数用于发送HTTP请求到LinkedIn的职位搜索API获取职位信息# 它使用当前会话索引来选择一个会话并发送带有相应请求头的GET请求。如果响应状态码是200表示请求成功# 它将解析JSON响应提取职位ID、标题和赞助状态并将这些信息存储在一个字典中。def get_jobs(self):results self.sessions[self.session_index].get(self.job_search_link, headersself.headers[self.session_index]) #, proxiesself.proxies[self.session_index], timeout5)self.session_index (self.session_index 1) % len(self.sessions)if results.status_code ! 200:raise Exception(Status code {} for search\nText: {}.format(results.status_code, results.text))results results.json()job_ids {}for r in results[included]:if r[$type] com.linkedin.voyager.dash.jobs.JobPostingCard and referenceId in r:job_id int(strip_val(r[jobPostingUrn], 1))job_ids[job_id] {sponsored: False}job_ids[job_id][title] r.get(jobPostingTitle)for x in r[footerItems]:if x.get(type) PROMOTED:job_ids[job_id][sponsored] Truebreakreturn job_ids 2、处理和清洗数据-pandas

导入相关库

import pandas as pd import matplotlib.pyplot as plt import seaborn as sns from wordcloud import WordCloud# 导入职位数据 job_postings pd.read_csv(./archive/job_postings.csv) job_postings# 根据AI岗位关键词筛选AI相关岗位 keywords [data scientist, machine learning, data science, data analyst, ml engineer, data engineer,ai engineer,ai/ml,ai/nlp,ai reasearcher,ai consultant,artificial intelligence,computer vision,deep learning]# 新增一列标注职位是否包含关键字 def check_keywords(description):for keyword in keywords:if keyword in str(description).lower():return AI岗位return 非AI岗位job_postings[is_programmer] job_postings[description].apply(check_keywords)

保存AI岗位新表

job_ai job_postings[(job_postings[is_programmer]AI岗位) (job_postings[pay_period]YEARLY) (job_postings[max_salary]10000) ] job_others job_postings[(job_postings[is_programmer]非AI岗位) (job_postings[pay_period]YEARLY) (job_postings[max_salary]10000) (job_postings[max_salary]200000) ] job_ai处理好的数据如下
3、可视化数据探索-matplotlib seaborn AI岗位中位数年薪18W美金最高50w以上

设置Seaborn样式和调色板

sns.set_style(whitegrid) palette [skyblue]

palette [#87CEEB] # 使用颜色代码或者其他有效的颜色名称这里使用天蓝色的颜色代码# 箱线图

plt.figure(figsize(8, 6)) sns.boxplot(ymax_salary, datajob_ai, palettepalette) plt.ylabel(Yearly Salary) plt.title(AI Yearly Salary Boxplot)# 添加分位数标注 quantiles job_ai[max_salary].quantile([0.25, 0.5, 0.75]) for q, label in zip(quantiles, [Q1, Median, Q3]):plt.text(0, q, f{label}: {int(q)}, horizontalalignmentcenter, verticalalignmentbottom, fontdict{size: 10})

添加平均值、最大最小值标注

avg_value job_ai[max_salary].mean()
max_value job_ai[max_salary].max()
min_value job_ai[max_salary].min()
plt.text(0.2, avg_value, fAvg: {int(avg_value)}, haleft, vabottom, fontdict{size: 10})
plt.text(0, max_value, fMax: {int(max_value)}, hacenter, vabottom, fontdict{size: 10})
plt.text(0, min_value, fMin: {int(min_value)}, hacenter, vatop, fontdict{size: 10}) # 显示图形
plt.show()AI岗位年薪主要集中在15-30w美金

1. 直方图

plt.figure(figsize(10, 6)) plt.hist(job_ai[max_salary], bins30, colorskyblue, edgecolorblack) plt.xlabel(Yearly Salary) plt.ylabel(Frequency) plt.title(Yearly Salary Distribution) plt.show()AI大多需要高级岗对软件开发、机器学习、数据科学要求较多

词云

stopwords set([Manager]) job_titles_text .join(job_ai[title]) wordcloud WordCloud(width800, height400, background_colorwhite,stopwordsstopwords).generate(job_titles_text)# 显示词云 plt.figure(figsize(10, 6)) plt.imshow(wordcloud, interpolationbilinear) plt.title(AI Job Title Word Cloud) plt.axis(off) plt.tight_layout() plt.show()数据发现AI岗位平均年薪竟高达18万美金远超普通开发岗而且AI岗位需求也在爆发性增长。这次使用的是亮数据IP服务质量还是蛮高的大家可以试试。亮数据官网地址 https://get.brightdata.com/weijun

上一篇：邯郸专业网站建设公司电商类公司网站应该怎么搭建
下一篇：邯郸做商城网站的公司动漫制作专业属于艺术类吗

邯郸做企业网站设计的公司wordpress 简码使用

导入相关库

create_session函数用于创建一个自动化的浏览器会话并使用提供的电子邮件和密码登录LinkedIn。

它首先根据BROWSER变量选择相应的浏览器驱动程序Chrome或Edge然后导航到LinkedIn的登录页面自动填写登录表单并提交。

登录成功后它会获取当前会话的cookies并创建一个requests.Session对象来保存这些cookies以便后续的HTTP请求可以保持登录状态。最后它返回这个会话对象。

它初始化时设置了一个职位搜索链接并获取登录凭证来创建多个会话。

它还定义了一个get_jobs方法该方法通过会话发送HTTP GET请求到LinkedIn的职位搜索API获取职位信息并解析响应以提取职位ID和标题。

如果职位被标记为赞助即广告它也会记录下来。

导入相关库

保存AI岗位新表

设置Seaborn样式和调色板

palette [#87CEEB] # 使用颜色代码或者其他有效的颜色名称这里使用天蓝色的颜色代码# 箱线图

添加平均值、最大最小值标注

1. 直方图

词云

相关文章

邯郸专业网站建设公司电商类公司网站应该怎么搭建

邯郸专业网站建设报价重庆网站制作工作室

邯郸住房城乡建设厅网站百度一下你就知道搜索

邯郸做商城网站的公司动漫制作专业属于艺术类吗

邯郸做商城网站的公司做一个一般的网站需要多少钱

邯郸做网站代理网站建设长沙百姓网

HTTPS免费证书为啥只能用3个月？

不同领域，GEO方法要“对症下药”

新手站长也能上手：3类高效GEO方法

GEO能帮站长解决什么问题？

AI时代，站长该如何让网站内容被更多人看到？

为什么当初会有www这个前缀？

邯郸做企业网站设计的公司wordpress 简码使用

导入相关库

create_session函数用于创建一个自动化的浏览器会话并使用提供的电子邮件和密码登录LinkedIn。

它首先根据BROWSER变量选择相应的浏览器驱动程序Chrome或Edge然后导航到LinkedIn的登录页面自动填写登录表单并提交。

登录成功后它会获取当前会话的cookies并创建一个requests.Session对象来保存这些cookies以便后续的HTTP请求可以保持登录状态。最后它返回这个会话对象。

它初始化时设置了一个职位搜索链接并获取登录凭证来创建多个会话。

它还定义了一个get_jobs方法该方法通过会话发送HTTP GET请求到LinkedIn的职位搜索API获取职位信息并解析响应以提取职位ID和标题。

如果职位被标记为赞助即广告它也会记录下来。

导入相关库

保存AI岗位新表

设置Seaborn样式和调色板

palette [#87CEEB] # 使用颜色代码或者其他有效的颜色名称这里使用天蓝色的颜色代码# 箱线图

添加平均值、最大最小值标注

1. 直方图

词云

相关文章

邯郸专业网站建设公司电商类公司网站应该怎么搭建

邯郸专业网站建设报价重庆网站制作工作室

邯郸住房城乡建设厅网站百度一下你就知道搜索

邯郸做商城网站的公司动漫制作专业属于艺术类吗

邯郸做商城网站的公司做一个一般的网站需要多少钱

邯郸做网站代理网站建设 长沙百姓网

HTTPS免费证书为啥只能用3个月？

不同领域，GEO方法要“对症下药”

新手站长也能上手：3类高效GEO方法

GEO能帮站长解决什么问题？

AI时代，站长该如何让网站内容被更多人看到？

为什么当初会有www这个前缀？

邯郸做网站代理网站建设长沙百姓网