Python网络爬虫案例实战研讨会

报名回执表下载 Python网络爬虫案例实战研讨会

Python作为一门面向对象的编程语言，简洁的语法使得编写数十行代码即可实现爬虫功能，获取海量互联网数据。使用Python来编写爬虫实现简单且效率高，同时爬取的数据可以使用Python强大的第三方数据处理库来进行分析，最重要的是学习成本低，如此之好的东西怎能不学习呢？

2017年6月和7月，北京友万信息科技有限公司联合雪晴数据网举办了两期Python爬虫与机器学习应用案例研讨会。本次研讨会取得了非常好的效果，不断有人询问我们何时再次举办类似的研讨会，经过我们的反复调研，对原有的培训内容做全新升级，定于今年12月9日至10日再次举办一期研讨会。

会议主题：Python网络爬虫案例实战研讨会

主办机构

主办方：
　雪晴数据网
协办方：
　北京友万信息科技有限公司

参会对象

从事金融、医疗、保险、生态、卫生、计量、统计、银行、通信、环境、基金等与数据分析统计相关的企事业单位技术骨干、科研院所研究人员和大专院校相关专业教学人员及在校研究生、硕士、博士等相关人员，以及广大Python爱好者。

讲师介绍

陈堰平，雪晴数据网创始人，北京理工大学大数据创新学习中心业界导师团成员，2017年1月获“微软最有价值专家”荣誉称号。硕士毕业于中国人民大学统计学院，曾获CQF国际数量金融认证，先后任新华社指数中心技术总监、SupStat Analytics中国区首席技术官。在统计咨询、数据挖掘、开发数据驱动的商业解决方案等领域有近十年的经验，曾为国家统计局、微软、惠普、德勤咨询、联想、丰田、招商银行、花旗银行、东方航空、中国移动、中国电信、中国联通等机构做过数据科学方面的培训和咨询。

曾有杰，人人车计算平台架构师及策略小组负责人，前搜狐大数据平台研发工程师，多年数据分析与开发的工作经验，擅长网络爬虫技术和自然语言处理，对大数据平台、数据挖掘有丰富的实战经验。

主题安排

第一天
案例一: 爬取电影票房数据，然后对数据进行整理汇总，可视化展示  案例二: 抓取各级行政区域的天气数据  案例三: 从东方财富网抓取基金数据  案例四: 抓取土地流转数据  案例五: 抓取历届政府工作报告，并绘制词云图  案例六: 抓取全国土地交易数据  案例七: 抓取北京交通委公布的交通指数  案例八: 批量下载上交所上市公司公告
第一讲  Python环境的搭建与基础语法	1. 安装anaconda套件  2. Jupyter Notebook的使用  3. 基本数据结构（列表、字典、元组）  4. 基本语法（条件、循环、函数、类）
第二讲  数据导入导出、数据整理与变换	1. 使用Pandas库导入/导出数据  2. 使用Pandas筛选、整理数据，分组汇总  3. 数据变换，重编码
第三讲  可视化与描述性统计	1. 饼图、柱形图、折线图、箱线图  2. 列联表与马赛克图  3. 文本的词云图
第四讲  Python爬虫技术初步	1. 网页结构分析  2. 网络协议  3. requests库介绍  4. Beautiful Soup库的介绍  5. 使用requests和Beautiful Soup写爬虫  6. 定时自动执行爬虫程序
第二天
案例九  获取电商网站的商品评论文本  案例十  获取微博上用户对指定关键词的评论文本
第五讲  Python爬虫技术进阶	1. Ajax异步加载页面的数据提取  2. XPath介绍  3. 正则表达式介绍  4. 利用scrapy框架获取静态页面数据  5. 使用scrapy结合selenium、phantomjs获取动态数据 6. 模拟浏览器登录网站、绕开验证码

为什么要学爬虫技术，学了以后有什么好处？

不论您是想要做市场调查、趋势分析、还是想要做科研，都需要从自己机构外部找数据，但是网站有千百种，从单纯的下载文件，到整理成干净的数据表，数据藏在哪里，要拿甚么钥匙去敲门，都是透过每个精心设计的范例去学习的。拿到数据之后，不同的数据类型有不同的处理方式，最后怎么有能力说出一个故事，都是这堂课的学习主轴。

案例教学的方法：我们从2013年开始举办公开的技术培训，也曾多次给企业做内部培训，从多年的教学实践中，我们发现，用传统以知识点讲解为主线，案例为辅的方式，效果并不好。学员反映，听了后面忘前面，学了一堆东西却不知道怎么用。经过多次尝试，我们摒弃了这种教学方式，采用以案例为主线，在案例中讲解知识点的方法，在一个案例中串联多个知识点，利用遗忘曲线的原理，我们用多个案例重现数据分析的流程，学员自然会举一反三了。

选取有实用价值的案例：iris数据集、titanic数据、NBA比赛数据跟我们的工作和科研有什么关系？基本没关系，那我们在讲课的时候就不会用这种数据。而且我们教的是如何使用数据分析技术，并不是教你怎么写代码，我们不培养码农的。所以我们选择的案例，都是有现实的商业意义，或者科研价值。在讲解过程中，不但告诉你代码怎么写，还会教你怎么解决问题，为什么要这么做。

贴心的助教制度：我们每次开课都会有助教，因为是手把手的课程，助教的存在，就是为了能解答您的问题，确保您有学会，满载回家。而且我们的助教都有实战经验，有的来自业界，有的来自前几批的优秀学员，我们也欢迎您以后加入我们的助教或讲师团队。

对课程品质的坚持：我们在不同场合讲解过课程的内容，不断调整打磨课程，即使是相近的主题，我们也会对课程内容和案例进行升级，挑选出最适合市场趋势的案例和技术来讲解。比如这次Python爬虫课程，较6月份的那次课程，我们升级了大量案例

没有学过Python，也可以来上课吗？

当然可以。我们的课程专门面向非计算机专业的学员，其实每次都有对编程一无所知的小白来参加我们的课程，他们甚至对电脑的很多知识都不甚了解，经过两三天的课程，不但跟下来了，还很有收获。对python有一点认识的朋友相信一定可以得心应手，针对完全没有碰过python的新手，报名之后我们会推荐您Python的基础在线课程进行课前的练习，也可以提前一天报到，参加我们的课前辅导。

时间地点

2017年12月9日-- 10日北京理工大学（具体地点报名后通知）

（时间安排：外地参会人员12月8日报到，9日～10日正式会议）

参会费用

在职人员2300元，学生1800元（可开具正规发票），此价格含会议注册费、资料费、午餐费、场地费。食宿费用自理。

针对雪晴数据网注册用户以及北京友万信息科技有限公司的用户，还有一定的优惠，具体优惠幅度请与工作人员协商。

与会者可申请工信部《数据挖掘与分析应用高级工程师》职业技术水平证书，通过考核后即可获得证书，需另交考试费、证书工本费共400元。

报名方式

请发送邮件至marketing@uone-tech.cn（备注：Python培训），我们的工作人员随后会联系您。确认报名后，请通过报名表中的汇款信息缴费（请保留支付凭证，拍照或截图发给我们的工作人员）：

外地学员请于12月8号提前报到，北京学员可于9号早上8点～8点半报到，缴费并领取发票和纸质邀请函，以及上课教材。

由于9号早上现场人比较多，鼓励北京学员也于8号报到。