1、学会基本的HTML和CSS,这样能够帮助你写出一个直观的页面;
2、学习Javascript的基本语法,这一段比较枯燥,和学习其他语言一样。在不涉及BOM和DOM的情况下,基本上没有你想要的那种直观的效果。
3、学习一下BOM和DOM的操作,如果你对前端确实感兴趣,或许会觉得有点意思。
4、学习Ajax,从XHR开始,了解基本Ajax原理之后,就尝试是用JQuery这样的框架吧。
5、Ajax只是一种页面上异步地与服务器进行通信的方式,如果不是后php这样的后端技术,貌似也不好实践,所以多少还是知道点吧。到现在应该可以尝试写个无刷新的增删改查网页了。以上只是皮毛。
两种选择
1.如果你的python爬虫的水平不是很高的话,你可以选择直接使用selenium来实现对网页的解析,然后解码分析,爬取你想要的数据,这样就比较简单,初学者的话可以考虑使用此方法
2.如果你的水平比较高,学的比较深入的话,你就可以选择解析网页,通过寻找合适的api或者找到网页之间的关系和连接,就可以模拟连接并爬取数据了。
简单的理解Ajax
Ajxa全称Asynchronous JavaScript and XML(异步的 JavaScript 和 XML)
Ajax是一个技术,这个技术是用在创建快速动态网页的技术。不
它不是编程语言,是一种使用现有标准的新方法。
Ajax是和服务器交换数据并且更新部分网页的工具,在不重新加载整个页面的情况下,对网页某部分进行更新。
传统网页如果要更新部分内容的话必须要重新加载整个网页
Ajax的技术核心是XHR,Ajax创建这个XHR对象,之后可以通过它来获取到服务器的数据,之后通过DOM将数据插入到页面中呈现。
爬取Ajax动态加载网页案例
爬虫的步骤就是下载到解析,那么Ajax一般返回的是json格式数据,直接使用requests对于ajax地址进行post或者下载,返回json数据格式,解析json数据就可以得到想要获取的信息(解析)
如果我们使用Ajax加载的动态网页,怎么爬取里面动态加载的内容?一般就是:
需要用到的工具有什么:
下载库:
Urllib库
requests做请求的时候用到
selenium自动化会用到的
解析库:
正则匹配re解析网页
lxml第三方库,用于Xpath
beautifulSoup解析网页
pyquery网页解析哭和beautifulSoup类似
数据库操作库:
pymysql操作mysql数据的
pymongo操作MongoDB数据库
redis非关系型数据库
jupyter在线笔记本
相关标签: # HTML # 问题 # javascript
评论列表 (0条)