python函数向量化,Python向量化

请问怎么学习Python?

这里整理了一份Python开发的学习路线,可按照这份大纲来安排学习计划~

创新互联是一家企业级云计算解决方案提供商,超15年IDC数据中心运营经验。主营GPU显卡服务器,站群服务器,雅安服务器托管,海外高防服务器,机柜大带宽、租用·托管,动态拨号VPS,海外云手机,海外云服务器,海外服务器租用托管等。

第一阶段:专业核心基础

阶段目标:

1. 熟练掌握Python的开发环境与编程核心知识

2. 熟练运用Python面向对象知识进行程序开发

3. 对Python的核心库和组件有深入理解

4. 熟练应用SQL语句进行数据库常用操作

5. 熟练运用Linux操作系统命令及环境配置

6. 熟练使用MySQL,掌握数据库高级操作

7. 能综合运用所学知识完成项目

知识点:

Python编程基础、Python面向对象、Python高级进阶、MySQL数据库、Linux操作系统。

1、Python编程基础,语法规则,函数与参数,数据类型,模块与包,文件IO,培养扎实的Python编程基本功,同时对Python核心对象和库的编程有熟练的运用。

2、Python面向对象,核心对象,异常处理,多线程,网络编程,深入理解面向对象编程,异常处理机制,多线程原理,网络协议知识,并熟练运用于项目中。

3、类的原理,MetaClass,下划线的特殊方法,递归,魔术方法,反射,迭代器,装饰器,UnitTest,Mock。深入理解面向对象底层原理,掌握Python开发高级进阶技术,理解单元测试技术。

4、数据库知识,范式,MySQL配置,命令,建库建表,数据的增删改查,约束,视图,存储过程,函数,触发器,事务,游标,PDBC,深入理解数据库管理系统通用知识及MySQL数据库的使用与管理。为Python后台开发打下坚实基础。

5、Linux安装配置,文件目录操作,VI命令,管理,用户与权限,环境配置,Docker,Shell编程Linux作为一个主流的服务器操作系统,是每一个开发工程师必须掌握的重点技术,并且能够熟练运用。

第二阶段:PythonWEB开发

阶段目标:

1. 熟练掌握Web前端开发技术,HTML,CSS,JavaScript及前端框架

2. 深入理解Web系统中的前后端交互过程与通信协议

3. 熟练运用Web前端和Django和Flask等主流框架完成Web系统开发

4. 深入理解网络协议,分布式,PDBC,AJAX,JSON等知识

5. 能够运用所学知识开发一个MiniWeb框架,掌握框架实现原理

6. 使用Web开发框架实现贯穿项目

知识点:

Web前端编程、Web前端高级、Django开发框架、Flask开发框架、Web开发项目实战。

1、Web页面元素,布局,CSS样式,盒模型,JavaScript,JQuery与Bootstrap掌握前端开发技术,掌握JQuery与BootStrap前端开发框架,完成页面布局与美化。

2、前端开发框架Vue,JSON数据,网络通信协议,Web服务器与前端交互熟练使用Vue框架,深入理解HTTP网络协议,熟练使用Swagger,AJAX技术实现前后端交互。

3、自定义Web开发框架,Django框架的基本使用,Model属性及后端配置,Cookie与Session,模板Templates,ORM数据模型,Redis二级缓存,RESTful,MVC模型掌握Django框架常用API,整合前端技术,开发完整的WEB系统和框架。

4、Flask安装配置,App对象的初始化和配置,视图函数的路由,Request对象,Abort函数,自定义错误,视图函数的返回值,Flask上下文和请求钩子,模板,数据库扩展包Flask-Sqlalchemy,数据库迁移扩展包Flask-Migrate,邮件扩展包Flask-Mail。掌握Flask框架的常用API,与Django框架的异同,并能独立开发完整的WEB系统开发。

第三阶段:爬虫与数据分析

阶段目标:

1. 熟练掌握爬虫运行原理及常见网络抓包工具使用,能够对HTTP及HTTPS协议进行抓包分析

2. 熟练掌握各种常见的网页结构解析库对抓取结果进行解析和提取

3. 熟练掌握各种常见反爬机制及应对策略,能够针对常见的反爬措施进行处理

4. 熟练使用商业爬虫框架Scrapy编写大型网络爬虫进行分布式内容爬取

5. 熟练掌握数据分析相关概念及工作流程

6. 熟练掌握主流数据分析工具Numpy、Pandas和Matplotlib的使用

7. 熟练掌握数据清洗、整理、格式转换、数据分析报告编写

8. 能够综合利用爬虫爬取豆瓣网电影评论数据并完成数据分析全流程项目实战

知识点:

网络爬虫开发、数据分析之Numpy、数据分析之Pandas。

1、爬虫页面爬取原理、爬取流程、页面解析工具LXML,Beautifulfoup,正则表达式,代理池编写和架构、常见反爬措施及解决方案、爬虫框架结构、商业爬虫框架Scrapy,基于对爬虫爬取原理、网站数据爬取流程及网络协议的分析和了解,掌握网页解析工具的使用,能够灵活应对大部分网站的反爬策略,具备独立完成爬虫框架的编写能力和熟练应用大型商业爬虫框架编写分布式爬虫的能力。

2、Numpy中的ndarray数据结构特点、numpy所支持的数据类型、自带的数组创建方法、算术运算符、矩阵积、自增和自减、通用函数和聚合函数、切片索引、ndarray的向量化和广播机制,熟悉数据分析三大利器之一Numpy的常见使用,熟悉ndarray数据结构的特点和常见操作,掌握针对不同维度的ndarray数组的分片、索引、矩阵运算等操作。

3、Pandas里面的三大数据结构,包括Dataframe、Series和Index对象的基本概念和使用,索引对象的更换及删除索引、算术和数据对齐方法,数据清洗和数据规整、结构转换,熟悉数据分析三大利器之一Pandas的常见使用,熟悉Pandas中三大数据对象的使用方法,能够使用Pandas完成数据分析中最重要的数据清洗、格式转换和数据规整工作、Pandas对文件的读取和操作方法。

4、matplotlib三层结构体系、各种常见图表类型折线图、柱状图、堆积柱状图、饼图的绘制、图例、文本、标线的添加、可视化文件的保存,熟悉数据分析三大利器之一Matplotlib的常见使用,熟悉Matplotlib的三层结构,能够熟练使用Matplotlib绘制各种常见的数据分析图表。能够综合利用课程中所讲的各种数据分析和可视化工具完成股票市场数据分析和预测、共享单车用户群里数据分析、全球幸福指数数据分析等项目的全程实战。

第四阶段:机器学习与人工智能

阶段目标:

1. 理解机器学习相关的基本概念及系统处理流程

2. 能够熟练应用各种常见的机器学习模型解决监督学习和非监督学习训练和测试问题,解决回归、分类问题

3. 熟练掌握常见的分类算法和回归算法模型,如KNN、决策树、随机森林、K-Means等

4. 掌握卷积神经网络对图像识别、自然语言识别问题的处理方式,熟悉深度学习框架TF里面的张量、会话、梯度优化模型等

5. 掌握深度学习卷积神经网络运行机制,能够自定义卷积层、池化层、FC层完成图像识别、手写字体识别、验证码识别等常规深度学习实战项目

知识点:

1、机器学习常见算法、sklearn数据集的使用、字典特征抽取、文本特征抽取、归一化、标准化、数据主成分分析PCA、KNN算法、决策树模型、随机森林、线性回归及逻辑回归模型和算法。熟悉机器学习相关基础概念,熟练掌握机器学习基本工作流程,熟悉特征工程、能够使用各种常见机器学习算法模型解决分类、回归、聚类等问题。

2、Tensorflow相关的基本概念,TF数据流图、会话、张量、tensorboard可视化、张量修改、TF文件读取、tensorflow playround使用、神经网络结构、卷积计算、激活函数计算、池化层设计,掌握机器学习和深度学习之前的区别和练习,熟练掌握深度学习基本工作流程,熟练掌握神经网络的结构层次及特点,掌握张量、图结构、OP对象等的使用,熟悉输入层、卷积层、池化层和全连接层的设计,完成验证码识别、图像识别、手写输入识别等常见深度学习项目全程实战。

「干货」让Python性能起飞的15个技巧,你知道几个呢?

前言

Python 一直以来被大家所诟病的一点就是执行速度慢,但不可否认的是 Python 依然是我们学习和工作中的一大利器。本文总结了15个tips有助于提升 Python 执行速度、优化性能。

关于 Python 如何精确地测量程序的执行时间,这个问题看起来简单其实很复杂,因为程序的执行时间受到很多因素的影响,例如操作系统、Python 版本以及相关硬件(CPU 性能、内存读写速度)等。在同一台电脑上运行相同版本的语言时,上述因素就是确定的了,但是程序的睡眠时间依然是变化的,且电脑上正在运行的其他程序也会对实验有干扰,因此严格来说这就是实验不可重复。

我了解到的关于计时比较有代表性的两个库就是 time 和 timeit 。

其中, time 库中有 time() 、 perf_counter() 以及 process_time() 三个函数可用来计时(以秒为单位),加后缀 _ns 表示以纳秒计时(自 Python3.7 始)。在此之前还有 clock() 函数,但是在 Python3.3 之后被移除了。上述三者的区别如下:

与 time 库相比, timeit 有两个优点:

timeit.timeit(stmt='pass', setup='pass', timer= , number=1000000, globals=None) 参数说明:

本文所有的计时均采用 timeit 方法,且采用默认的执行次数一百万次。

为什么要执行一百万次呢?因为我们的测试程序很短,如果不执行这么多次的话,根本看不出差距。

Exp1:将字符串数组中的小写字母转为大写字母。

测试数组为 oldlist = ['life', 'is', 'short', 'i', 'choose', 'python']。

方法一

方法二

方法一耗时 0.5267724000000005s ,方法二耗时 0.41462569999999843s ,性能提升 21.29%

Exp2:求两个 list 的交集。

测试数组:a = [1,2,3,4,5],b = [2,4,6,8,10]。

方法一

方法二

方法一耗时 0.9507264000000006s ,方法二耗时 0.6148200999999993s ,性能提升 35.33%

关于 set() 的语法: | 、 、 - 分别表示求并集、交集、差集。

我们可以通过多种方式对序列进行排序,但其实自己编写排序算法的方法有些得不偿失。因为内置的 sort() 或 sorted() 方法已经足够优秀了,且利用参数 key 可以实现不同的功能,非常灵活。二者的区别是 sort() 方法仅被定义在 list 中,而 sorted() 是全局方法对所有的可迭代序列都有效。

Exp3:分别使用快排和 sort() 方法对同一列表排序。

测试数组:lists = [2,1,4,3,0]。

方法一

方法二

方法一耗时 2.4796975000000003s ,方法二耗时 0.05551999999999424s ,性能提升 97.76%

顺带一提, sorted() 方法耗时 0.1339823999987857s 。

可以看出, sort() 作为 list 专属的排序方法还是很强的, sorted() 虽然比前者慢一点,但是胜在它“不挑食”,它对所有的可迭代序列都有效。

扩展 :如何定义 sort() 或 sorted() 方法的 key

1.通过 lambda 定义

2.通过 operator 定义

operator 的 itemgetter() 适用于普通数组排序, attrgetter() 适用于对象数组排序

3.通过 cmp_to_key() 定义,最为灵活

Exp4:统计字符串中每个字符出现的次数。

测试数组:sentence='life is short, i choose python'。

方法一

方法二

方法一耗时 2.8105250000000055s ,方法二耗时 1.6317423000000062s ,性能提升 41.94%

列表推导(list comprehension)短小精悍。在小代码片段中,可能没有太大的区别。但是在大型开发中,它可以节省一些时间。

Exp5:对列表中的奇数求平方,偶数不变。

测试数组:oldlist = range(10)。

方法一

方法二

方法一耗时 1.5342976000000021s ,方法二耗时 1.4181957999999923s ,性能提升 7.57%

大多数人都习惯使用 + 来连接字符串。但其实,这种方法非常低效。因为, + 操作在每一步中都会创建一个新字符串并复制旧字符串。更好的方法是用 join() 来连接字符串。关于字符串的其他操作,也尽量使用内置函数,如 isalpha() 、 isdigit() 、 startswith() 、 endswith() 等。

Exp6:将字符串列表中的元素连接起来。

测试数组:oldlist = ['life', 'is', 'short', 'i', 'choose', 'python']。

方法一

方法二

方法一耗时 0.27489080000000854s ,方法二耗时 0.08166570000000206s ,性能提升 70.29%

join 还有一个非常舒服的点,就是它可以指定连接的分隔符,举个例子

life//is//short//i//choose//python

Exp6:交换x,y的值。

测试数据:x, y = 100, 200。

方法一

方法二

方法一耗时 0.027853900000010867s ,方法二耗时 0.02398730000000171s ,性能提升 13.88%

在不知道确切的循环次数时,常规方法是使用 while True 进行无限循环,在代码块中判断是否满足循环终止条件。虽然这样做没有任何问题,但 while 1 的执行速度比 while True 更快。因为它是一种数值转换,可以更快地生成输出。

Exp8:分别用 while 1 和 while True 循环 100 次。

方法一

方法二

方法一耗时 3.679268300000004s ,方法二耗时 3.607847499999991s ,性能提升 1.94%

将文件存储在高速缓存中有助于快速恢复功能。Python 支持装饰器缓存,该缓存在内存中维护特定类型的缓存,以实现最佳软件驱动速度。我们使用 lru_cache 装饰器来为斐波那契函数提供缓存功能,在使用 fibonacci 递归函数时,存在大量的重复计算,例如 fibonacci(1) 、 fibonacci(2) 就运行了很多次。而在使用了 lru_cache 后,所有的重复计算只会执行一次,从而大大提高程序的执行效率。

Exp9:求斐波那契数列。

测试数据:fibonacci(7)。

方法一

方法二

方法一耗时 3.955014900000009s ,方法二耗时 0.05077979999998661s ,性能提升 98.72%

注意事项:

我被执行了(执行了两次 demo(1, 2) ,却只输出一次)

functools.lru_cache(maxsize=128, typed=False) 的两个可选参数:

点运算符( . )用来访问对象的属性或方法,这会引起程序使用 __getattribute__() 和 __getattr__() 进行字典查找,从而带来不必要的开销。尤其注意,在循环当中,更要减少点运算符的使用,应该将它移到循环外处理。

这启发我们应该尽量使用 from ... import ... 这种方式来导包,而不是在需要使用某方法时通过点运算符来获取。其实不光是点运算符,其他很多不必要的运算我们都尽量移到循环外处理。

Exp10:将字符串数组中的小写字母转为大写字母。

测试数组为 oldlist = ['life', 'is', 'short', 'i', 'choose', 'python']。

方法一

方法二

方法一耗时 0.7235491999999795s ,方法二耗时 0.5475435999999831s ,性能提升 24.33%

当我们知道具体要循环多少次时,使用 for 循环比使用 while 循环更好。

Exp12:使用 for 和 while 分别循环 100 次。

方法一

方法二

方法一耗时 3.894683299999997s ,方法二耗时 1.0198077999999953s ,性能提升 73.82%

Numba 可以将 Python 函数编译码为机器码执行,大大提高代码执行速度,甚至可以接近 C 或 FORTRAN 的速度。它能和 Numpy 配合使用,在 for 循环中或存在大量计算时能显著地提高执行效率。

Exp12:求从 1 加到 100 的和。

方法一

方法二

方法一耗时 3.7199997000000167s ,方法二耗时 0.23769430000001535s ,性能提升 93.61%

矢量化是 NumPy 中的一种强大功能,可以将操作表达为在整个数组上而不是在各个元素上发生。这种用数组表达式替换显式循环的做法通常称为矢量化。

在 Python 中循环数组或任何数据结构时,会涉及很多开销。NumPy 中的向量化操作将内部循环委托给高度优化的 C 和 Fortran 函数,从而使 Python 代码更加快速。

Exp13:两个长度相同的序列逐元素相乘。

测试数组:a = [1,2,3,4,5], b = [2,4,6,8,10]

方法一

方法二

方法一耗时 0.6706845000000214s ,方法二耗时 0.3070132000000001s ,性能提升 54.22%

若要检查列表中是否包含某成员,通常使用 in 关键字更快。

Exp14:检查列表中是否包含某成员。

测试数组:lists = ['life', 'is', 'short', 'i', 'choose', 'python']

方法一

方法二

方法一耗时 0.16038449999999216s ,方法二耗时 0.04139250000000061s ,性能提升 74.19%

itertools 是用来操作迭代器的一个模块,其函数主要可以分为三类:无限迭代器、有限迭代器、组合迭代器。

Exp15:返回列表的全排列。

测试数组:["Alice", "Bob", "Carol"]

方法一

方法二

方法一耗时 3.867292899999484s ,方法二耗时 0.3875405000007959s ,性能提升 89.98%

根据上面的测试数据,我绘制了下面这张实验结果图,可以更加直观的看出不同方法带来的性能差异。

从图中可以看出,大部分的技巧所带来的性能增幅还是比较可观的,但也有少部分技巧的增幅较小(例如编号5、7、8,其中,第 8 条的两种方法几乎没有差异)。

总结下来,我觉得其实就是下面这两条原则:

内置库函数由专业的开发人员编写并经过了多次测试,很多库函数的底层是用 C 语言开发的。因此,这些函数总体来说是非常高效的(比如 sort() 、 join() 等),自己编写的方法很难超越它们,还不如省省功夫,不要重复造轮子了,何况你造的轮子可能更差。所以,如果函数库中已经存在该函数,就直接拿来用。

有很多优秀的第三方库,它们的底层可能是用 C 和 Fortran 来实现的,像这样的库用起来绝对不会吃亏,比如前文提到的 Numpy 和 Numba,它们带来的提升都是非常惊人的。类似这样的库还有很多,比如Cython、PyPy等,这里我只是抛砖引玉。

原文链接:

对于Python 的科学计算有哪些提高运算速度的技

一:学会正确使用numpy scipy。 numpy scipy写好的绝不自己写,比如矩阵运算等操作,pylab的实现还算不错。各种函数都有,尽量使用他们可以避免初学者大部分的速度不足问题。因为这些函数大部分都是预编译好的。

根据我几年前的测试,python的矩阵运算速度并不慢,(因为你运行的是动态链接库里面的函数而不是脚本)比mathematica快,和matlab持平。

大部分新手不擅长看文档啥都自己造轮子是不好的。当然老手把效率写的比开源库高也不算啥新闻,毕竟有对特定程序的优化

二:减少for的使用,多使用向量化函数,np.vectorlize可以把函数变成对数组逐元素的操作,比for效率高几个华莱士。

三:对内存友好,操作大矩阵的时候减少会引起整矩阵对此copy的操作

四:系统最慢的大部分时候是io,包括上面说的内存操作和频繁的读入读出以及debug输出。避免他们,在需要实时处理的时候引入类似于gpu的pipeline管线机制或者使用灵活的多线程编程可以起到奇效。

五:matplotlib的绘图效率并不高明,在使用交互绘图(plt.ion)的时候减少不必要的刷新率。

如何系统地自学 Python

是否非常想学好 Python,一方面被琐事纠缠,一直没能动手,另一方面,担心学习成本太高,心里默默敲着退堂鼓?

幸运的是,Python 是一门初学者友好的编程语言,想要完全掌握它,你不必花上太多的时间和精力。

Python 的设计哲学之一就是简单易学,体现在两个方面:

语法简洁明了:相对 Ruby 和 Perl,它的语法特性不多不少,大多数都很简单直接,不玩儿玄学。

切入点很多:Python 可以让你可以做很多事情,科学计算和数据分析、爬虫、Web 网站、游戏、命令行实用工具等等等等,总有一个是你感兴趣并且愿意投入时间的。

废话不多说,学会一门语言的捷径只有一个: Getting Started

¶ 起步阶段

任何一种编程语言都包含两个部分:硬知识和软知识,起步阶段的主要任务是掌握硬知识。

硬知识

“硬知识”指的是编程语言的语法、算法和数据结构、编程范式等,例如:变量和类型、循环语句、分支、函数、类。这部分知识也是具有普适性的,看上去是掌握了一种语法,实际是建立了一种思维。例如:让一个 Java 程序员去学习 Python,他可以很快的将 Java 中的学到的面向对象的知识 map 到 Python 中来,因此能够快速掌握 Python 中面向对象的特性。

如果你是刚开始学习编程的新手,一本可靠的语法书是非常重要的。它看上去可能非常枯燥乏味,但对于建立稳固的编程思维是必不可少。

下面列出了一些适合初学者入门的教学材料:

廖雪峰的 Python 教程    Python 中文教程的翘楚,专为刚刚步入程序世界的小白打造。  

笨方法学 Python    这本书在讲解 Python 的语法成分时,还附带大量可实践的例子,非常适合快速起步。  

The Hitchhiker’s Guide to Python!    这本指南着重于 Python 的最佳实践,不管你是 Python 专家还是新手,都能获得极大的帮助。  

Python 的哲学:

用一种方法,最好是只有一种方法来做一件事。

学习也是一样,虽然推荐了多种学习资料,但实际学习的时候,最好只选择其中的一个,坚持看完。

必要的时候,可能需要阅读讲解数据结构和算法的书,这些知识对于理解和使用 Python 中的对象模型有着很大的帮助。

软知识

“软知识”则是特定语言环境下的语法技巧、类库的使用、IDE的选择等等。这一部分,即使完全不了解不会使用,也不会妨碍你去编程,只不过写出的程序,看上去显得“傻”了些。

对这些知识的学习,取决于你尝试解决的问题的领域和深度。对初学者而言,起步阶段极易走火,或者在选择 Python 版本时徘徊不决,一会儿看 2.7 一会儿又转到 3.0,或者徜徉在类库的大海中无法自拔,Scrapy,Numpy,Django 什么都要试试,或者参与编辑器圣战、大括号缩进探究、操作系统辩论赛等无意义活动,或者整天跪舔语法糖,老想着怎么一行代码把所有的事情做完,或者去构想圣洁的性能安全通用性健壮性全部满分的解决方案。

很多“大牛”都会告诫初学者,用这个用那个,少走弯路,这样反而把初学者推向了真正的弯路。

还不如告诉初学者,学习本来就是个需要你去走弯路出 Bug,只能脚踏实地,没有奇迹只有狗屎的过程。

选择一个方向先走下去,哪怕脏丑差,走不动了再看看有没有更好的解决途径。

自己走了弯路,你才知道这么做的好处,才能理解为什么人们可以手写状态机去匹配却偏要发明正则表达式,为什么面向过程可以解决却偏要面向对象,为什么我可以操纵每一根指针却偏要自动管理内存,为什么我可以嵌套回调却偏要用 Promise...

更重要的是,你会明白,高层次的解决方法都是对低层次的封装,并不是任何情况下都是最有效最合适的。

技术涌进就像波浪一样,那些陈旧的封存已久的技术,消退了迟早还会涌回的。就像现在移动端应用、手游和 HTML5 的火热,某些方面不正在重演过去 PC 的那些历史么?

因此,不要担心自己走错路误了终身,坚持并保持进步才是正道。

起步阶段的核心任务是掌握硬知识,软知识做适当了解,有了稳固的根,粗壮的枝干,才能长出浓密的叶子,结出甜美的果实。

¶ 发展阶段

完成了基础知识的学习,必定会感到一阵空虚,怀疑这些语法知识是不是真的有用。

没错,你的怀疑是非常正确的。要让 Python 发挥出它的价值,当然不能停留在语法层面。

发展阶段的核心任务,就是“跳出 Python,拥抱世界”。

在你面前会有多个分支:科学计算和数据分析、爬虫、Web 网站、游戏、命令行实用工具等等等等,这些都不是仅仅知道 Python 语法就能解决的问题。

拿爬虫举例,如果你对计算机网络,HTTP 协议,HTML,文本编码,JSON 一无所知,你能做好这部分的工作么?而你在起步阶段的基础知识也同样重要,如果你连循环递归怎么写都还要查文档,连 BFS 都不知道怎么实现,这就像工匠做石凳每次起锤都要思考锤子怎么使用一样,非常低效。

在这个阶段,不可避免要接触大量类库,阅读大量书籍的。

类库方面

「Awesome Python 项目」:vinta/awesome-python · GitHub

这里列出了你在尝试解决各种实际问题时,Python 社区已有的工具型类库,如下图所示:

请点击输入图片描述

vinta/awesome-python

你可以按照实际需求,寻找你需要的类库。

至于相关类库如何使用,必须掌握的技能便是阅读文档。由于开源社区大多数文档都是英文写成的,所以,英语不好的同学,需要恶补下。

书籍方面

这里我只列出一些我觉得比较有一些帮助的书籍,详细的请看豆瓣的书评:

科学和数据分析:

❖「集体智慧编程」:集体智慧编程 (豆瓣)

❖「数学之美」:数学之美 (豆瓣)

❖「统计学习方法」:统计学习方法 (豆瓣)

❖「Pattern Recognition And Machine Learning」:Pattern Recognition And Machine Learning (豆瓣)

❖「数据科学实战」:数据科学实战 (豆瓣)

❖「数据检索导论」:信息检索导论 (豆瓣)

爬虫:

❖「HTTP 权威指南」:HTTP权威指南 (豆瓣)

Web 网站:

❖「HTML CSS 设计与构建网站」:HTML CSS设计与构建网站 (豆瓣)

...

列到这里已经不需要继续了。

聪明的你一定会发现上面的大部分书籍,并不是讲 Python 的书,而更多的是专业知识。

事实上,这里所谓“跳出 Python,拥抱世界”,其实是发现 Python 和专业知识相结合,能够解决很多实际问题。这个阶段能走到什么程度,更多的取决于自己的专业知识。

¶ 深入阶段

这个阶段的你,对 Python 几乎了如指掌,那么你一定知道 Python 是用 C 语言实现的。

可是 Python 对象的“动态特征”是怎么用相对底层,连自动内存管理都没有的C语言实现的呢?这时候就不能停留在表面了,勇敢的拆开 Python 的黑盒子,深入到语言的内部,去看它的历史,读它的源码,才能真正理解它的设计思路。

这里推荐一本书:

「Python 源码剖析」:Python源码剖析 (豆瓣)

这本书把 Python 源码中最核心的部分,给出了详细的阐释,不过阅读此书需要对 C 语言内存模型和指针有着很好的理解。

另外,Python 本身是一门杂糅多种范式的动态语言,也就是说,相对于 C 的过程式、 Haskell 等的函数式、Java 基于类的面向对象而言,它都不够纯粹。换而言之,编程语言的“道学”,在 Python 中只能有限的体悟。学习某种编程范式时,从那些面向这种范式更加纯粹的语言出发,才能有更深刻的理解,也能了解到 Python 语言的根源。

这里推荐一门公开课

「编程范式」:斯坦福大学公开课:编程范式

讲师高屋建瓴,从各种编程范式的代表语言出发,给出了每种编程范式最核心的思想。

值得一提的是,这门课程对C语言有非常深入的讲解,例如C语言的范型和内存管理。这些知识,对阅读 Python 源码也有大有帮助。

Python 的许多最佳实践都隐藏在那些众所周知的框架和类库中,例如 Django、Tornado 等等。在它们的源代码中淘金,也是个不错的选择。

¶  最后的话

每个人学编程的道路都是不一样的,其实大都殊途同归,没有迷路的人只有不能坚持的人!

希望想学 Python 想学编程的同学,不要犹豫了,看完这篇文章,

Just Getting Started  !!!

优化Python编程的4个妙招

1. Pandas.apply() – 特征工程瑰宝

Pandas 库已经非常优化了,但是大部分人都没有发挥它的最大作用。想想它一般会用于数据科学项目中的哪些地方。一般首先能想到的就是特征工程,即用已有特征创造新特征。其中最高效的方法之一就是Pandas.apply(),即Pandas中的apply函数。

在Pandas.apply()中,可以传递用户定义功能并将其应用到Pandas Series的所有数据点中。这个函数是Pandas库最好的扩展功能之一,它能根据所需条件分隔数据。之后便能将其有效应用到数据处理任务中。

2. Pandas.DataFrame.loc – Python数据操作绝妙技巧

所有和数据处理打交道的数据科学家(差不多所有人了!)都应该学会这个方法。

很多时候,数据科学家需要根据一些条件更新数据集中某列的某些值。Pandas.DataFrame.loc就是此类问题最优的解决方法。

3. Python函数向量化

另一种解决缓慢循环的方法就是将函数向量化。这意味着新建函数会应用于输入列表,并返回结果数组。在Python中使用向量化能至少迭代两次,从而加速计算。

事实上,这样不仅能加速代码运算,还能让代码更加简洁清晰。

4. Python多重处理

多重处理能使系统同时支持一个以上的处理器。

此处将数据处理分成多个任务,让它们各自独立运行。处理庞大的数据集时,即使是apply函数也显得有些迟缓。

关于优化Python编程的4个妙招,青藤小编就和您分享到这里了。如果您对python编程有浓厚的兴趣,希望这篇文章可以为您提供帮助。如果您还想了解更多关于python编程的技巧及素材等内容,可以点击本站的其他文章进行学习。


标题名称:python函数向量化,Python向量化
文章转载:http://myzitong.com/article/hdejoo.html