python 欠采样_8个鲜为人知的Python科学库,用过三个算是高手

news/2024/7/7 20:19:19

32ffac51113d4f521d2f3d3d7680bd09.png

Python作为目前最为流行的编程语言之一,它在数据分析和机器学习领域发挥着十分重要的作用。在大家的日常应用过程中,对于数据的清洗,可视化等等,大都采用例如pandas,scikit-learn,matplotlib等库。但是除了上述的库之外,还有其他的一些数据处理的python库,小编今天就和大家分享一下。

1.Wget

利用Wget从网页链接获取数据是其一个非常重要的应用点,大家只需要输入数据的url地址,就可以将数据进行下载。Wget支持HTTP,HTTPS和FTP协议,大家可以利用Wget快速的下载数据到本地,如下图所示。

ff95bae90be62d36a400cb10a99d39ec.png

程序中,我们将网页中的图片下载到了指定的本地路径内。

2.pendulum

pendulum可以用来对于时间进行处理,它的最大的优点是取代了python内置的datetime类,可以更好的对时间进行处理,使用起来更加的轻松。如下图所示。

de325d4de6b8b9d460bca0b6049c47e5.png

pendulum库对时区进行了精细的调整,确保不同时区的时间准确性,上图中我们输出了北京时间和巴黎时间,并将时间转化成了字符串,然后对时间进行了加减。

3.imbalance-learn

该库是针对于不平衡的数据集进行的数据处理库,它是基于sklearn库开发而成的,因此使用起来跟sklearn有很多相似之处,上手非常的简单。imblearn库主要对不平衡的数据采取欠采样、过采样、联合采样和集成采样四种采样方式。下图程序中,我们利用欠采样对不平衡数据进行采样

8c4ea46f346fb199a1b678d3e1a2286c.png

生成结果如下图。

a16f2a979663746f2568ae8496430aab.png

4.Flashtext

在自然语言处理或者是文本处理中,经常需要将文本数据中得某些关键词进行替换,或者提取句子中的某些关键词。虽然正则表达式可以达到这样的效果,但是如果文本过于庞大,那么正则表达式的匹配就会非常的麻烦。所以利用flashtext可以达到快速搜索的目的。

5c73bd5a3792156ea8cf62577ee74531.png

上述程序中,我们利用flashtext来实现了关键词的提取和置换,首先我们设定了关键词“python”,然后在我们的语句中提取关键词python并显示。,然后我们将“Welcome to”替换成了“from”,并显示了替换后的句子。

5.Fuzzywuzzy

fuzzywuzzy同样也是作用于字符串的处理,当我们进行字符串的匹配时,fuzzywuzzy可以发挥非常大的作用。在GitHub上,fuzzywuzzy已经超过了6600个star。

45e16ab1ced7b9d0670766db3bbfe2bd.png

上述程序中我们分别采用不同的匹配方式来查看不同字符串的匹配程度,然后利用fuzzywuzzy在众多的样本中选取最符合要求的匹配字符串进行返回。

6.pyflux

利用python进行机器学习或者数据分析等,我们处理的数据很多都是随着时间的变化而变化的,例如股票的价格,仪表仪器的测量值等等,在这种情况下,可以利用pyflux来对时间进行处理,pyflusx是为时间序列而开发的python的开源库,可以利用时间序列进行建模,以预测未来的变化趋势,对一些金融方面的数据处理帮助极大。

5c2e2f51ada3eccb8fb07bc33b613314.png

上述程序中,我们首先构建了与时间序列相关的data数据,然后将数据按照时间索引进行转化,由于数据中存在NAN值,我们将其填充为0,然后将数据转化为log形式方便计算,最后利用pyflux的VAR自回归模型来对数据进行拟合。

7.colorama

在进行不同的数据处理时,我们为了区别对待,可以利用不同的颜色进行区别对待,既让我们显示的界面显得比较高端,同时也方便我们对不同的模块进行区别。

a2a7dd4e8056ce6147b268ef00e46a9a.png

上述程序中我们利用不同的颜色对输出数据进行显示。

8. uuid

大家在对数据进行记录的时候,可能需要对数据标定一个id来作为这个数据的唯一标识符,这需要保证各个id之间不能相同,此时就可以利用uuid生成不同的id。uuid其实就是唯一标识符,它通过MAC地址、时间戳、命名空间、随机数和伪随机数来确保id的唯一性。

997a49bc5b0f62fb0ec69820855b30d8.png

上述的程序中,利用uuid生成了10个id序列,从结果可以看出,各个结果都是不相同的。

来来来,大家留言吱一声,用过几个,我先说一下,我就知道第一个和最后一个!

近期热门:

火爆全网!这个 Python 项目很骚气!

你必须掌握的20个python代码,短小精悍,用处无穷

Python 最强编辑器详细使用指南!

45668b29ea3a40d188302bedb6294719.png


http://www.niftyadmin.cn/n/4261567.html

相关文章

问题-让人开始慢慢的思考

做了一天的程序方面的东西,思维开始飘了架构在xml上面的东东真是不好说呀 , 庞大 复杂嗨 微软的东西只能用微软的编辑,自己稍微的改一下, 就用不了了...架构要好,就要考虑到设计模式了, 有两种思想 ,一种是网站常用的思想,属于普及型的, 另一种是实验室型的,23种设计模式,我都不…

python执行函数是语句吗_python执行js语句,无函数返回值

有时候在JS代码里面抠出部分语句,但是不是一个函数。如下面的一段JSvar radra27radra27 "D";var ra72419ra91ra72419ra91 "7.241.9" ".";var raurst500ra63raurst500ra63 "urst500";var ravalidtora49ravalidtora49 &…

[导入]Ajax,一个全新的Web设计思想 -- Ajax的4项基本原则

摘录:<Ajax实践 P23> " 我们为自己设定的目标是:通过Web浏览器交付具有良好可用性的独占应用,以满足提高用户的生产力和通过网络来共享数据两方面的需要,同时还具备Web应用集中维护的优点.为了成功地实现这一目标,我们需要以一种完全不同的方式来思考Web页面和应用…

matlab的三条线如何区分,k线图中的三条线是什么 如何通过这3条线看买入还是卖出...

图形态可分为反转形态、整理形态及趋向线等。后K线图因其细腻独到的标画方式而被引入到股市及期货市场。股市及期货市场中的K线图的画法包含四个数据&#xff0c;即开盘价、最高价、最低价、收盘价&#xff0c;所有的k线都是围绕这四个数据展开&#xff0c;反映大势的状况和价格…

Visual Basic 2005——如何将Windows Form表单模拟成一个IE浏览器

在撰写「Visual Basic 2005程序开发与界面设计秘诀」一书时突发奇想&#xff0c;是不是可以将Windows Form表单模拟成一个IE浏览器呢&#xff1f;其实在有了WebBrowser控制项之后&#xff0c;这样的想法不难达成。不过问题在于&#xff0c;我们如何取得电脑中的「收藏夹」信息&…

包含的前缀数目超过了最大值。最大值为 2_动画 | 什么是红黑树?(基于2-3树)...

学习过2-3树之后就知道应怎样去理解红黑树了&#xff0c;如果直接看「算法导论」里的红黑树的性质&#xff0c;是看不出所以然。我们也看看一颗二分搜索树满足红黑的性质&#xff1a;1.每个节点或是红色的&#xff0c;或是黑色的&#xff1b;2.根节点是黑色的&#xff1b;3.每个…

Spring Cloud Config 加密和解密

2019独角兽企业重金招聘Python工程师标准>>> 要使用加密和解密功能&#xff0c;您需要在JVM中安装全面的JCE&#xff08;默认情况下不存在&#xff09;。您可以从Oracle下载“Java加密扩展&#xff08;JCE&#xff09;无限强度管理策略文件”&#xff0c;并按照安装…

串口 发送 接收 高位_浅谈串口通讯的起始、数据、停止位是怎么分配的?

浅谈串口通讯的起始、数据、停止位是怎么分配的?串口是串行接口(serial port)的简称&#xff0c;也称为串行通信接口或COM接口。串口通信是指采用串行通信协议(serial communication)在一条信号线上将数据一个比特一个比特地逐位进行传输的通信模式。串口按电气标准及协议来划…