原文:AskPython Blog
协议:CC BY-NC-SA 4.0
原文:https://www.askpython.com/python-modules/data-science-libraries
读者朋友们,你们好!在本文中,我们将详细关注 5 Python 数据科学库。
所以,让我们开始吧!!🙂
Python 是一种强大的编程语言,它为我们提供了大量面对模块的不同功能。
特别关注数据科学领域,python 是最合适的工具之一,原因如下
- 为各种数据科学任务提供服务的内置库。
- 各种开发模块可供使用。
- 出色的内存管理功能。
- 复杂任务处理算法。
牢记以上优点,Python 可以作为处理和解决数据科学问题的强大工具。
它包含各种模块来解决数学计算问题和处理数据值。
在该主题的背景下,我们将了解以下模块,它们为数据科学提供了强有力的支持
- NumPy
- 熊猫
- SciPy
- 【matplot lib】
- 美汤
Python Pandas 模块可以认为是数据科学领域中数据分析的关键项目之一。在解决任何与数据科学相关的问题时,主要任务是清理和处理数据,并使其可用于建模。
Pandas 模块提供了一个名为 DataFrame 的数据结构,它以行和列的形式表示数据。它还为我们提供了一系列数据结构来构建数据以供分析。
熊猫可以被认为是当今最强大的数据分析模块之一。它为我们提供了内置的功能来执行基本的数据清理,如缺失值分析、异常值分析等。它还支持数据列的合并,以提高性能。
Python NumPy 模块是几乎所有其他库的基础,尤其是在数学计算方面。它为数据值的统计分析启用并支持强大的数学计算。
数学计算是 NumPy 模块提供的统计分析的基础。它为我们提供了多维数组来处理统计数据。它还为我们提供了各种内置函数来执行数据清理和计算。
NumPy 还支持互操作性。
Python SciPy 库主要构建在 NumPy 库之上。它完成了大部分与数据建模相关的高级计算。SciPy 库帮助我们实现数据的统计分析、代数计算、算法优化等。
有了 SciPy,我们甚至可以对它进行并行计算。它包含回归、概率等数据科学操作的函数。
简而言之,所有关于统计、建模和代数的高级计算都可以由 SciPy 模块轻松完成。
有了数据分析和建模,就有了可视化。数据可视化是数据科学中最强的概念之一。它为分析提供了一个界面,使数据易于理解。
Python Matplotlib 模块为我们提供了各种将数据可视化的功能。它使我们能够通过 Python 脚本创建二维/三维图形和结构。
它为直方图、条形图、等高线图等图形提供了广泛的结构。
到此,我们就结束了这个话题。如果你遇到任何问题,欢迎在下面评论。
更多与 Python 编程相关的帖子,请继续关注我们。
在那之前,学习愉快!!🙂
原文:https://www.askpython.com/python/data-science-projects
您是否曾经被互联网上出现的大量数据科学概念和项目淹没,不知道从哪里开始?如果您曾经有过这样的感觉,不要担心,您来对地方了,因为我们已经为您提供了保障。
我们知道数据科学是一个新兴领域,互联网上有无限的数据科学内容。但我们也知道,数据科学的初学者希望从零开始,这就是为什么在本文中,我们编译了一些初级水平的数据科学项目以及一些稍微高级一点的项目。让我们开始您的数据科学之旅吧!
1.乳腺癌分类
乳腺癌是女性中最常见和最普遍的癌症之一。在过去的几十年里,机器学习技术已经广泛用于医疗保健应用,尤其是乳腺癌诊断和预后。
众所周知,癌症的早期检测可以帮助患者及时得到适当的治疗,也可以增加他们的生存机会。此外,正确识别肿瘤类型可以防止患者经历无效的治疗过程。
对于这种类型的分类项目,您可以利用机器学习中的朴素贝叶斯算法。您可以使用 Scikit-learn 提供的乳腺癌数据集,也可以使用 Kaggle 的数据集进行乳腺癌分类。
注意:为了评估您的模型的性能,您需要在不可见的数据上测试模型。按照 80:20 的比例拆分数据集,以创建定型集和测试集。您可以使用 Scikit-learn 中的 accuracy_score()函数来检查模型的准确性。
数据:https://www . ka ggle . com/niteshyadav 3103/乳腺癌-分类
2.汽车价格预测
您可以使用 PyTorch 的线性回归模型创建汽车价格预测模型。PyTorch 是 python 中一个非常灵活的库,用于构建深度学习模型。这个项目将帮助你强化你建立深度学习模型的概念。
在开始构建模型之前,请确保清理数据集,这意味着过滤数据并删除对预测影响不大的列。此外,请记住,对于此项目,您将使用 PyTorch,因此为了使用数据进行训练,您需要将数据框转换为 PyTorch 传感器。
为此,首先,应该将输入和输出列转换为 NumPy 数组,然后将 NumPy 数组转换为 PyTorch 张量。之后,您可以继续使用 PyTorch 构建线性回归模型。
数据:https://www . ka ggle . com/goyalshalini 93/car-price-prediction-linear-regression-rfe
3.假新闻检测
这年头网上到处都是假新闻。如今,不计其数的新闻媒体和新闻机构已经开业,而且由于互联网的便捷性,这些媒体机构发布假新闻变得更加容易。假新闻检测模型可以帮助我们检测假新闻,并将其从互联网上删除。
这个项目可以使用逻辑回归模型。您可以使用逻辑回归算法来训练和测试您的模型。作为数据清理的一部分,删除丢失的值并将所有文本合并在一起。
数据:https://www.kaggle.com/therealsampat/fake-news-detection
4.具有机器学习的聊天机器人
你知道你可以用机器学习来制作你自己的聊天机器人吗?多酷啊!您可以为此下载数据集,也可以创建自己的数据集。取决于你想在哪个领域构建你的聊天机器人,你首先需要理解你的聊天机器人的意图,并基于这些意图来训练你的数据。
为了制作自己的数据集,你必须了解用户的意图,或者用户可能如何与聊天机器人交互,或者用户可能会问聊天机器人什么问题。
聊天机器人要想继续回答用户的问题,理解用户在这些信息背后的真实意图是至关重要的。在这里你必须运用一点策略。您必须创建不同的意图,并为每个意图创建训练样本。然后,您的聊天机器人模型将根据您创建的样本训练数据进行训练。
5.空气质量指数分析
政府机构经常使用空气质量指数来指示空气污染水平或由于空气中的颗粒物质而可能存在的健康风险。它的范围是 0-500。AQI 值小于或等于 100 被视为良好。
AQI 中有六个类别来表示不同类别的健康问题。对于这个项目,你需要首先想象和理解 AQI 中每种颜色的意义。颜色表示每个地区的空气质量及其危害程度。虽然这个项目有点超前,但它将为您的数据科学之旅增加额外的优势。
数据:https://www . ka ggle . com/piumallick/air-pollution-analysis-on-air-quality-index
6.Python 中的情感分析
情感分析是一种通过分析一段文本来理解隐藏在其中的情感的方法。换句话说,它允许你决定一段文字的感受。在这个过程中,您将同时使用机器学习和 NLP 技术。对于这个项目,您需要构建一个二进制文本分类器来理解其背后的情感。自然语言处理技术将被用来清理数据和建立 LSTM 层的文本分类器。
数据:https://www . ka ggle . com/ngy ptr/python-nltk-情操-分析/数据
获得许多有趣的真实世界数据科学项目的实际工作经验,如销售增长仪表板、房地产投资等。,你可以加入一个数据科学训练营。
该训练营由行业专家在所有项目中提供完整的指导。这些项目可以帮助你的投资组合从竞争中脱颖而出,也可以为你提供行业曝光率。
在本文中,您了解了 python 中一些潜在的数据科学项目,这些项目将有助于提升您的数据科学组合和数据科学知识。用所提供的数据集完成这些项目,并尝试分析结果,从数据中获得洞察力。
原文:https://www.askpython.com/python/data-structures-in-python
在任何编程语言中,我们都需要处理数据。现在,我们需要处理数据的最基本的事情之一是以一种有组织的方式有效地存储、管理和访问数据,以便可以随时根据我们的需要使用数据。数据结构被用来满足我们所有的需求。
数据结构是编程语言的基本构件。它旨在提供一种系统的方法来满足本文前面提到的所有需求。Python 中的数据结构有列表、元组、字典、集合。它们被视为 Python 中的隐式或内置数据结构。我们可以使用这些数据结构并对其应用多种方法来管理、关联、操作和利用我们的数据。
我们还有自定义的数据结构,即自定义的即 栈、队列、树、链表和图 。它们允许用户完全控制其功能,并将其用于高级编程目的。然而,对于本文,我们将关注内置的数据结构。
Implicit Data Structures Python
列表帮助我们以多种数据类型顺序存储数据。它们类似于数组,只是它们可以同时存储不同的数据类型,如字符串和数字。列表中的每个项目或元素都有一个指定的索引。由于 Python 使用基于 0 的索引,第一个元素的索引为 0,计数继续进行。列表的最后一个元素从-1 开始,可以用来访问从最后一个到第一个的元素。要创建一个列表,我们必须将项目写在方括号内。
关于列表要记住的最重要的事情之一是它们是可变的。这仅仅意味着我们可以通过使用索引操作符作为赋值语句的一部分直接访问列表中的元素来改变它。我们还可以在我们的列表上执行操作来获得想要的输出。让我们浏览一下代码,以便更好地理解列表和列表操作。
1。创建列表
输出
2。从列表中访问项目
输出
3。向列表添加新项目
输出
4。移除项目
输出
输出
5。排序列表
输出
输出
6。查找列表的长度
输出
元组与列表非常相似,关键区别在于元组是不可变的,不像列表。一旦我们创建了一个元组或者拥有了一个元组,我们就不允许改变其中的元素。然而,如果我们在一个元组中有一个元素,它本身就是一个列表,只有这样我们才能在这个列表中访问或更改。为了创建一个元组,我们必须在括号中写入条目。像列表一样,我们也有类似的方法可以用于元组。让我们通过一些代码片段来理解使用元组。
1。创建元组
输出
2。从元组中访问项目
输出
3。元组的长度
输出
4。将元组转换为列表
输出
5。反转一个元组
输出
6。对元组进行排序
输出
7。从元组中移除元素
为了从元组中删除元素,我们首先将元组转换为一个列表,就像我们在上面的一个方法中所做的那样(第 4 点),然后遵循列表的相同过程,并显式删除整个元组,只需使用del 语句。
Dictionary 是一个集合,简单地说就是用来存储带有某个键的值,并提取给定键的值。我们可以将其视为一组键:值对和字典中的每个键都应该是唯一的,这样我们就可以相应地访问相应的值。
使用包含键:值对的花括号{ } 来表示字典。字典中的每一对都用逗号分隔。字典中的元素是无序的当我们访问或存储它们时,顺序并不重要。
它们是可变的,这意味着我们可以在字典中添加、删除或更新元素。下面是一些代码示例,以便更好地理解 python 中的字典。
需要注意的重要一点是,我们不能使用可变对象作为字典中的键。因此,列表不允许作为字典中的键。
1。创建字典
这里,整数是字典的键,与整数相关的城市名是字典的值。
2。从字典中访问项目
输出
3。字典的长度
输出
4。整理字典
输出
5。 在字典中添加元素
输出
6。从字典中删除元素
输出
Set 是 python 中的另一种数据类型,它是一个没有重复元素的无序集合。集合的常见用例是删除重复值和执行成员测试。花括号或 功能可用于创建集合。需要记住的一点是,在创建空集时,我们必须使用 、和 。后者创建一个空字典。
下面是一些代码示例,以便更好地理解 python 中的集合。
1。创建一个 集合
输出
2。从集合中访问项目
输出
3。集合长度
输出
4。对器械包进行分类
输出
5。 在集合中添加元素
输出
6。从集合中移除元素
输出
在本文中,我们介绍了 python 中最常用的数据结构,也看到了与它们相关的各种方法。
- Python 中的列表
- Python 字典
- Python 中的元组
- Python 集合
请查看 Python 数据结构的官方文档,其中包含了关于 Python 数据结构的详尽信息。
原文:https://www.askpython.com/python-modules/data-visualization-using-python-bokeh
在本文中,我们将研究使用 Python 散景的数据可视化。
Bokeh 允许用户接收任何格式的数据,如 CSV、JSON、硬编码数据或数据库。我们可以使用这个库创建散点图、折线图等。它在业内被广泛用于股票市场分析,因为它非常容易与不同的 web 框架(如 JS、Django 和 HTML)集成。
请继续阅读这篇文章,了解散景的用法
- 交互:Bokeh 是一个非常具有交互性的库,除了静态绘图之外,它还提供了图形交互的功能。
- 强大的库:Bokeh 是一个强大的库,因为它允许为用例添加 JavaScript。
- 可移植性:散景图的输出可以在任何 web 框架上呈现,比如 Django 和 Python,也可以在 Jupyter 笔记本上呈现。
- 灵活:易于绘制定制和复杂的用例。
- 与其他流行工具的交互:允许与 pydata 工具轻松交互,如 Pandas 和 Jupyter notebook。
Bokeh Is Interactive
每当我们使用 python 做任何事情时,创建一个虚拟环境是一个很好的实践,最好的方法是运行命令。一旦你运行这个命令,你就可以访问命令,并且可以运行。这确保了虚拟环境的设置。
现在可以使用虚拟环境安装散景和 Python 熊猫。您可以使用以下命令:
我们将使用 pandas,因为这个库允许我们以数据帧的形式读取 CSV 文件。
1.绘制线图
在从 CSV 文件开始绘制图表之前,我们将带您浏览绘制简单折线图的过程,让您熟悉散景。
- 模块将帮助用户创建地块。
- 将定义要生成的 HTML 文件的名称。
- 模块将生成并显示 HTML 文件。
对于数据,我们只创建两个列表-[1,2,3,4,5]和[4,3,3,5,4]。
这些点有(1,4),(2,3),(3,3),等等。
我们使用上面的代码将输出文件设置为。
我们使用图()来创建情节。数字()包含多个属性。有关详细信息,您可以参考本模块的文档。
我们将使用、和。
现在来渲染字形,我们将使用上面的代码片段。我们指定前面定义的两个列表和。我们还指定了其他参数,如和。
请注意,这里使用这些参数是因为我们使用的是图。对于其他类型的图表,这些参数往往会有所不同。
我们使用函数显示结果,结果显示在上,如下所示。还附上了完整的代码。
Output Chart Shown On index.html
2.从 CSV 文件绘制图形
为了绘制图表,我们将使用一个简单的汽车数据集,它有两列,即汽车名称和马力。我们将使用图表来理解这些参数之间的相关性。数据集如下所示
Dataset
可以使用散景将上述数据集绘制成直方图(hbar ),其代码如下:
在上呈现的输出如下:
Graph Output
因此,我们来到这篇文章的结尾。Bokeh 是一个强大的数据可视化库,可以用于所有项目。一定要试试这篇文章中的例子,并在下面的评论区告诉我们你的感受。
原文:https://www.askpython.com/python-modules/data-visualization-using-streamlit
数据可视化是以图形格式表示数据。这有助于我们更好、更容易地理解数据。数据可视化可以在图表、图形、地图等视觉元素的帮助下进行。
在本教程中,我们将学习如何使用 Streamlit 绘制不同的图表。让我们开始吧!
亦读:细流简介
它是通过将一系列数据点连接成一条连续的线而执行的信息的图形表示。它是数据可视化技术的最简单形式之一。
输出:
Streamlit Line Chart
在这里,我们采用了一些任意数据,首先使用熊猫库创建了一个数据框,然后使用函数绘制了图表。我们还在绘制图表之前显示了数据框,以便快速参考。
也读:使用 Streamlit 的计算器 App 简单的分步方法
条形图以垂直或水平矩形条的形式表示数据。每个条形的高度与其代表的值成比例。Streamlit 提供了一个函数来绘制数据可视化条形图。
输出:
Streamlit Bar Chart
由于数据框包含 5 行,因此输出中的每一行都有对应的条形。这些条形包含特定行中每列值的分布,并且每列用不同的颜色表示。
也读作:使用 Streamlit 部署机器学习模型——房价预测 GUI
面积图是折线图和条形图的组合。数据点被绘制出来,然后用线连接起来。然后,线下面的区域被着色。类似地,也绘制其他值,然后给该区域着色,得到分层图表。我们可以使用 Streamlit 的函数绘制这样一个图表。
输出:
Streamlit Area Chart
这里,数据框中每列的区域用不同的颜色表示,如上图所示。根据所提供的数据,有些领域也有重叠。
也可以理解为:Streamlit 中的主题化——定制 Streamlit 应用外观的两种方法
作为数据可视化的一部分,我们还可以在 Streamlit web 应用程序中显示地图。Streamlit 中的功能可以帮助您显示上面有数据点的地图。我们可以使用列名“lat”或“latitude”来表示纬度,使用“lon”或“longitude”来表示经度。需要将这些列添加到要绘制的数据中以绘制地图。
输出:
Streamlit Map Data
Streamlit Map
此示例中的数据包含印度一些城市的位置,如上图所示。这张地图用红点标出了这些特定的城市。在这里,当我们运行 Streamlit 应用程序时,地图也可以放大和缩小。
请注意,Streamlit 允许我们将这些图表保存为“SVG”或“PNG ”,并使用 Vega 编辑器进行编辑。此外,所有的视觉元素也可以放大和缩小。
仅此而已!我们已经学习了如何使用 Python 和 Streamlit 执行数据可视化。使用 Streamlit 的另一种数据可视化方式是使用 Python 库,如 Matplotlib 、 Plotly 、 Bokeh 等。你可以在同一个网站上查看我们的教程来了解它们。
- 简化官方文档
原文:https://www.askpython.com/python-modules/pandas/dataframe-in-html
在本文中,我们将讨论熊猫模块中的一些核心功能。如果一些数据科学爱好者正在阅读这篇文章,那么他们这次得到了一篇易于阅读的文章。但是,那些不熟悉 Python 和 Pandas 的人需要一些关于这个 Python 包的核心知识。
我们的任务是学习如何将一个基本的数据帧转换成 HTML 格式。我们将在本文中介绍以下步骤:
- 在 Pandas 中创建/导入基本数据框。
- 打印它的信息。
- 将其转换成 HTML 格式。
- 如何处理这种格式?
- 如何在浏览器中查看?
1.在 Pandas 中创建基本数据框
Pandas 中的数据框是相互连接的数据元素的表格表示。一个方面的变化反映在另一方面。因此,要创建它,我们需要将一个 Python 字典传递给 pd。DataFrame()函数和我们的工作便于进一步处理。
Creates a basic dataframe that holds student data
代码解释:
- 导入熊猫模块
- 创建一个包含 4 列的简单 Python 字典:
- 名字
- 卷号
- 分开
- 百分率
- 将字典传递给 DataFrame()函数。给它分配一个变量作为数据。
- 然后调用这个变量,它会以表格格式打印出来。
2.打印基本信息
然后试着打印这个数据框的基本信息。这对于使用 dataframe.describe 方法来说很简单。
Displaying the basic info of the data frame
2.将其转换为 HTML 格式
Pandas 模块有一个 HTML 函数,可以在相应的代码中传递给定的数据帧。这个函数的名字是 to_html() 。这个函数的主要优先级是我们需要使用点(’ . '来调用它)运算符与我们各自的数据框名称。 *举例:*data frame . to _ html()。让我们把这一点也应用到我们的问题上。
代码解释:
- 创建 data_html 变量。在这个过程中,调用与我们的数据帧相关的 to_html 函数。
- 称之为变量。
这会生成以下 HTML 格式的代码:
因此,我们已经成功地将我们的熊猫数据帧转换为 HTML 格式。
4.如何处理这种格式?
现在可能会出现一个问题,这种格式有什么用。
我们可以将它插入我们的网页或任何我们想显示目录的网站。
事实上,任何想要以表格形式显示部分数据的人都不需要创建这么大的 HTML 代码。他只需用 Python 写几行代码,他的工作就结束了。
5.如何在浏览器中查看?
这是 HTML 代码,所以我们需要知道它的输出是什么。所以,我们可以让事情变得更简单。
- 将这段代码复制并粘贴到原始文档中,并将扩展名保存为。html 。
- 然后在你喜欢的浏览器中打开它。
- 这是输出:
Pandas To HTML
这样,我们网站的表格就准备好了。
就是它!我希望你通过这篇文章学到了一些有趣的概念。现在就开始探索,让我们知道你的想法!
https://www . ask python . com/python-modules/pandas/read-text-file-pandas https://www . ask python . com/python-modules/pandas/pandas-shape-attribute
原文:https://www.askpython.com/python-modules/pandas/dataframe-indexing
读者你好!在本教程中,我们将讨论在 Python 中设置熊猫 DataFrame 对象索引的不同方法。
在 Python 中,当我们使用在 Pandas 模块中自动(默认)定义的函数创建一个 Pandas 数据帧对象时,会生成行索引和列索引形式的地址,以表示数据帧中被称为索引的每个数据元素/点。
但是,行索引称为数据帧的索引,列索引简称为列。Pandas DataFrame 对象的索引唯一地标识它的行。让我们开始关于在 Python 中设置 Pandas DataFrame 对象的索引的不同方法的核心讨论。
在 Python 中,我们可以在使用参数创建数据帧时设置它的索引。在这个方法中,我们创建一个 Python 列表,并将其传递给其索引的函数的参数。让我们通过 Python 代码来实现这一点。
输出:
在 Python 中,我们可以通过以下方式轻松地将 Pandas DataFrame 对象的任何现有列设置为其索引。
1.将列设置为索引(不保留列)
在这个方法中,我们将使用参数,它是 Python Pandas 模块的函数的可选参数。默认情况下,参数的值为。但是这里我们将把的值设为。以便数据帧的旧索引被现有列替换,该列已作为新索引传递给函数。让我们通过 Python 代码来实现这一点。
输出:
2.将列设置为索引(保留该列)
在这个方法中,我们将使用参数,它是 Python Pandas 模块的函数的可选参数。默认情况下,参数的值为。但是这里我们将把参数的值设置为。以便已被设置为新索引的列不会从数据帧中删除。让我们通过 Python 代码来实现这一点。
输出:
3.将多个列设置为数据帧的索引
在这个方法中,我们可以将 Pandas DataFrame 对象的多列设置为其索引,方法是创建 DataFrame 的列名列表,然后将其传递给函数。这就是为什么在这种情况下,该指数被称为多指数。让我们通过 Python 代码来实现这一点。
输出:
在 Python 中,我们可以通过以下方式将任何 Python 对象如列表、或系列设置为 Pandas DataFrame 对象的索引。
1.Python 列表作为数据帧的索引
在这个方法中,我们可以使用、和函数来设置熊猫数据帧对象的索引。首先,我们将使用函数创建一个 Python 数字序列,然后将其传递给返回 DataFrame 索引对象的函数。然后,我们将返回的 DataFrame index 对象传递给函数,将其设置为 DataFrame 的新索引。让我们通过 Python 代码来实现这一点。
输出:
2.Python 范围作为数据帧的索引
在这个方法中,我们可以使用和函数设置 Pandas DataFrame 对象的索引。首先,我们将创建一个 Python 列表,然后将其传递给返回 DataFrame 索引对象的函数。然后,我们将返回的 DataFrame index 对象传递给函数,将其设置为 DataFrame 的新索引。让我们通过 Python 代码来实现这一点。
输出:
3.Python 系列作为数据帧的索引
在这个方法中,我们可以使用和函数设置 Pandas DataFrame 对象的索引。首先,我们将创建一个 Python 列表并将其传递给函数,该函数返回一个可用作 DataFrame 索引对象的 Pandas 系列。然后,我们将返回的 Pandas 系列传递给函数,将其设置为 DataFrame 的新索引。让我们通过 Python 代码来实现这一点。
输出:
在这个方法中,我们将使用参数,它是 Python Pandas 模块的函数的可选参数。默认情况下,参数的值为。但是这里我们将把 append 参数的值设置为。从而数据帧的旧索引被传递给函数的新索引所附加。让我们通过 Python 代码来实现这一点。
输出:
在本教程中,我们学习了以下内容:
- 熊猫数据帧对象的索引是什么?
- 如何在创建数据帧时设置索引?
- 如何将 DataFrame 的现有列设置为索引或多索引?
- 如何将列表、范围或熊猫系列等 Python 对象设置为索引?
- 如何设置新的索引保持旧的?
原文:https://www.askpython.com/python-modules/pandas/dataframe-insert-function
在本文中,我们将看到数据框架。 insert() 功能来自熊猫。该函数用于列转换技术。所以,让我们马上开始吧!
熊猫图书馆是收集数据并将其呈现给用户的最重要的图书馆之一。这个 API 建立在 matplotlib 和 NumPy 库的基础上,这表明它是纯 Python 制作的。从读取复杂和巨大的数据集到对它们进行统计分析,这个软件包学习和使用都非常简单。
什么是数据帧?
数据帧的概念对熊猫用户来说并不陌生。它是以表格格式表示数据的行和列的集合。就像普通的一样,但是我们可以使用一些代码行修改表格的每个单元格。这节省了大量的工作时间,因为我们不需要在整个表中搜索该元素。
我们将创建一个样本数据集,然后进一步实现。要创建一个,必须给它一个字典,字典中有键形式的列和值形式的行。
代码:
输出:
Creating a sample datafame
现在我们已经准备好了基本数据集,让我们检索一些关于它的信息。
从熊猫数据框架中获取基本信息
代码:
输出图像:
Basic information about the dataframe
使用 dataframe.insert()函数添加列
我们将在数据帧中插入列。insert 函数用于显式地放置任何列及其值。这方面的文件如下:
这个函数有一个非常简单的语法:
说明:
- loc =要插入列的数据帧的索引位置。
- column =我们要插入的列的名称
- value =该列显示的所有值
- allow_duplicates =该属性用于在数据帧中放置重复的列
有两种方法可以使用这个函数。
- 直接调用函数并给它所有的参数。
- 使用功能方法( 推荐 )
1.直接调用 dataframe.insert()函数
在本例中,我们将通过直接调用 dataframe 来添加一列。这是一个学生数据库,所以我们将尝试在其中添加标记列。
代码:
输出:
Mark column added to the dataframe
说明:
- 我们为新的“标记”列创建一个名为“ mrk_list ”的列表。它将用于 values 参数。
- 然后我们使用点号-. "调用 insert()函数。操作员用我们的数据框。然后,我们在第三个索引中指定新列的位置。
- 我们给出列的名称。然后我们将值指定为 mrk_list。通过这种方式,我们将学生分数添加到数据集中。
- 注意:当以列表形式传递值时,确保不超过主数据帧 的指标值
整体理解的代码
3.使用显式函数寻找更好的方法
我们可以根据需要调用这个函数,只需要改变它里面的参数。它将保存四个参数。
- 数据帧
- 列名
- 位置索引
- 价值观念
代码:
输出:
The create_column() function and respective inputs for parameters
Joining month column added at the 2nd index of the dataframe
说明:
- 首先我们创建一个函数作为 create_column() 。
- 它有四个参数
- 数据帧
- 列名
- 列位置
- 值–列的输入值数组
- 像添加新列一样在其中添加一条消息。
- 然后,我们调用 insert()函数,并在其中给出所有这些参数。并返回新数据集的头部。
- 当过程结束时,我们打印一条消息,显示为“创建并添加了列!!!"。
在这里,我们得出这个题目的结论。该功能的使用非常简单。我们只需要知道它是如何工作的,然后我们就可以根据我们的需要来使用它。
原文:https://www.askpython.com/python-modules/pandas/dataframe-rows-and-columns
在本文中,让我们看看如何使用 Python 创建类似表格的结构,以及如何处理它们的行和列。当我们创建需要处理大量数据的数据科学应用程序时,这将非常有用。让我们看看如何使用 Python 执行基本功能,比如创建、更新和删除行/列。
Python 作为一种广泛用于数据分析和处理的语言,有必要以结构化的形式存储数据,比如以行和列的形式存储在我们的传统表格中。我们使用 python 的 Pandas 库中的 DataFrame 对象来实现这个。在内部,数据以二维数组的形式存储。让我们在本文中了解更多关于 DataFrame 行和列的知识。
让我们通过一个例子来学习创建一个简单的数据框架。
让我们看看如何在 python 中选择所需的列。假设我们有一个数据帧,如上例所示。我们可以通过它们的列来选择所需的列。
上面的代码将只打印“MathScore”列的值。
现在,有时,我们可能希望添加更多的列作为数据收集的一部分。我们可以通过声明一个新的列表并将其转换为 data frame 中的一列,向数据框中添加更多的列。
我们可以在 pandas 数据帧中使用 drop()方法来删除特定的列。
现在,列“名称”将从我们的数据框架中删除。
现在,让我们试着理解在行上执行这些操作的方法。
要从数据帧中选择行,我们可以使用 loc[]方法或 iloc[]方法。在 loc[]方法中,我们可以使用行的索引值来检索行。我们还可以使用 iloc[]函数来检索使用整数 location to iloc[]函数的行。
在上面的代码中,我们将 CSV 文件作为 dataframe 加载,并将列“Name”指定为其索引值。稍后,我们使用行的索引来检索它们。
要在数据帧中插入新行,我们可以在数据帧中使用 append()函数、concat()函数或 loc[]函数。
我们可以使用 drop()方法删除行。我们必须将行的索引值作为参数传递给方法。
因此,在本文中,我们讨论了在 python 中处理行和列的各种方法。一般来说,数据框是 Python 中的二维结构,我们可以用它来存储数据和执行各种其他功能。
在此找到 data frames-https://pandas.pydata.org/docs/reference/api/pandas.的官方文档 DataFrame.html
原文:https://www.askpython.com/python-modules/pandas/dataframes-in-python
熊猫数据框是一个美丽的东西。Python 中的 DataFrames 使得数据处理非常用户友好。
您可以使用 Pandas 导入大型数据集,然后有效地操作它们。你可以很容易地将 CSV 数据导入熊猫数据帧。
Dataframes 是一种二维标签数据结构,其列可以是不同的类型。
您可以使用数据框架进行各种分析。
数据集通常太大,不可能一次查看整个数据集。相反,我们希望看到数据帧的摘要。
在 summary 下,我们可以获得数据集的前五行,还可以获得数据的快速统计摘要。除此之外,我们还可以获得数据集中列的类型信息。
在本教程中,我们将学习如何在 Python 中显示数据帧的这种摘要。
在本教程中,我们将使用加州住房数据集作为样本数据集。
1.在熊猫数据框架中导入数据集
让我们从将数据集导入熊猫数据框架开始。
要将数据集导入 Pandas 数据框架,请使用以下代码行:
这将把数据集作为数据帧存储在变量*‘housing’*中。
现在,我们可以看看不同类型的数据汇总,这是我们在熊猫身上可以得到的。
2.获得前 5 行
首次导入数据集后,数据科学家通常会查看数据帧的前五行。它给出了数据大概的样子。
要输出数据帧的前五行,请使用以下代码行:
当您运行以下行时,您将看到如下输出:
Head
下面给出了显示数据帧前五行的完整代码。
3.获取统计摘要
要获得数据帧的统计摘要,您可以使用。描述()熊猫提供的方法。
显示统计摘要的代码行如下:
运行这行代码将产生以下输出。
Describe
完整的代码如下:
输出显示数量,如平均值、标准偏差、最小值、最大值和百分位数。您可以对以下所有示例使用相同的代码,并且只替换每个示例中提到的函数名。
3.获得数据的快速描述
要获得表中数据类型的快速描述,可以使用。熊猫提供的 info() 方法。
您可以使用下面一行代码来获得描述:
输出如下所示:
Info
对于数据集的每一列,输出都包含一行。对于每个列标签,您可以获得非空条目的计数和条目的数据类型。
了解数据集中列的数据类型可以让您在使用数据为模型定型时做出更好的判断。
4.获取每列的计数
您可以使用直接获得每一列中的条目数。计数()【熊猫法】。
您可以使用此方法,如下面的代码行所示:
输出如下所示:
)
显示每列的计数可以告诉您数据中是否有丢失的条目。随后,您可以计划您的数据清理策略。
获取数据集中每一列的直方图
Pandas 允许您在一行代码中显示每一列的直方图。
要显示直方图,请使用以下代码行:
运行上面的代码后,我们得到如下输出:
Hist
数据科学家经常使用直方图来更好地理解数据。
本教程是关于 Python 中数据帧的不同类型的快速总结。希望你和我们一起学习愉快!
原文:https://www.askpython.com/python-modules/datetime-module-examples
在 Python 中,有一个叫做的模块,它允许我们处理日期和时间。它包含年、月和日格式的日期以及小时、分钟和秒格式的时间。本教程将向您展示如何使用这个模块。
在模块中,日期以下列格式表示:
时间用以下格式表示:
| 操作 | 意为 |
| d1>d2 | 在日历中,d1 在 d2 之后 |
| d1 | 在日历中,d1 在 d2 之前 |
| d1==d2 | d1 与 d2 相同 |
Date Comparison
同样,考虑两个时间:t1 和 t2。
| 操作 | 意为 |
| t1>t2 | 在时钟中,t1 在 t2 之后 |
| t1 | 在时钟中,t1 在 t2 之前 |
| t1==t2 | t1 与 t2 相同 |
Time Comparison
让我们直接进入使用日期时间模块的例子。
1.获取今天的日期
输出:
日期以 yyyy-mm-dd 格式表示。
2.获取当前时间
输出:
时间以 hh:mm:ss 格式表示。
1.检查一个日期是否大于另一个日期
输出:
这里,日期 1 是 2022 年 5 月 15 日,日期 2 是 2022 年 4 月 15 日。由于日历中日期 1 在日期 2 之后,所以输出为真。
2.检查一个日期是否小于另一个日期
输出:
在本例中,日期 1 还是 2022 年 5 月 15 日,日期 2 是 2022 年 11 月 16 日。由于在同一日历年中“五月”在“十一月”之前,所以输出为真。
3.检查两个日期是否相等
输出:
这里,2022 年 5 月 15 日和 2022 年 4 月 15 日是不一样的。因此,输出为假。
在我们刚刚看到的例子中,只给出了日期,而没有给出时间。让我们学习如何只比较日期,或者只比较时间,如果日期和时间都给定的话。
4.仅比较日期
输出:
这里,我们使用了方法从给定的日期时间中只提取日期,然后使用不同的比较操作符进行比较,得到输出。
5.只比较时间
输出:
与示例 5 类似,这里我们使用 datetime 模块中的方法,只从给定的 datetime 中提取时间。
- 正式文件
原文:https://www.askpython.com/python-modules/dateutil-module
在处理需要实时数据的脚本时,我们使用 dateutil 模块,以便在特定时间调度或检索数据,或者只是输入带有检索时间戳的数据。
考虑到您需要对检索到的数据进行大量的更改,使用大量的脚本并尝试使用默认的模块操作日期和时间格式可能是一项艰巨的任务。
幸运的是,模块是为了提供使您的生活更轻松的功能而创建的。
模块专门为现有的模块提供扩展功能,因此,模块的安装是先决条件。
然而,因为它是 Python 标准库的一部分,所以没什么好担心的。
在我们开始使用模块之前,我们需要先在我们的电脑上安装它。那么,让我们开始安装程序:
我们已经使用了 pip 包管理器来完成这里的安装。你也可以使用 Anaconda 来完成安装。
如果您已经成功安装了该模块,我们现在可以开始使用它了!
1.0.模块及其子类。
模块被分成几个不同的子类,我们将马上进入它们,这样你就知道你在做什么,
- 复活节
- 句法分析程序
- 相对 delta
- 尺子
- 坦桑尼亚
- 还有几个!
该模块没有太多的子类,但是,在本文中,我们将只深入研究其中一些的功能。
1.1 导入所需的方法
我们已经安装了模块,现在只需要将方法付诸实施并获得结果。
那么,让我们从其中的一些开始吧!
等等,在使用模块之前,我们可能有几个步骤,其中之一就是需要首先导入它们。
这些导入允许我们使用本文中需要的许多方法。
1.2 日期时间功能
在我们开始使用模块之前,您可能还记得这个模块也依赖于日期时间模块的事实,对吗?
嗯,完全正确。模块处理日期时间对象,这意味着我们需要在处理它们之前创建日期时间对象。
因此,这就是模块导入的原因。让我们开始使用中的几个模块。
1.3.日期时间和相对增量
子类扩展了模块,为我们提供了允许我们处理与检索信息相关的日期和时间的特性。
这意味着我们可以给当前使用的对象添加天数、月数甚至年数。它还允许我们用 对象来处理时间间隔。
现在,让我们使用相对日期来检索信息。
这个模块的一个更适用的用途是使用一些小操作来查找信息。
如果你已经注意到,我们只从对象中检索了。
这是用于一个干净的输出,但是,如果你想知道 Sacra 实际上有多老,试着自己摆弄一下 relativedelta 对象。😉
1.4.日期时间和复活节
子类用于计算一般复活节日历的日期和时间,允许计算与各种日历相关的日期时间对象。
子类非常小,只有一个参数和三个选项定义了整个模块。
- 儒略历,复活节 _ 儒略历=1。
- 公历,复活节 _ 东正教=2
- 西历,复活节 _ 西方=3
在代码中使用它们,看起来很像,
1.5.日期时间和解析器
子类带来了一个高级的日期/时间字符串解析器,它能够解析多种已知的表示日期或时间的格式。
您可以提供许多选项,包括本地或显式时区。
可以使用作为默认参数传递给函数的变量来提取信息以提供时区、年份、时间,您可以在这里查看。
1.6.日期时间和规则
子类使用输入分别为我们提供关于对象和对象的递归信息。
这个子类是模块的一个很好的特性,它可以让你处理很多调度任务和日历存储创新。
模块本身还有更多的内容,如果你想在更深的层次上了解更多的特性和论点,查看一下文档是个好主意。
如果您已经阅读了这篇文章,那么您现在知道了模块如何允许我们扩展由模块提供的信息,以产生您通常需要计算或处理的结果。
如果你知道为了做某件事应该看哪个模块,生活就会简单得多。
也就是说,这里有一些可以帮助你完成与 Python 熊猫、 Scipy 、 zipfile 和 psutil 的工作之旅。
- 官方日期文档
- 使用 dateutil 的示例
版权声明:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符,请将相关资料发送至xkadmin@xkablog.com进行投诉反馈,一经查实,立即处理!
转载请注明出处,原文链接:https://www.xkablog.com/bcyy/51418.html