spss25永久许可证代码（spss27永久许可证代码）

原文：KDNuggets

协议：CC BY-NC-SA 4.0

原文：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传评论

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在 2017 年，我们创建了一份关于分析、大数据、数据挖掘、数据科学和机器学习的90 个活跃博客的列表。两年后，我们决定更新这份列表，将数量增加到 100 个，给你更多的选择，能够阅读更多你感兴趣的话题。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速进入网络安全职业的快车道。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升你的数据分析水平

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持你所在组织的 IT 工作

今年，我们从之前的列表中移除了 24 个不再符合我们活跃标准的博客：即在过去三个月内（自 2018 年 10 月 1 日以来）至少发布了一篇博客文章。我们还新增了 36 个相关的博客。与之前一样，这份列表中的所有博客分为两个组：非常活跃和中等活跃。前者每月通常有几篇文章，而后者最近几个月可能只有一篇文章。我们还将那些技术讨论较少的博客分为其他组。在每个博客组内，我们按字母顺序列出。

博客概述基于截至 2019 年 1 月 6 日其 URL 上的信息。如果我们遗漏了任何受欢迎的活跃博客，请在下面的评论中建议。祝阅读愉快！

非常活跃的博客

，亚马逊官方 AWS AI 博客。
，高级分析与 R 语言。
，伯克利大学博客。
Big on Data，由 Andrew Brust、Tony Baer 和 George Anadiotis 撰写，涵盖了大数据技术，包括 Hadoop、NoSQL、数据仓储、商业智能和预测分析。
Clustify 博客，涵盖电子发现、预测编码、文档聚类、技术和软件开发。
，由 Hui Xiang Chua 撰写，记录了她的学习历程，并作为那些希望了解数据科学的入门工具。
数据遗传学，由 Nick Berry 撰写。
数据科学 101，由 Ryan Swanstrom 撰写，关于学习成为数据科学家的博客。
，由读者提交的有趣文章列表。
，关于数据分析、AB 测试、研究、大数据等的博客。
，Dataiku 的博客，Dataiku 公司将数据分析师、工程师和科学家汇聚在一起。
Data-mining.philippe-fournier-viger，由 Philippe Fournier-Viger 撰写的关于数据挖掘、数据科学、大数据的博客。
，数据科学、数据分析和数据工程的教程和文章。
DecisionStats，由 Ajay Ohri 创建，DECISIONSTATS 的创始人，著有《R for Business Analytics》和《R for Cloud Computing》。
，主要集中在数据挖掘的技术方面，由 Jay Zhou 撰写。
Domino Data Lab，关于初创公司、数据科学、R 和 Python。
EMC 大数据博客，Dell EMC 的大数据博客。
错误统计哲学，由弗吉尼亚理工大学的统计哲学家 Deborah G. Mayo 撰写。
FlowingData，Nathan Yau 的可视化和统计网站。
Forrester 大数据博客，汇集了公司贡献者撰写的关于大数据主题的博客。
Freakonometrics，由数学教授 Charpentier 撰写的假设博客，提供了一系列既易于理解又具挑战性的统计学相关文章，风趣幽默。
Google Analytics 产品，Google 博客，提供关于 Google Analytics、Data Studio、Optimize、Surveys 和 Tag Manager 的新闻和提示。
HPE Vertica 开发者社区博客，由 Micro Focus 撰写的博客。
Hyndsight，由 Rob Hyndman 撰写，内容涉及预测、数据可视化和功能数据。
信息之美，由独立的数据记者和信息设计师大卫·麦肯德莱斯创办，他还是《信息之美》一书的作者。
洞察数据科学，由洞察数据科学研究员计划校友撰写，关注数据科学的最新趋势和话题。您通向数据科学和数据工程职业的桥梁。
JT 论决策管理，由詹姆斯·泰勒撰写，涉及决策管理的一切。
果汁分析，一个关于分析和可视化的博客。
Kaggle 博客 “No Free Hunch”，涵盖 Kaggle 数据科学和机器学习竞赛的官方博客。
懒程序员，关于大数据、数据科学和初创公司编码的最新动态。
机器学习精粹，由杰森·布朗利提供，涵盖编程与机器学习。
挖掘数据，由凯文·希尔斯特罗姆提供，关于多渠道营销和数据库营销的观点。
，由驻扎在班加罗尔的数据科学顾问和大数据工程师提供，目前在 WalmartLabs 工作。
数字主宰你的世界，由凯瑟尔·方提供，大数据浅显易懂。
观察性流行病学，一位大学教授和一位统计顾问提供他们对应用统计学、高等教育和流行病学的评论、观察和想法。
开放花园，物联网（IoT）的数据科学，由阿吉特·贾卡尔创办。
克服偏见，由罗宾·汉森和艾利泽·尤德科夫斯基撰写。呈现对诚实、信号、分歧、预测及远期未来的统计分析反思。
预测分析世界，由埃里克·西戈尔创办的博客，创始人兼执行编辑，使预测分析的如何和为什么变得易于理解和引人入胜。
Revolution Analytics，有关使用开源 R 进行大数据分析、预测建模、数据科学和可视化的新闻。
Rick Sherman: 数据狗屋，关于绩效管理、商业智能和数据仓库的商业与技术。
萨伯计量研究，由菲尔·伯恩鲍姆撰写，博客内容涉及棒球、股票市场、运动预测以及各种主题的统计学。
，SAS 专家撰写关于高级分析和引人注目的行业见解的博客。
，关于大数据中的分析和可视化。
Simply Statistics，由三位生物统计学教授（Jeff Leek、Roger Peng 和 Rafa Irizarry）撰写，他们对数据丰富的新纪元充满热情，统计学家成为了科学家。
统计建模、因果推断与社会科学，由 Andrew Gelman 撰写。
Steve Miller BI，信息管理领域的博客。
分析因素，由 Karen Grace Martin 撰写。
，关于统计学、数据分析、问题解决及集成解决方案。
，由 Ben Lorica 撰写，O’Reilly Media 首席数据科学家，内容涵盖 OLAP 分析、大数据、数据应用等。
Tom H. C. Anderson 个人博客，专注于数据和文本挖掘的市场研究。
，分享概念、想法和代码。
Vincent Granville 博客，Vincent，AnalyticBridge 和 Data Science Central 的创始人，定期发布关于数据科学和数据挖掘的有趣话题。
Xi’ans Og 博客，由巴黎第九大学的统计学教授撰写，主要集中在计算和贝叶斯主题。

适度活跃的博客

，由数据科学和工程公司 Active Wizards 撰写的博客。
，由 Alex Smola 撰写。
Ann Maria 的博客，由在线统计教育公司 The Julia Group 总裁 Dr. AnnMaria De Mars 撰写。
Ari Lamstein 博客，涵盖开放数据、制图、R 等内容。
，由数据科学家 Audun M. Oygard 撰写，他有统计学和美术背景。
Blog About Stats，由 Armin Grossenbacher 撰写，主要为统计机构的专业人士提供网络平台。
统计学与技术，由印度商学院海得拉巴分校统计学教授 Galit Shmueli 撰写。
，关于来自 Better 公司的分析博客。
，来自人类工程师的博客。
FastML，涵盖机器学习和数据科学的实际应用。
net，由约翰·兰福德撰写，作为领先的应用机器学习研究员，讨论机器学习理论与实践的交汇点。
，由亚历克斯·卡斯特罗尼斯撰写，涵盖包括人工智能、机器学习、数据科学、大数据和物联网在内的主题，重点讲解概念、技术、最佳实践和趋势。
，涵盖数学、电气工程和神经科学的一般领域的教程风格文章。
，关于数据分析研究的发现、结果和思考。
，由安妮撰写，一位市场研究方法论者，博客内容涉及抽样、调查、统计、图表等。
Nuit Blanche，由伊戈尔·卡龙撰写，专注于压缩感知、先进的矩阵分解技术、机器学习。
Perpetual Enigma，由普拉提克·乔希撰写，计算机视觉爱好者撰写关于机器学习的疑问风格引人入胜的故事。
，由马特·阿舍撰写，他是多伦多大学的统计研究生。查看阿舍的统计宣言。
Stats with Cats，由查理·库夫斯撰写，他在数字处理方面已有三十余年经验。
StreamHacker，由雅各布·帕金斯撰写，他是《Python 3 Text Processing with NLTK 3 Cookbook》的作者。
，涵盖网站分析、R 语言、Google Analytics 及相关话题。
The Geomblog，由苏雷什撰写。
，由卡内基梅隆大学统计学教授科斯马·沙利齐撰写的博客。
Walking Randomly，由迈克·克劳彻撰写。
，由数据科学家何塞·玛丽亚·马特奥斯·佩雷斯撰写。
，有关数据科学的内容和对世界的思考。
，覆盖数据科学和技术的博客，特别是 Python、flask、scikit-learn 或骑行。
，由 John Mount 和 Nina Zumel 撰写，包含评论文章和技术写作。

博客聚合器

Analytics Vidhya，关于分析技能的发展、分析行业最佳实践等。
，一个精心策划的数据科学博客列表。
IBM 大数据中心博客，来自 IBM 思想领袖的博客。
KDnuggets，一个关于大数据、数据科学、数据挖掘、预测分析的领先网站/博客（此站点为完整性考虑而包含）。
，前身为“O’Reilly Radar”，提供广泛的研究工具和书籍。
Planet Big Data，一个关于大数据、Hadoop 及相关话题的博客聚合器，我们包括全球博主的帖子。
R-bloggers，来自 R 社区的最佳博客，包含代码、示例和可视化。
SAS 博客首页，连接 SAS 的人员、产品和想法。
智能数据集合，一个聚合了许多有趣的数据科学人员博客的集合。
StatsBlog，一个专注于统计学相关内容的博客聚合器，通过 RSS 订阅从贡献博客中汇总帖子。
数据仓库内幕，来自 Oracle 团队的数据仓库和大数据的技术细节、想法和新闻。

其他

超越盒子评分，一个利用统计分析棒球比赛的博客。
大数据与大利润，由西北大学的 Russell Walker 教授撰写的博客。
计算风险，有关金融和经济的博客。
FiveThirtyEight，由 Nate Silver 及其团队撰写，利用图表和饼图从统计角度分析从政治到科学到体育的各种话题。
Freakonomics 博客，由 Steven Levitt 和 Stephen J. Dubner 撰写。
卫报数据博客，对其新闻中的话题进行数据新闻报道。
非官方 Google Analytics，ROI Revolution 的博客。
网络分析与联盟营销，Dennis R. Mortensen 关于如何通过分析增加出版商收入的博客。

资源:

在线和基于网页的：分析、数据挖掘、数据科学、机器学习教育
分析、数据科学、数据挖掘和机器学习的软件

相关:

SIAM 数据科学丛书系列
KDnuggets – 最受欢迎的数据科学/机器学习博客
90 个活跃的关于分析、大数据、数据挖掘、数据科学、机器学习的博客（已更新）

了解更多相关话题

随机森林与决策树：关键差异
随机森林算法是否需要标准化？
调优随机森林超参数
通过 Python 和 Scikit-learn 简化决策树解释
决策树算法解析
通过实现理解：决策树

原文：

赞助帖子。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速进入网络安全领域。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升你的数据分析能力

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持你的组织的信息技术工作

任何机器学习（ML）项目中最重要的部分之一是进行探索性数据分析（EDA），以确保数据的有效性并且没有明显的问题。EDA 还帮助你在项目开始之前向业务利益相关者提供数据驱动的见解，确保你提出正确的问题。

在本教程中，你将使用 Python 和 Pandas 来：

探索数据集并创建可视化分布
识别并消除异常值
揭示两个数据集之间的相关性

创建探索性数据分析（EDA）是构建更清洁、更高效的机器学习和人工智能模型的第一步之一。阅读教程并亲自尝试一下吧！

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

信息增益

信息增益是一种统计量，通过根据特定特征对数据进行划分来测量熵（不确定性）的减少。它常用于决策树算法，并且具有有用的特征。特征的信息增益越高，它在决策中越有用。

现在，让我们通过使用预构建的糖尿病数据集来应用信息增益。

糖尿病数据集包含与预测糖尿病进展相关的生理特征。

age: 年龄（岁）
sex: 性别（1 = 男性，0 = 女性）
BMI: 体质指数，计算方法为体重（千克）除以身高（米）的平方
bp: 平均血压（mm Hg）
s1、s2、s3、s4、s5、s6: 六种不同血液化学物质（包括葡萄糖）的血清测量

以下代码演示了如何应用信息增益方法。此代码使用来自 sklearn 库的糖尿病数据集作为示例。

这段代码的主要目标是基于信息增益计算特征重要性分数，这有助于确定对预测模型最相关的特征。通过确定这些分数，你可以对分析中应包含或排除哪些特征做出明智的决策，从而提高模型性能，减少过拟合，并加快训练时间。

为此，这段代码计算了数据集中每个特征的信息增益分数，并将其存储在字典中。

然后根据它们的分数将特征按降序排序。

我们将把排序后的特征重要性分数可视化为水平条形图，以便你能够轻松比较不同特征在给定任务中的相关性。

这种可视化在决定在构建机器学习模型时保留或丢弃哪些特征时特别有用。

让我们看看完整的代码。

这是输出结果。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

输出结果显示了使用信息增益方法计算的每个特征的重要性分数。特征按照分数的降序排列，这些分数表示它们在预测目标变量中的相对重要性。

结果如下：

体质指数（bmi）具有最高的重要性分数（0.174），表明它对糖尿病数据集中目标变量的影响最大。
血清测量 5（s5）以 0.153 的分数紧随其后，是第二重要的特征。
血清测量 6（s6）、血清测量 4（s4）和血压（bp）具有中等的重要性分数，范围从 0.104 到 0.065。
其余特征，如血清测量 1、2 和 3（s1、s2、s3）、性别和年龄的重要性分数相对较低，表明它们对模型的预测能力贡献较小。

通过分析这些特征重要性得分，你可以决定哪些特征应该包含在分析中，哪些特征应排除，以提高机器学习模型的性能。在这种情况下，你可能考虑保留重要性得分较高的特征，如 bmi 和 s5，同时可能去除或进一步调查得分较低的特征，如 age 和 s2。

卡方检验

卡方检验是一种统计检验，用于评估两个分类变量之间的关系。它在特征选择中用于分析分类特征与目标变量之间的关系。较大的卡方得分表明特征与目标之间的关联更强，显示该特征在分类任务中更为重要。

尽管卡方检验是一种常用的特征选择方法，但它通常用于分类数据，其中特征和目标变量是离散的。

费舍尔得分

费舍尔判别比率，通常称为费舍尔得分，是一种特征选择方法，根据特征区分数据集中不同类别的能力来对特征进行排名。它可以用于分类问题中的连续特征。

费舍尔得分的计算为类别间方差与类别内方差的比率。较高的费舍尔得分意味着特征更具区分性，对分类更有价值。

要使用费舍尔得分进行特征选择，计算每个连续特征的得分并根据得分对其进行排名。模型认为费舍尔得分较高的特征更重要。

缺失值比率

缺失值比率是一种简单的特征选择方法，它根据特征中缺失值的数量做出决策。

缺失值比例较高的特征可能无信息量，并可能影响模型的性能。通过设置接受的缺失值比率阈值，可以过滤掉缺失值过多的特征。

要使用缺失值比率进行特征选择，请按照以下步骤操作：

通过将缺失值的数量除以数据集中实例的总数来计算每个特征的缺失值比率。
设置一个可接受的缺失值比率阈值（例如，0.8，意味着一个特征最多允许 80%的值缺失才被考虑）。
过滤掉缺失值比率高于阈值的特征。

基于包装的特征选择方法包括使用特定的机器学习算法评估特征的重要性。它们通过尝试各种特征组合并使用所选方法评估其性能来寻找最佳特征子集。

由于可用特征子集的数量庞大，基于包装的特征选择方法可能计算成本高，尤其是在处理高维数据集时。

然而，它们通常比基于过滤的方法表现更好，因为它们考虑了特征与学习算法之间的关系。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者提供的图片

前向选择

在前向选择中，你从一个空的特征集开始，并逐步添加特征。在每一步中，你评估当前特征集和新增特征的模型性能。那些带来最佳性能提升的特征将被添加到特征集中。

该过程持续进行，直到观察到性能没有显著提升，或达到预定义的特征数量为止。

以下代码演示了前向选择的应用，这是一种基于包装的监督特征选择技术。

示例使用了来自 sklearn 库的乳腺癌数据集。乳腺癌数据集，也被称为威斯康星诊断乳腺癌（WDBC）数据集，是一个常用的预构建分类数据集。在这里，主要目标是构建用于诊断乳腺癌为恶性（癌性）或良性（非癌性）的预测模型。

为了我们模型的需要，我们将选择不同数量的特征以观察性能的变化，但首先，让我们加载库、数据集和变量。

代码的目标是通过前向选择识别出适用于逻辑回归模型的最佳特征子集。这种技术从一个空的特征集开始，迭代地添加那些基于指定评估指标提高模型性能的特征。在这种情况下，使用的评估指标是准确性。

代码的下一部分使用 mlxtend 库中的 SequentialFeatureSelector 来执行前向选择。它配置了一个逻辑回归模型、所需的特征数量和 5 折交叉验证。前向选择对象被拟合到训练数据中，所选特征将被打印出来。

此外，我们还需要评估所选特征在测试集上的表现，并通过折线图可视化模型在不同特征子集下的表现。

图表将展示交叉验证的准确性作为特征数量的函数，提供有关模型复杂性与预测性能之间权衡的见解。

通过分析输出和图表，你可以确定在模型中包含的最佳特征数量，从而最终提高其性能并减少过拟合。

这是完整的代码。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

前向选择代码的输出结果显示，该算法识别了 5 个特征的子集，这些特征在乳腺癌数据集上的逻辑回归模型中产生了最佳准确率（0.9548）。这些选定的特征通过其索引进行标识：0、1、4、21 和 22。

线形图提供了有关不同特征数量下模型性能的额外见解。它显示：

使用 1 个特征，模型的准确率约为 91%。
添加第二个特征将准确率提高至 94%。
使用 3 个特征，准确率进一步提高至 95%。
包含 4 个特征使准确率稍微超过 95%。

超过 4 个特征后，准确率的提高变得不那么显著。这些信息可以帮助你做出关于模型复杂性和预测性能之间权衡的明智决定。基于这些结果，你可能决定在模型中仅使用 3 或 4 个特征，以平衡准确性和简洁性。

后向选择

前向选择的对立方法是后向选择。你从整个特征集开始，并逐渐消除其中的特征。

在每个阶段，你需要测量当前特征集减去要删除的特征后的模型性能。

造成性能下降最小的特征被从特征集中删除。

该过程重复进行，直到性能没有实质性提升或达到预设的特征数量。

后向选择和前向选择被归类为顺序特征选择；你可以在这里了解更多信息。

穷尽特征选择

穷尽特征选择比较所有可能的特征子集的性能，并选择表现最好的子集。这种方法计算量大，特别是对于大数据集，但确保了最佳的特征子集。

递归特征消除

递归特征消除从整个特征集开始，并根据学习算法判断的相关性反复消除特征。在每一步，最不重要的特征被移除，模型被重新训练。该方法重复进行，直到达到预定数量的特征。

嵌入式特征选择方法将特征选择过程作为学习算法的一部分。

这意味着在训练阶段，学习算法不仅优化模型参数，还选择最重要的特征。嵌入式方法比包装方法更有效，因为它们不需要外部特征选择过程。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者提供的图像

正则化

正则化是一种向损失函数添加惩罚项的方法，以防止机器学习模型中的过拟合。

正则化方法，如 lasso（L1 正则化）和 ridge（L2 正则化），可以与特征选择结合使用，以减少不重要特征的系数接近零，从而选择出最相关特征的子集。

随机森林重要性

随机森林是一种集成学习方法，它结合了多个决策树的预测。随机森林在构建树的过程中计算每个特征的重要性评分，这些评分可以用来根据特征的相关性进行排序。模型将具有更高重要性评分的特征视为更重要。

如果你想了解更多关于随机森林的信息，下面的文章“决策树和随机森林算法”也解释了决策树算法。

以下示例使用了 Covertype 数据集，该数据集包含有关不同类型森林覆盖的信息。

Covertype 数据集的目标是预测罗斯福国家森林中森林覆盖类型（主导树种）。

下面代码的主要目标是使用随机森林分类器来确定特征的重要性。通过评估每个特征对整体分类性能的贡献，这种方法有助于识别构建预测模型的最相关特征。

然后，我们创建一个对象，并将其拟合到训练数据上。接着，它从训练好的模型中提取特征重要性，并按降序排序。前 10 个特征根据其重要性评分被选择并显示在排名中。

此外，代码通过水平条形图可视化了前 10 个特征的重要性。

该可视化允许轻松比较重要性评分，并有助于在决定包含或排除哪些特征时做出明智的选择。

通过检查输出和图表，你可以选择最相关的特征用于你的预测模型，这有助于提高模型性能，减少过拟合，并加快训练时间。

这是完整代码。

这是输出结果。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

随机森林重要性方法的输出显示了根据其在预测森林覆盖类型中的重要性排名的前 10 个特征。

它揭示了海拔在所有特征中具有最高的重要性评分（0.2423），在预测森林覆盖类型中作用最大。这表明海拔在确定罗斯福国家森林中的主导树种方面起着关键作用。

其他具有较高重要性分数的特征包括 Horizontal_Distance_To_Roadways（0.1158）和 Horizontal_Distance_To_Fire_Points（0.1100）。这些特征表明，靠近道路和火点也显著影响森林覆盖类型。

排名前 10 的特征中，其余特征的重要性分数相对较低，但它们仍然对模型的整体预测性能有所贡献。这些特征主要与水文因素、坡度、方位和山阴影指数相关。

总结来说，结果突出了影响罗斯福国家森林区森林覆盖类型分布的最重要因素，这些因素可以用于构建更有效、更高效的森林覆盖类型分类预测模型。

当没有目标变量可用时，可以使用无监督特征选择方法来降低数据集的维度，同时保持其基本结构。这些方法通常包括将初始特征空间转换为一个新的低维空间，其中变化后的特征捕捉数据中的大部分变异。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由作者提供

PCA 是一种线性降维方法，将原始特征空间转换为由主成分定义的新正交空间。这些组件是原始特征的线性组合，旨在捕捉数据中的最高方差。

PCA 可用于选择代表大部分变异的前 k 个主成分，从而降低数据集的维度。

为了向您展示这如何在实践中运作，我们将使用葡萄酒数据集。这是一个广泛用于分类和特征选择任务的机器学习数据集，包含 178 个样本，每个样本代表来自意大利同一地区三种不同品种的不同葡萄酒。

使用葡萄酒数据集的目标通常是构建一个预测模型，该模型可以根据化学属性将葡萄酒样本准确地分类为三种品种之一。

以下代码演示了无监督特征选择技术主成分分析（PCA）在葡萄酒数据集上的应用。

这些组件（主成分）捕捉数据中最多的方差，同时最小化信息损失。

代码首先加载葡萄酒数据集，该数据集包含描述不同葡萄酒样本化学性质的 13 个特征。

然后使用 StandardScaler 对这些特征进行标准化，以确保 PCA 不会受到输入特征尺度变化的影响。

接下来，使用 sklearn.decomposition 模块中的 PCA 类对标准化数据进行 PCA。

每个主成分的解释方差比例都被计算出来，表示每个主成分解释的数据总方差的比例。

最后，生成两个图来可视化主成分的解释方差比例和累计解释方差。

第一个图展示了每个单独主成分的解释方差比例，而第二个图则说明了随着更多主成分的加入，累计解释方差是如何增加的。

这些图帮助确定模型中使用的主成分的最佳数量，在维度减少和信息保留之间取得平衡。

让我们看看完整的代码。

这是输出结果。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

左侧图表显示解释方差比例随着主成分数量的增加而减少。这是 PCA 中观察到的典型行为，因为主成分是按解释方差的多少排序的。

第一个主成分（特征）捕捉到最高的方差，第二个主成分捕捉到第二高的方差，依此类推。因此，解释方差比例随着每个后续主成分的增加而减少。

这是 PCA 用于维度减少的主要原因之一。

右侧的第二张图展示了累计解释方差，并帮助你确定选择多少主成分（特征）来表示数据的百分比。x 轴表示主成分的数量，y 轴显示累计解释方差。当你沿 x 轴移动时，可以看到在包含这么多主成分时保留了多少总方差。

在这个例子中，你可以看到选择大约 3 或 4 个主成分已经捕捉了超过 80%的总方差，而大约 8 个主成分捕捉了超过 90%的总方差。

你可以根据希望在维度减少和保留方差之间的权衡选择主成分的数量。

在这个例子中，我们确实使用了 Sci-kit 来学习应用 PCA，官方文档可以在这里找到。

ICA 是一种将多维信号分解为其成分的方法。

在特征选择的背景下，ICA 可以用来将原始特征空间转换为一个由统计独立成分组成的新空间。通过选择前 k 个独立成分，你可以在保持底层结构的同时减少数据集的维度。

非负矩阵分解（NMF）是一种维度减少方法，通过将一个非负数据矩阵近似为两个低维非负矩阵的乘积来实现。

NMF 可用于特征选择的背景下，提取一组新的基本特征，以捕捉原始数据的重要结构。通过选择前 k 个基础特征，你可以在保持非负性限制的同时最小化数据集的维度。

t-SNE 是一种非线性降维方法，它试图通过减少高维和低维位置之间的配对概率分布差异来保持数据集的结构。

t-SNE 可以应用于特征选择，将原始特征空间投影到一个低维空间中，从而保持数据的结构，允许更好的可视化和评估。

你可以在这里找到更多关于无监督算法和 t-SNE 的信息 “无监督学习算法”。

自编码器是一种人工神经网络，它学习将输入数据编码成低维表示，然后再将其解码回原始版本。自编码器的低维表示可以用来生成另一组特征，以捕捉原始数据的潜在结构。

总结来说，特征选择在机器学习中至关重要。它有助于减少数据的维度，最小化过拟合的风险，并提高模型的整体性能。选择合适的特征选择方法取决于具体的问题、数据集和建模要求。

本文涵盖了广泛的特征选择技术，包括监督和无监督方法。

监督技术，如基于滤波器、基于包装和嵌入的方法，利用特征与目标变量之间的关系来识别最重要的特征。

无监督技术，如 PCA、ICA、NMF、t-SNE 和自编码器，专注于数据的内在结构，以在不考虑目标变量的情况下降低维度。

在为你的模型选择合适的特征选择方法时，考虑数据的特征、每种技术的基本假设和涉及的计算复杂性是至关重要的。

通过仔细选择和应用正确的特征选择技术，你可以显著提升性能，从而获得更好的洞察力和决策能力。

内特·罗西迪 是一名数据科学家，专注于产品策略。他还是一位副教授，教授分析学，并且是 StrataScratch 的创始人，这个平台帮助数据科学家准备面试，提供来自顶级公司的真实面试问题。可以在 Twitter: StrataScratch 或 LinkedIn 上联系他。

了解更多主题

机器学习中的替代特征选择方法
特征选择：科学与艺术的结合
特征商店峰会 2022：关于特征工程的免费会议
学习高级 SQL 技巧的 5 个免费资源
10 种高级 Git 技巧
3 种研究驱动的高级提示技术以提高 LLM 效率…

原文：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

仅回顾一下我们上一个帖子中关于PyTorch Lightning 入门的内容，在本教程中，我们将深入探讨你应该使用的两个额外工具：TorchMetrics 和 Lightning Flash。

TorchMetrics 不出所料地提供了一个模块化的方法来定义和跟踪跨批次和设备的有用指标，而 Lightning Flash 提供了一套功能，促进更高效的迁移学习和数据处理，以及一份针对典型深度学习问题的最新方法的配方书。

我们将从向之前开始的 MNIST 示例中添加一些有用的分类指标开始。我们还将用 Flash Trainer 对象替换 PyTorch Lightning Trainer 对象，这将使我们更容易在新的分类问题上进行迁移学习。然后，我们将使用新的数据集CIFAR10来训练我们的分类器，我们将以此作为迁移学习示例的基础，转移到CIFAR100。

TorchMetrics

首先要做的是确保我们已经安装了所有需要的包。如果你已经按照“入门”教程中的安装说明操作，并现在通过检查你的虚拟环境内容，你会发现你可能已经安装了 TorchMetrics。如果没有，请使用以下命令安装 TorchMetrics 和 Lightning Flash：

接下来，我们将修改我们的训练和验证循环，以记录 F1 分数和接收者操作特征曲线下面积（AUROC）以及准确率。我们将从中移除（已弃用的）准确率，并从我们的模型中回调中移除类似的 sklearn 函数，但首先，让我们确保在顶部添加必要的导入。

接下来，移除我们之前用来计算准确率的代码行：

和：

现在，我们可以用等效的 TorchMetrics 函数实现来替换我们删除的部分，计算准确率，然后就这样结束：

和：

不过，使用基于类的模块化版本的指标还有其他优势。

使用基于类的指标，我们可以在运行训练和验证时持续积累数据，并在最后计算结果。这在单一设备上很方便和高效，但在多个设备上，它真正变得有用，因为指标模块可以在多个设备之间自动同步。

我们将在函数中初始化我们的指标，并在训练和验证步骤中添加每个指标的调用。

在中定义的指标模块将在和中被调用，我们将在每个训练和验证周期结束时计算这些指标。

在步骤函数中，我们将调用我们的指标对象以在训练和验证周期中累积指标数据。我们可以为每个指标对象调用“forward”方法以在返回当前批次的值的同时累积数据，或者调用“update”方法来静默累积指标数据。

我们将重写并重载以一次计算和报告整个周期的指标。

通过这些少量更改，我们可以利用 TorchMetrics 中实现的 25 种不同的指标，或子类化类并实现我们自己的指标。不过，请记住，子类化 LightningModule 类比实现常见任务如图像分类的训练有更简单的方法。

Lightning Flash

如同一套俄罗斯套娃的深度学习抽象库，Lightning Flash 在 PyTorch Lightning 上添加了更多抽象和简化。事实上，我们只需 7 行代码就能训练一个图像分类任务。我们将使用 CIFAR10 数据集以及基于 Lightning Flash 内置 ResNet18 主干的分类模型。接着，我们将展示如何将模型主干重新用于分类新数据集 CIFAR100。

尽管 Lightning Flash 仍在积极开发中，且有许多尖锐的边角，但你已经可以用很少的代码组装特定的工作流程，甚至有一个他们称之为 Flash Zero 的“无代码”功能。为了我们的目的，我们可以用不到 20 行代码组装一个迁移学习工作流程。

首先，我们将用 8 行代码在 CIFAR10 数据集上进行训练。我们利用类及其内置的主干架构，以及类来替代训练和验证的数据加载器。

然后，我们可以通过重新使用我们之前训练的模型的特征提取主干并使用“freeze”方法进行迁移学习，来训练新的图像分类任务 CIFAR100 数据集，该数据集每个类别的示例较少。

这种策略只更新新的分类头上的参数，同时保持主干参数不变。

这种将参数重新应用于新任务的方式是迁移学习的核心，节省了时间和计算以及相关成本。考虑到开发者的时间比计算时间更宝贵，Lightning Flash 的简洁编程风格可能非常值得学习几个新的 API 模式。

一些最实用的深度学习建议可以归结为“不要做英雄”，即不要重新发明轮子，忽视像 Flash 这样的便捷工具，这些工具可以让你的生活更轻松。

说到简化，还有一种使用 Flash 训练模型的方法我们不得不提及。通过 Flash Zero，你可以直接从命令行调用 Lightning Flash，使用内置的 SOTA 模型来训练常见的深度学习任务。Flash Zero 也有很多棱角分明的地方，如果你想根据自己的需求进行调整，准备好为 PyTorch Lightning 项目贡献一些 pull request。

例如，下面是从 Flash Zero 文档中修改的一个示例。如果你查看原版（截至本写作时），你可能会立即注意到下载 hymenoptera 数据集的命令行参数中有一个错别字：下载输出文件名缺少扩展名。下面的修正版下载了 hymenoptera 数据集，并用 ResNet18 主干训练了一个分类器，训练了 10 个周期：

文档中的错别字是一个相当小的错误（也是你为项目打开第一个 pull request 的一个良机！），但这表明 PyTorch Lightning 和 Lightning Flash 项目正在快速变化。

随着项目的扩展，预计开发将以快速的速度继续进行。这意味着在新项目中设置依赖时，使用静态版本号可能是个好主意，以避免 Lightning 代码更新时出现破坏性更改。同时，这也为你提供了塑造项目未来的机会，以满足你特定的研发需求，无论是通过 pull request、贡献评论，还是在项目的 GitHub 频道上提出问题。

在这些 PyTorch Lightning 教程文章中，我们已经看到 PyTorch Lightning 如何用于简化在多个复杂度层级上的常见深度学习任务的训练。通过子类化，我们能够定义一个有效的图像分类器，该模型负责训练、验证、指标和日志记录，极大地简化了编写外部训练循环的需要。该模型还使用了 PyTorch Lightning Trainer 对象，使得将整个训练流程切换到 GPU 变得轻而易举。从 Lightning Modules 构建模型是获得实用性而不牺牲控制的一种好方法。

通过使用 Lightning Flash，我们在仅 15 行代码（不包括导入部分）中构建了一个迁移学习工作流。对于那些已知解决方案和成熟的最先进技术的问题，你可以通过利用 Flash 内置的架构和训练基础设施节省大量时间！

最后，我们对 Flash Zero 从命令行进行无代码训练有了初步了解。无代码是一种越来越受欢迎的机器学习方法，尽管工程师对此有所不满，但无代码具有很大的潜力。目前正在迅速发展，Flash Zero 有望成为一种强大的方式，以开箱即用的最佳工程解决方案应用于机器学习和数据科学领域，让科学家可以专注于工作标题中的科学部分。

简介: Kevin Vu 负责 Exxact Corp 博客，并与许多才华横溢的作者合作，这些作者撰写有关深度学习各个方面的内容。

原文。已获许可转载。

相关:

PyTorch Lightning 入门
如何将 PyTorch Lightning 模型部署到生产环境
开始使用 PyTorch Lightning

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速进入网络安全职业生涯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持你组织的 IT 需求

偏态 Q-Q 图

Q-Q 图可以找出分布的偏度（不对称的度量）。

如果 Q-Q 图的下端偏离直线但上端没有，则分布是左偏（负偏态）。

现在，如果 Q-Q 图的上端偏离直线而下端没有，则分布是右偏（正偏态）。

尾部 Q-Q 图

Q-Q 图可以找出分布的峰度（尾部厚度的度量）。

拥有胖尾的分布会使 Q-Q 图的两端偏离直线，而其中心部分跟随直线，而瘦尾分布的 Q-Q 图在两端的偏离非常少或可以忽略，从而使其完美符合正态分布。

Python 中的 Q-Q 图(来源)

假设我们有以下包含 100 个值的数据集：

要为这个数据集创建 Q-Q 图，我们可以使用plot()函数来自 statsmodels 库：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在 Q-Q 图中，x 轴显示理论分位数。这意味着它不显示你的实际数据，而是表示如果你的数据是正态分布的，它应该位于什么位置。

y 轴显示的是你的实际数据。这意味着如果数据值沿着一个大致的 45 度角直线分布，那么数据是正态分布的。

我们可以在上面的 Q-Q 图中看到，数据值趋向于紧密地沿 45 度线分布，这意味着数据很可能是正态分布的。这并不奇怪，因为我们生成了 100 个数据值，使用了numpy.random.normal() 函数。

相反，假设我们生成了一个包含 100 个均匀分布值的数据集，并为该数据集创建了一个 Q-Q 图：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据值明显不沿着红色 45 度线分布，这表明它们不符合正态分布。

在概率论中，切比雪夫不等式，也称为“比纳耶夫-切比雪夫”不等式，保证对于广泛的概率分布类，只有一定比例的值会落在距离分布均值的特定范围内。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源:

切比雪夫不等式类似于经验法则（68-95-99.7）；然而，后者规则仅适用于正态分布。切比雪夫不等式更广泛；它适用于任何分布，只要该分布包含定义的方差和均值。

所以切比雪夫不等式表明，至少有（1-1/k²）的数据必须落在均值的K个标准差范围内（或者等价地，不超过1/k²的分布值可以偏离均值超过 k 个标准差）。

其中K --> 正实数

如果数据不是正态分布，则不同数量的数据可能会落在一个标准差内。切比雪夫不等式提供了一种方法，了解在任何数据分布中，有多少数据位于均值的K个标准差范围内。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

资料来源:

切比雪夫不等式非常有价值，因为它可以应用于任何给定均值和方差的概率分布。

让我们考虑一个例子，假设有 1000 名应聘者来参加面试，但只有 70 个职位。为了在所有应聘者中挑选出最优秀的 70 人，招聘者会进行测试来评估他们的潜力。测试的平均分是 60，标准差是 6。如果某个应聘者的分数是 84，他们能否假设自己获得了工作？

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

结果显示，大约有 63 人得分超过 60，因此在 70 个职位空缺的情况下，得分 84 的参赛者可以确保获得该职位。

Python 中的切比雪夫不等式（源）

创建一个 1,000,000 值的总体，我使用了形状=2、尺度=2 的伽玛分布（也适用于其他分布）。

现在从总体中抽样 10,000 个值。

计算与期望值距离超过 k 个标准差的样本数量，并用该数量计算概率。我想描绘一个当 k 增加时概率的趋势，因此我使用了从 0.1 到 3 的 k 范围。

绘制结果：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

从上述图表和结果中，我们可以看到，随着 k 的增加，概率在减少，每个 k 的概率遵循不等式。此外，只有 k 大于 1 的情况是有用的。如果 k 小于 1，则不等式的右侧大于 1，这没有用，因为概率不能大于 1。

在概率论中，对数正态分布，也称为高尔顿分布，是随机变量的连续概率分布，其对数服从正态分布。

因此，如果随机变量X服从对数正态分布，则Y = ln(X)服从正态分布。等效地，如果Y服从正态分布，则Y的指数函数，即X = exp(Y)，服从对数正态分布。

低均值、高方差且所有值均为正的偏斜分布符合这种分布类型。对数正态分布的随机变量只取正实值。

对数正态分布的概率密度函数的一般公式为：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

位置参数和尺度参数相当于随机变量对数的均值和标准差。

对数正态分布的形状由 3 个参数定义：

σ 是形状参数（也是分布对数的标准差）
θ或μ是位置参数（也是分布的均值）
m 是尺度参数（也是分布的中位数）

位置参数和尺度参数相当于随机变量对数的均值和标准差，如上所述。

如果x = θ，则f(x) = 0。其中θ = 0和m = 1的情况称为标准对数正态分布。θ等于零的情况称为2 参数对数正态分布。

以下图表说明了位置（μ）和形状（σ）参数对对数正态分布的概率密度函数的影响：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源：

Python 中的对数正态分布 (来源)

让我们考虑一个例子，使用 scipy.stats.lognorm 函数生成 μ=1 和 σ=0.5 的对数正态分布的随机数。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在统计学中，幂律是两种量之间的函数关系，其中一种量的相对变化导致另一种量的相对变化成比例，不受这些量初始大小的影响：一种量作为另一种量的幂变化。

例如，考虑一个正方形的面积与其边长的关系，如果边长加倍，面积则乘以四。

幂律分布的形式为 Y = k Xα，

其中：

X 和 Y 是感兴趣的变量，
α 是法则的指数，
k 是一个常数。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源：

幂律分布只是众多概率分布中的一种，但被认为是评估正态分布无法处理的不确定性问题的宝贵工具，当这些问题发生在一定概率时。

许多过程在广泛的值范围内被发现遵循幂律。从收入分布、小行星体的大小、地震震级、深度神经网络中的权重矩阵的谱密度、单词使用、各种网络中的邻居数量等。（注意：这里的幂律是一个连续分布。最后两个例子是离散的，但在大规模下可以建模为连续的）。

Python 中的幂律分布 (来源)

让我们绘制帕累托分布，这是一种幂律概率分布的形式。帕累托分布有时被称为帕累托原则或‘80–20’ 规则，因为该规则指出，80% 的社会财富掌握在 20% 的人口手中。帕累托分布不是自然法则，而是一种观察结果。它在许多现实世界问题中很有用。这是一种偏斜的重尾分布。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Box-Cox 变换 将我们的数据转换为接近正态分布的形式。

一参数 Box-Cox 变换定义为在许多统计技术中，我们假设误差是正态分布的。这一假设允许我们构建置信区间并进行假设检验。通过转换目标变量，我们可以（希望）将误差归一化（如果它们尚未正态化）。

此外，变换我们的变量可以提高模型的预测能力，因为变换可以去除白噪声。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

原始分布（左）和应用 Box-Cox 变换后的接近正态分布。来源

Box-Cox 变换的核心是一个指数lambda (λ)，其范围从-5 到 5。所有λ的值都被考虑，并为你的数据选择最佳值；“最佳值”是使数据最佳逼近正态分布曲线的值。

一参数 Box-Cox 变换定义为：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

以及两个参数的 Box-Cox 变换为：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

此外，一参数 Box-Cox 变换适用于y > 0，即仅适用于正值；而两个参数 Box-Cox 变换适用于y > -λ，即负值。

参数λ是使用剖面似然函数和拟合优度测试来估计的。

如果我们谈论 Box-Cox 变换的一些缺点，那么如果你想进行解释的话，Box-Cox 是不推荐的。因为如果λ是某个非零数字，那么变换后的目标变量可能比简单地应用对数变换更难以解释。

第二个障碍是，Box-Cox 变换通常在我们将变换后的数据恢复到原始尺度时给出预测分布的中位数。有时，我们需要的是均值而不是中位数。

Python 中的 Box-Cox 变换（来源）

SciPy 的 stats 包提供了一个名为 boxcox 的函数，用于执行 Box-Cox 幂变换，该函数接受原始非正态数据作为输入，并返回拟合的数据以及用于将非正态分布拟合到正态分布的 lambda 值。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在概率论和统计学中，泊松分布是一种离散概率分布，它表示在固定时间间隔或空间中，给定事件发生的数量的概率，前提是这些事件以已知的常数平均速率发生，并且独立于上一个事件以来的时间。

简单来说，泊松分布可以用来估计某事发生“X”次的可能性。

一些泊松过程的例子包括客户拨打帮助中心电话、原子中的放射性衰变、网站访问者、到达空间望远镜的光子以及股票价格的波动。泊松过程通常与时间相关，但并不一定如此。

泊松分布的公式是：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

其中：

e 是欧拉数（e = 2.71828…）
k 是发生的次数
k! 是 k 的阶乘
λ 等于 k 的期望值，当且仅当它也等于其方差时。

Lambda(λ) 可以被认为是区间内事件的期望数量。随着我们改变速率参数 λ，我们也改变了在一个区间内观察到不同数量事件的概率。下面的图是泊松分布的概率质量函数，展示了在不同速率参数下事件发生的概率。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

泊松分布的概率质量函数，速率参数变化的情况。来源

泊松分布也常用于建模财务计数数据，其中计数很小，且经常为零。例如，在金融领域，它可以用来建模一个典型投资者在某一天的交易次数，这个次数可以是 0（经常发生），也可以是 1、2 等。

作为另一个例子，这个模型可以用来预测在给定时间段内，比如十年中，市场将发生多少次“冲击”。

Python 中的泊松分布

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

随着 λ 变大，图形看起来越来越像正态分布。

希望你喜欢阅读这篇文章。如果有任何问题或建议，请留下评论。

随时通过 LinkedIn 与我联系，有任何问题请随时提问。

感谢阅读！！！

参考文献

原文. 经许可转载。

相关：

数据科学家应该了解的推断统计学
数据科学家需要知道的重要统计学
零样本学习：你能在没有见过物体的情况下对其进行分类吗？

spss25永久许可证代码（spss27永久许可证代码）

非常活跃的博客

适度活跃的博客

博客聚合器

其他

更多相关内容

了解更多相关话题

更多相关内容

更多相关话题

更多相关主题

更多信息

更多相关话题

信息增益

卡方检验

费舍尔得分

缺失值比率

前向选择

后向选择

穷尽特征选择

递归特征消除

正则化

随机森林重要性

了解更多主题

TorchMetrics

Lightning Flash

更多相关主题

偏态 Q-Q 图

尾部 Q-Q 图

Python 中的 Q-Q 图(来源)

Python 中的切比雪夫不等式（源）

Python 中的对数正态分布 (来源)

Python 中的幂律分布 (来源)

Python 中的 Box-Cox 变换（来源）

Python 中的泊松分布

更多相关主题

更多相关话题

相关文章：