当前位置:网站首页 > 编程语言 > 正文

spss25永久许可证代码(spss27永久许可证代码)



原文:KDNuggets

协议:CC BY-NC-SA 4.0

原文:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 评论

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在 2017 年,我们创建了一份关于分析、大数据、数据挖掘、数据科学和机器学习的90 个活跃博客的列表。两年后,我们决定更新这份列表,将数量增加到 100 个,给你更多的选择,能够阅读更多你感兴趣的话题。


外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速进入网络安全职业的快车道。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升你的数据分析水平

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持你所在组织的 IT 工作


今年,我们从之前的列表中移除了 24 个不再符合我们活跃标准的博客:即在过去三个月内(自 2018 年 10 月 1 日以来)至少发布了一篇博客文章。我们还新增了 36 个相关的博客。与之前一样,这份列表中的所有博客分为两个组:非常活跃和中等活跃。前者每月通常有几篇文章,而后者最近几个月可能只有一篇文章。我们还将那些技术讨论较少的博客分为其他组。在每个博客组内,我们按字母顺序列出。

博客概述基于截至 2019 年 1 月 6 日其 URL 上的信息。如果我们遗漏了任何受欢迎的活跃博客,请在下面的评论中建议。祝阅读愉快!

非常活跃的博客

  1. 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传,亚马逊官方 AWS AI 博客。
  2. 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传,高级分析与 R 语言。
  3. 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传,伯克利大学博客。
  4. Big on Data,由 Andrew Brust、Tony Baer 和 George Anadiotis 撰写,涵盖了大数据技术,包括 Hadoop、NoSQL、数据仓储、商业智能和预测分析。
  5. Clustify 博客,涵盖电子发现、预测编码、文档聚类、技术和软件开发。
  6. 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传,由 Hui Xiang Chua 撰写,记录了她的学习历程,并作为那些希望了解数据科学的入门工具。
  7. 数据遗传学,由 Nick Berry 撰写。
  8. 数据科学 101,由 Ryan Swanstrom 撰写,关于学习成为数据科学家的博客。
  9. 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传,由读者提交的有趣文章列表。
  10. 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传,关于数据分析、AB 测试、研究、大数据等的博客。
  11. 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传,Dataiku 的博客,Dataiku 公司将数据分析师、工程师和科学家汇聚在一起。
  12. Data-mining.philippe-fournier-viger,由 Philippe Fournier-Viger 撰写的关于数据挖掘、数据科学、大数据的博客。
  13. 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传,数据科学、数据分析和数据工程的教程和文章。
  14. DecisionStats,由 Ajay Ohri 创建,DECISIONSTATS 的创始人,著有《R for Business Analytics》和《R for Cloud Computing》。
  15. 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传,主要集中在数据挖掘的技术方面,由 Jay Zhou 撰写。
  16. Domino Data Lab,关于初创公司、数据科学、R 和 Python。
  17. EMC 大数据博客,Dell EMC 的大数据博客。
  18. 错误统计哲学,由弗吉尼亚理工大学的统计哲学家 Deborah G. Mayo 撰写。
  19. FlowingData,Nathan Yau 的可视化和统计网站。
  20. Forrester 大数据博客,汇集了公司贡献者撰写的关于大数据主题的博客。
  21. Freakonometrics,由数学教授 Charpentier 撰写的假设博客,提供了一系列既易于理解又具挑战性的统计学相关文章,风趣幽默。
  22. Google Analytics 产品,Google 博客,提供关于 Google Analytics、Data Studio、Optimize、Surveys 和 Tag Manager 的新闻和提示。
  23. HPE Vertica 开发者社区博客,由 Micro Focus 撰写的博客。
  24. Hyndsight,由 Rob Hyndman 撰写,内容涉及预测、数据可视化和功能数据。
  25. 信息之美,由独立的数据记者和信息设计师大卫·麦肯德莱斯创办,他还是《信息之美》一书的作者。
  26. 洞察数据科学,由洞察数据科学研究员计划校友撰写,关注数据科学的最新趋势和话题。您通向数据科学和数据工程职业的桥梁。
  27. JT 论决策管理,由詹姆斯·泰勒撰写,涉及决策管理的一切。
  28. 果汁分析,一个关于分析和可视化的博客。
  29. Kaggle 博客 “No Free Hunch”,涵盖 Kaggle 数据科学和机器学习竞赛的官方博客。
  30. 懒程序员,关于大数据、数据科学和初创公司编码的最新动态。
  31. 机器学习精粹,由杰森·布朗利提供,涵盖编程与机器学习。
  32. 挖掘数据,由凯文·希尔斯特罗姆提供,关于多渠道营销和数据库营销的观点。
  33. 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传,由驻扎在班加罗尔的数据科学顾问和大数据工程师提供,目前在 WalmartLabs 工作。
  34. 数字主宰你的世界,由凯瑟尔·方提供,大数据浅显易懂。
  35. 观察性流行病学,一位大学教授和一位统计顾问提供他们对应用统计学、高等教育和流行病学的评论、观察和想法。
  36. 开放花园,物联网(IoT)的数据科学,由阿吉特·贾卡尔创办。
  37. 克服偏见,由罗宾·汉森艾利泽·尤德科夫斯基撰写。呈现对诚实、信号、分歧、预测及远期未来的统计分析反思。
  38. 预测分析世界,由埃里克·西戈尔创办的博客,创始人兼执行编辑,使预测分析的如何和为什么变得易于理解和引人入胜。
  39. Revolution Analytics,有关使用开源 R 进行大数据分析、预测建模、数据科学和可视化的新闻。
  40. Rick Sherman: 数据狗屋,关于绩效管理、商业智能和数据仓库的商业与技术。
  41. 萨伯计量研究,由菲尔·伯恩鲍姆撰写,博客内容涉及棒球、股票市场、运动预测以及各种主题的统计学。
  42. 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传,SAS 专家撰写关于高级分析和引人注目的行业见解的博客。
  43. 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传,关于大数据中的分析和可视化。
  44. Simply Statistics,由三位生物统计学教授(Jeff Leek、Roger Peng 和 Rafa Irizarry)撰写,他们对数据丰富的新纪元充满热情,统计学家成为了科学家。
  45. 统计建模、因果推断与社会科学,由 Andrew Gelman 撰写。
  46. Steve Miller BI,信息管理领域的博客。
  47. 分析因素,由 Karen Grace Martin 撰写。
  48. 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传,关于统计学、数据分析、问题解决及集成解决方案。
  49. 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传,由 Ben Lorica 撰写,O’Reilly Media 首席数据科学家,内容涵盖 OLAP 分析、大数据、数据应用等。
  50. Tom H. C. Anderson 个人博客,专注于数据和文本挖掘的市场研究。
  51. 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传,分享概念、想法和代码。
  52. Vincent Granville 博客,Vincent,AnalyticBridge 和 Data Science Central 的创始人,定期发布关于数据科学和数据挖掘的有趣话题。
  53. Xi’ans Og 博客,由巴黎第九大学的统计学教授撰写,主要集中在计算和贝叶斯主题。

适度活跃的博客

  1. 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传,由数据科学和工程公司 Active Wizards 撰写的博客。
  2. 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传,由 Alex Smola 撰写。
  3. Ann Maria 的博客,由在线统计教育公司 The Julia Group 总裁 Dr. AnnMaria De Mars 撰写。
  4. Ari Lamstein 博客,涵盖开放数据、制图、R 等内容。
  5. 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传,由数据科学家 Audun M. Oygard 撰写,他有统计学和美术背景。
  6. Blog About Stats,由 Armin Grossenbacher 撰写,主要为统计机构的专业人士提供网络平台。
  7. 统计学与技术,由印度商学院海得拉巴分校统计学教授 Galit Shmueli 撰写。
  8. 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传,关于来自 Better 公司的分析博客。
  9. 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传,来自人类工程师的博客。
  10. FastML,涵盖机器学习和数据科学的实际应用。
  11. net,由约翰·兰福德撰写,作为领先的应用机器学习研究员,讨论机器学习理论与实践的交汇点。
  12. 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传,由亚历克斯·卡斯特罗尼斯撰写,涵盖包括人工智能、机器学习、数据科学、大数据和物联网在内的主题,重点讲解概念、技术、最佳实践和趋势。
  13. 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传,涵盖数学、电气工程和神经科学的一般领域的教程风格文章。
  14. 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传,关于数据分析研究的发现、结果和思考。
  15. 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传,由安妮撰写,一位市场研究方法论者,博客内容涉及抽样、调查、统计、图表等。
  16. Nuit Blanche,由伊戈尔·卡龙撰写,专注于压缩感知、先进的矩阵分解技术、机器学习。
  17. Perpetual Enigma,由普拉提克·乔希撰写,计算机视觉爱好者撰写关于机器学习的疑问风格引人入胜的故事。
  18. 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传,由马特·阿舍撰写,他是多伦多大学的统计研究生。查看阿舍的统计宣言。
  19. Stats with Cats,由查理·库夫斯撰写,他在数字处理方面已有三十余年经验。
  20. StreamHacker,由雅各布·帕金斯撰写,他是《Python 3 Text Processing with NLTK 3 Cookbook》的作者。
  21. 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传,涵盖网站分析、R 语言、Google Analytics 及相关话题。
  22. The Geomblog,由苏雷什撰写。
  23. 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传,由卡内基梅隆大学统计学教授科斯马·沙利齐撰写的博客。
  24. Walking Randomly,由迈克·克劳彻撰写。
  25. 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传,由数据科学家何塞·玛丽亚·马特奥斯·佩雷斯撰写。
  26. 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传,有关数据科学的内容和对世界的思考。
  27. 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传,覆盖数据科学和技术的博客,特别是 Python、flask、scikit-learn 或骑行。
  28. 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传,由 John Mount 和 Nina Zumel 撰写,包含评论文章和技术写作。

博客聚合器

  1. Analytics Vidhya,关于分析技能的发展、分析行业最佳实践等。
  2. 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传,一个精心策划的数据科学博客列表。
  3. IBM 大数据中心博客,来自 IBM 思想领袖的博客。
  4. KDnuggets,一个关于大数据、数据科学、数据挖掘、预测分析的领先网站/博客(此站点为完整性考虑而包含)。
  5. 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传,前身为“O’Reilly Radar”,提供广泛的研究工具和书籍。
  6. Planet Big Data,一个关于大数据、Hadoop 及相关话题的博客聚合器,我们包括全球博主的帖子。
  7. R-bloggers,来自 R 社区的最佳博客,包含代码、示例和可视化。
  8. SAS 博客首页,连接 SAS 的人员、产品和想法。
  9. 智能数据集合,一个聚合了许多有趣的数据科学人员博客的集合。
  10. StatsBlog,一个专注于统计学相关内容的博客聚合器,通过 RSS 订阅从贡献博客中汇总帖子。
  11. 数据仓库内幕,来自 Oracle 团队的数据仓库和大数据的技术细节、想法和新闻。

其他

  1. 超越盒子评分,一个利用统计分析棒球比赛的博客。
  2. 大数据与大利润,由西北大学的 Russell Walker 教授撰写的博客。
  3. 计算风险,有关金融和经济的博客。
  4. FiveThirtyEight,由 Nate Silver 及其团队撰写,利用图表和饼图从统计角度分析从政治到科学到体育的各种话题。
  5. Freakonomics 博客,由 Steven Levitt 和 Stephen J. Dubner 撰写。
  6. 卫报数据博客,对其新闻中的话题进行数据新闻报道。
  7. 非官方 Google Analytics,ROI Revolution 的博客。
  8. 网络分析与联盟营销,Dennis R. Mortensen 关于如何通过分析增加出版商收入的博客。

资源:

  • 在线和基于网页的:分析、数据挖掘、数据科学、机器学习教育
  • 分析、数据科学、数据挖掘和机器学习的软件

相关:

  • SIAM 数据科学丛书系列
  • KDnuggets – 最受欢迎的数据科学/机器学习博客
  • 90 个活跃的关于分析、大数据、数据挖掘、数据科学、机器学习的博客(已更新)

更多相关内容

  • 如何撰写吸引人的技术博客
  • 人工智能、分析、机器学习、数据科学、深度学习…
  • 学习数据科学、机器学习和深度学习的稳固计划
  • 数据科学、数据可视化及…的前 38 大 Python 库
  • KDnuggets 新闻,6 月 22 日:主要的监督学习算法…
  • 2022 年关键的数据科学、机器学习、人工智能和分析发展

原文:

赞助帖子。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传


外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. 谷歌网络安全证书 - 快速进入网络安全职业轨道

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. 谷歌数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. 谷歌 IT 支持专业证书 - 支持你组织的 IT 部门


本教程将带你比较 XGBoost 和随机森林这两种流行的决策树算法,并帮助你识别像袋装法和提升法这样的集成技术的最佳应用场景。

按照教程,你将学习到:

  • 如何使用 Python 和 Pandas 创建决策树
  • 如何使用 sklearn 的 RandomForestClassifier 进行树袋法
  • 如何使用 XGBoost 进行树提升

了解袋装法和提升法的好处——并知道何时使用哪种技术——将使你的机器学习模型具有更小的方差、更低的偏差和更高的稳定性。自己试试吧!

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

了解更多相关话题

  • 随机森林与决策树:关键差异
  • 随机森林算法是否需要标准化?
  • 调优随机森林超参数
  • 通过 Python 和 Scikit-learn 简化决策树解释
  • 决策树算法解析
  • 通过实现理解:决策树

原文:

赞助帖子。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传


外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速进入网络安全领域。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升你的数据分析能力

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持你的组织的信息技术工作


任何机器学习(ML)项目中最重要的部分之一是进行探索性数据分析(EDA),以确保数据的有效性并且没有明显的问题。EDA 还帮助你在项目开始之前向业务利益相关者提供数据驱动的见解,确保你提出正确的问题。

在本教程中,你将使用 Python 和 Pandas 来:

  • 探索数据集并创建可视化分布
  • 识别并消除异常值
  • 揭示两个数据集之间的相关性

创建探索性数据分析(EDA)是构建更清洁、更高效的机器学习和人工智能模型的第一步之一。阅读教程并亲自尝试一下吧!

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

更多相关内容

  • 掌握 SQL、Python、数据清洗、数据整理及探索性数据分析的指南合集
  • 针对非结构化数据的探索性数据分析技术
  • 数据科学家必备的探索性数据分析指南
  • 掌握探索性数据分析的 7 个步骤
  • 使用聚类分析对数据进行分段
  • 5 个用于地理空间数据分析的 Python 包

原文:

由 ActiveState 提供。赞助帖子。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果你的组织正在考虑或刚刚开始机器学习,你可能需要为你的 ML 项目提出商业案例。《机器学习执行指南》将帮助你做到这一点。我们涵盖了从对业务的好处到构建或购买过程的所有内容。我们的指南提供了实施 ML 于组织的实际概述(适用于技术和非技术读者)。

这本 4 章指南包括:

  • 第一章:为什么选择机器学习
  • 第二章:ML 从大数据开始
  • 第三章:商业与开源 ML 解决方案
  • 第四章:成为一个以 ML 驱动的公司

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传


外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. 谷歌网络安全证书 - 快速进入网络安全职业轨道。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. 谷歌数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. 谷歌 IT 支持专业证书 - 支持你的组织 IT 需求


更多相关话题

  • 初学者的端到端机器学习指南
  • 机器学习可视化简易指南
  • 选择正确机器学习算法的简单指南
  • 必备机器学习算法:初学者指南
  • 如何像老板一样进行 MLOps:机器学习无泪指南
  • 初学者的前 10 大机器学习算法指南

原文:

赞助文章。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

随着组织继续投资大数据,挑战不再在于数据本身,而在于将数据转化为业务价值的算法。


外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速进入网络安全职业生涯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升您的数据分析能力

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持您的组织 IT


Python 正在成为解锁大数据力量的通用语言,因为领先公司采用 Python 来推动高级分析、构建机器学习模型,并将结果转化为强大的网络应用程序。

本指南提供了如何为团队的数据科学和机器学习计划实施 Python 的执行概述,并包括:

  • Python、R、Java 和 Go 在关键领域的比较
  • 流行的 Python 数据科学包的使用案例
  • 开源与商业工具的考虑
  • 建立数据科学家和数据分析师团队
  • 许可、安全、技术支持等

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

更多相关主题

  • 合成数据平台:解锁生成性 AI 在结构化数据中的力量
  • 解锁健康经济学和成果研究中的数字力量
  • 解锁人工智能的力量 - KDnuggets 和 Machine 的特别发布
  • 超越 Numpy 和 Pandas:挖掘不为人知的 Python 库的潜力
  • 利用 CuPy 在 Python 中发挥 GPU 的强大功能
  • 21 个数据科学面试必备备忘单:揭开…

原文:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

摄影:由Kanchanara拍摄,发布于Unsplash。

正如这个术语所暗示的那样,算法交易是按照给定算法执行交易操作。算法交易,就像任何自动化工具一样,是一种活动增强器和经济过程的催化剂。


外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速进入网络安全职业。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持你的 IT 职业生涯


根据使用方式,算法交易对金融市场有多种影响:

  • 使各站点之间的价格平衡;
  • 平滑价格的剧烈波动;
  • 提供流动性;
  • 在交易参与者之间重新分配风险;
  • 帮助建立公平的价格;
  • 自动化交易员的日常操作。

另一个目标是最大化利润。这类算法被例如电子商务和市场平台用来自动确定价格。单独使用这些定价算法,没有限制参数或人工智能(AI),可能会产生奇怪的商业案例。

在 2011 年,两家书商使用亚马逊的算法定价打败了他们的(唯一的)竞争对手,最终将一本关于苍蝇的书的价格推高到 24,000,000 美元每本。

程序员、数学家和分析师共同为市场提供了一个有用的工具——交易机器人(或称为机器人),这些机器人利用提供的算法和数据进行操作。算法交易在交易所的流行导致了高频交易的出现。

根据 Jupiter 资产管理公司的说法,在 2018 年,美国股市中约 80%的交易几乎完全由机器控制。

交易者、经纪人和投资基金不再能够离开机器人开发者,因为人们无法以小点差、高速度和集中度进行交易。有些人创建策略,有些人编写算法,而机器人则按照给定的指令和限制进行交易。

算法交易行业为最终用户——基金或交易者本身——以及机器人和指标的创建者创造了新的收入来源。这样,开发者倾向于联合兴趣社区;其中一个最大的社区是MQL5.com。这个特定的社区将购买现成交易解决方案的买家与准备将策略实施到算法交易机器人的自由开发者联系起来。

还有一个通过将计算机上的闲置 CPU 时间提供给MQL5 Cloud Network来赚钱的选项。这些算力将被开发者和交易者用于进行回测操作。

如果你考虑一下,交易就是在资产交易中做出决策以获得利润。所有技术分析都基于统计数据、市场过去的行为和反应。因此,一些市场模式的分析不仅可以教授给人,也可以教授给计算机、人工智能。

职业交易者被迫升级他们的开发,因为进步使交易变得更加困难。在 2000 年至 2015 年间,他们不得不与交易机器人竞争,然后学会如何调整它们以便为自己获利。

随着市场竞争加剧和大数据方向的发展,机器人的能力变得不足。在自动化交易中,它们开始被可以像人一样思考的机器所取代。自 2015 年左右以来,交易者及其机器人不得不开始与人工智能竞争。

在过去 5 年中,带有 AI 的交易系统数量显著增长。随着它们的传播和对市场的影响,使用过时自动化的交易者看到收入下降。相反,那些使用人工智能进行交易的交易者比市场平均水平获得更好的结果。

今天,人工智能显然是市场和算法交易的有机组成部分。此外,你甚至可以在 MQL5.com 市场找到免费的基于 AI 的交易解决方案。根据 IHS Markit,2018 年金融机构使用 AI 的效果估计为 411 亿美元,2030 年这一数字可能达到 3000 亿美元。该技术用于解决许多问题:从寻找模式和异常到创建预测。

如果传统的算法交易是根据某个特定算法——最初包括在程序中的一组规则来进行交易,那么今天,随着 AI 的发展,系统已经获得了从自身经验中学习、预测潜在市场走势并执行之前只能由人类完成的任务的能力。

  • 基于历史数据预测消费者和市场行为。
  • 基于对价格变化、货币价值、全球指数、原材料和其他指标模式的分析,创建实时预测。
  • 在市场中发现异常。
  • 降低操作风险。
  • 提高交易速度和数量。
  • 将从一个任务中获得的知识和模型转移到其他目标任务中,这些任务的数据不足。
  • 使用机器学习方法合成自己的数据。
  • 使用交易前分析并构建交易策略。
  • 节省工人的资源,这些资源可以转移到更具创意和高智力的任务中。

实时分析竞争对手和客户的行为,并迅速响应变化。

AI 技术帮助个人和企业客户进行市场交易。然而,人工智能的特殊性在于它无法在新的非标准情境中进行导航。如果市场上出现异常情况,模型不太可能提供最佳解决方案。疫情就是一个典型例子。

根据英格兰银行的调查,在疫情期间,约 35%的银行经历了基于机器学习方法的 AI 模型运行带来的负面后果。这主要是因为疫情导致了许多宏观经济指标的变化,而这些指标成为模型开发中的参数。

制定一个基于市场趋势和模式理解的有效策略,正成为现代世界中关键的交易工具之一。在这些策略中,交易员可以确定最佳的进入点,降低风险,并在固定收益的退出点进行交易。AI 在情感方面发挥了作用,为个人制定了平衡的交易理念。

Rumzz Bajwa (@rumzzbajwa) 是一位数字策略师和内容营销专家。她喜欢和家人共度时光。她喜欢外出并体验新鲜事物。Rumzz 在研究新的主题时发现了满足感,这些主题有助于扩展她的观点。你经常可以看到她沉浸在一本好书中或寻找新的体验。

更多信息

  • 40%的劳动者将在 3 年内受到 AI 的影响
  • 云存储的采纳是当务之急
  • 如何通过机器学习模型的解释性加速 AI 采纳之旅
  • 边缘 AI 的承诺与有效采纳的方法
  • 每位数据科学家至少犯过一次的错误
  • Meta 的新数据分析师专业认证已发布!

原文:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者提供的图片


外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速进入网络安全领域。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持你的组织的 IT 需求


随着技术行业的快速进步和增长,现在正是你提升职业生涯的最佳时机。

不幸的是,技术行业目前正在经历许多裁员。这可能是由于经济因素或 AI 在我们日常生活中的使用。此时,你可以为自己做的最好的事情就是让自己在市场上更具吸引力。

你怎么做呢?

通过学习新技能和积累更多经验来推动你的职业发展。

你需要成为一个在市场上技能需求高而供应少的专业人士。

让我们来深入了解可以帮助你提升职业生涯的认证课程。

链接: Google 商业智能专业证书

据说,从 2021 年到 2031 年,商业智能分析师的职位市场将增长 23%。随着技术行业竞争的加剧,大大小小的公司正在寻找更有效的支出方式,以增加投资回报。未来的商业智能分析师具备关注用户体验和最终客户的数据分析技能。

在 Google 提供的这一认证课程中,你将学习商业智能专业人员的角色和职责,然后实践使用提取、转换和加载(ETL)等过程进行数据建模,帮助你满足组织的需求。

将你的发现转化为数据可视化,以帮助回答业务问题,以及一个可以帮助你将数据洞察传达给利益相关者的仪表盘。

链接: AWS 云解决方案架构师专业证书

随着越来越多的企业迁移到云端,对 AWS 解决方案架构师的需求持续增长。AWS 目前占据了 33% 的 IaaS 市场,解决方案架构师的年薪平均为 100,000 美元,以满足这种需求。

在 AWS 自身提供的这个认证中,你将学习如何做出明智的决策,决定何时以及如何应用关键的 AWS 服务,包括计算、存储、数据库、网络、监控和安全。

然后你将进一步深入了解架构解决方案的设计、运营卓越性,以及解决常见的业务挑战。但这还不止于此,你还将学习如何以安全和可扩展的方式创建和操作数据湖,并学习如何优化性能和成本。

链接:微软 Azure 开发人员助理 (AZ-204) 专业证书

随着越来越多的组织严重依赖机器学习和人工智能,Azure 专业人员的需求也在增加,以满足组织的云需求。

在微软提供的这个认证课程中,你将经历云开发的所有阶段,从需求、定义和设计;到开发、部署和维护;再到性能调整和监控。该课程为开发人员提供了如何在微软 Azure 中创建端到端解决方案的良好理解。

你将学习如何实施解决方案、管理 Web 应用程序以及开发身份验证和授权。这个认证包含 8 门课程,将帮助你为考试 AZ-204:开发 Microsoft Azure 解决方案做好准备。

为了在日益热门的市场中保持竞争力,你需要关注当前市场中组织的需求以及你如何满足这些需求。这就是我只介绍了 3 个认证的原因,因为这正是当前市场所需的。

如果你有其他推荐给社区的认证,请在下面的评论中留言!

尼莎·阿亚是一位数据科学家、自由技术作家,同时还是 KDnuggets 的编辑和社区经理。她特别感兴趣于提供数据科学职业建议或教程以及围绕数据科学的理论知识。尼莎涉及广泛的话题,并希望探索人工智能可以如何促进人类寿命的不同方式。作为一个热衷学习者,尼莎寻求拓宽她的技术知识和写作技能,同时帮助指导他人。

更多相关话题

  • 提升你的数据科学职业到下一个层次
  • 5 个数据科学社区助力你的职业发展
  • 通过排名第三的在线数据科学硕士课程提升你的职业发展
  • 谷歌推出的 5 门 AI 课程助力你的职业发展
  • 适用于科技行业各个领域的热门谷歌认证
  • 7 门哈佛大学免费课程提升你的技能

原文:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来源:作者

机器学习无疑是新时代的明星。它构成了各种主要技术的基础,这些技术已经成为我们日常生活的不可或缺的一部分,如面部识别(由卷积神经网络或 CNN 支持)、语音识别(利用 CNN 和递归神经网络或 RNN)以及日益流行的聊天机器人,如 ChatGPT(由人类反馈强化学习,RLHF 驱动)。


外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. 谷歌数据分析专业证书 - 提升你的数据分析能力

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. 谷歌 IT 支持专业证书 - 支持你的组织在 IT 方面


目前有许多方法可以提升机器学习模型的性能。这些方法能通过提供卓越的表现为你的项目带来竞争优势。

在这次讨论中,我们将深入探讨特征选择技术。但在继续之前,让我们澄清一下:什么是特征选择?

特征选择是选择对你的模型最有利的特征的过程。这一过程可能因技术而异,但主要目标是找出对你的模型影响最大的特征。

因为有时候,特征过多可能会对你的机器学习模型产生负面影响。怎么回事呢?

可能有很多不同的原因。例如,这些特征可能相互关联,导致多重共线性,从而破坏模型的性能。

另一个潜在问题与计算能力有关。特征过多需要更多的计算能力来同时执行任务,这可能需要更多资源,因此增加成本。

当然,也可能还有其他原因。但这些例子应该能给你一个大致的了解。不过,在我们进一步探讨这个话题之前,还有一个重要的方面需要理解。

是的,这是个很好的问题,应该在开始项目之前得到回答。但很难给出一个通用的答案。

特征选择模型的选择依赖于你拥有的数据类型和项目的目标。

例如,像卡方检验或互信息增益这样的过滤方法通常用于分类数据的特征选择。像前向选择或后向选择这样的包裹方法适用于数值数据。

不过,值得了解的是,许多特征选择方法可以处理分类数据和数值数据。

例如,lasso 回归、决策树和随机森林都可以很好地处理这两种数据类型。

就监督特征选择和无监督特征选择而言,监督方法如递归特征消除或决策树适用于有标签的数据。无监督方法如主成分分析(PCA)或独立成分分析(ICA)用于无标签的数据。

最终,特征选择方法的选择应基于数据的具体特征和项目的目标。

查看一下我们将在文章中讨论的主题概述。熟悉它,然后让我们开始讨论监督特征选择技术。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由作者提供

监督学习中的特征选择策略旨在通过利用输入特征与目标变量之间的关系来发现最相关的特征。这些策略可能有助于提高模型性能,减少过拟合,并降低模型训练的计算成本。

这是我们将讨论的监督特征选择技术的概述。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由作者提供

基于过滤的方法依赖于数据的固有属性,如特征相关性或统计数据。这些方法评估每个特征单独或成对的价值,而不考虑特定学习算法的表现。

基于过滤的方法计算效率高,可以与多种学习算法配合使用。然而,由于它们没有考虑特征与学习方法之间的交互,它们可能无法总是捕捉到特定算法的理想特征子集。

查看基于过滤的方法的概述,然后我们将逐一讨论每种方法。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由作者提供

信息增益

信息增益是一种统计量,通过根据特定特征对数据进行划分来测量熵(不确定性)的减少。它常用于决策树算法,并且具有有用的特征。特征的信息增益越高,它在决策中越有用。

现在,让我们通过使用预构建的糖尿病数据集来应用信息增益。

糖尿病数据集包含与预测糖尿病进展相关的生理特征。

  • age: 年龄(岁)
  • sex: 性别(1 = 男性,0 = 女性)
  • BMI: 体质指数,计算方法为体重(千克)除以身高(米)的平方
  • bp: 平均血压(mm Hg)
  • s1、s2、s3、s4、s5、s6: 六种不同血液化学物质(包括葡萄糖)的血清测量

以下代码演示了如何应用信息增益方法。此代码使用来自 sklearn 库的糖尿病数据集作为示例。

 

这段代码的主要目标是基于信息增益计算特征重要性分数,这有助于确定对预测模型最相关的特征。通过确定这些分数,你可以对分析中应包含或排除哪些特征做出明智的决策,从而提高模型性能,减少过拟合,并加快训练时间。

为此,这段代码计算了数据集中每个特征的信息增益分数,并将其存储在字典中。

 

然后根据它们的分数将特征按降序排序。

 

我们将把排序后的特征重要性分数可视化为水平条形图,以便你能够轻松比较不同特征在给定任务中的相关性。

这种可视化在决定在构建机器学习模型时保留或丢弃哪些特征时特别有用。

 

让我们看看完整的代码。

 

这是输出结果。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

输出结果显示了使用信息增益方法计算的每个特征的重要性分数。特征按照分数的降序排列,这些分数表示它们在预测目标变量中的相对重要性。

结果如下:

  • 体质指数(bmi)具有最高的重要性分数(0.174),表明它对糖尿病数据集中目标变量的影响最大。
  • 血清测量 5(s5)以 0.153 的分数紧随其后,是第二重要的特征。
  • 血清测量 6(s6)、血清测量 4(s4)和血压(bp)具有中等的重要性分数,范围从 0.104 到 0.065。
  • 其余特征,如血清测量 1、2 和 3(s1、s2、s3)、性别和年龄的重要性分数相对较低,表明它们对模型的预测能力贡献较小。

通过分析这些特征重要性得分,你可以决定哪些特征应该包含在分析中,哪些特征应排除,以提高机器学习模型的性能。在这种情况下,你可能考虑保留重要性得分较高的特征,如 bmi 和 s5,同时可能去除或进一步调查得分较低的特征,如 age 和 s2。

卡方检验

卡方检验是一种统计检验,用于评估两个分类变量之间的关系。它在特征选择中用于分析分类特征与目标变量之间的关系。较大的卡方得分表明特征与目标之间的关联更强,显示该特征在分类任务中更为重要。

尽管卡方检验是一种常用的特征选择方法,但它通常用于分类数据,其中特征和目标变量是离散的。

费舍尔得分

费舍尔判别比率,通常称为费舍尔得分,是一种特征选择方法,根据特征区分数据集中不同类别的能力来对特征进行排名。它可以用于分类问题中的连续特征。

费舍尔得分的计算为类别间方差与类别内方差的比率。较高的费舍尔得分意味着特征更具区分性,对分类更有价值。

要使用费舍尔得分进行特征选择,计算每个连续特征的得分并根据得分对其进行排名。模型认为费舍尔得分较高的特征更重要。

缺失值比率

缺失值比率是一种简单的特征选择方法,它根据特征中缺失值的数量做出决策。

缺失值比例较高的特征可能无信息量,并可能影响模型的性能。通过设置接受的缺失值比率阈值,可以过滤掉缺失值过多的特征。

要使用缺失值比率进行特征选择,请按照以下步骤操作:

  1. 通过将缺失值的数量除以数据集中实例的总数来计算每个特征的缺失值比率。
  2. 设置一个可接受的缺失值比率阈值(例如,0.8,意味着一个特征最多允许 80%的值缺失才被考虑)。
  3. 过滤掉缺失值比率高于阈值的特征。

基于包装的特征选择方法包括使用特定的机器学习算法评估特征的重要性。它们通过尝试各种特征组合并使用所选方法评估其性能来寻找最佳特征子集。

由于可用特征子集的数量庞大,基于包装的特征选择方法可能计算成本高,尤其是在处理高维数据集时。

然而,它们通常比基于过滤的方法表现更好,因为它们考虑了特征与学习算法之间的关系。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者提供的图片

前向选择

在前向选择中,你从一个空的特征集开始,并逐步添加特征。在每一步中,你评估当前特征集和新增特征的模型性能。那些带来最佳性能提升的特征将被添加到特征集中。

该过程持续进行,直到观察到性能没有显著提升,或达到预定义的特征数量为止。

以下代码演示了前向选择的应用,这是一种基于包装的监督特征选择技术。

示例使用了来自 sklearn 库的乳腺癌数据集。乳腺癌数据集,也被称为威斯康星诊断乳腺癌(WDBC)数据集,是一个常用的预构建分类数据集。在这里,主要目标是构建用于诊断乳腺癌为恶性(癌性)或良性(非癌性)的预测模型。

为了我们模型的需要,我们将选择不同数量的特征以观察性能的变化,但首先,让我们加载库、数据集和变量。

 

代码的目标是通过前向选择识别出适用于逻辑回归模型的最佳特征子集。这种技术从一个空的特征集开始,迭代地添加那些基于指定评估指标提高模型性能的特征。在这种情况下,使用的评估指标是准确性。

代码的下一部分使用 mlxtend 库中的 SequentialFeatureSelector 来执行前向选择。它配置了一个逻辑回归模型、所需的特征数量和 5 折交叉验证。前向选择对象被拟合到训练数据中,所选特征将被打印出来。

 

此外,我们还需要评估所选特征在测试集上的表现,并通过折线图可视化模型在不同特征子集下的表现。

图表将展示交叉验证的准确性作为特征数量的函数,提供有关模型复杂性与预测性能之间权衡的见解。

通过分析输出和图表,你可以确定在模型中包含的最佳特征数量,从而最终提高其性能并减少过拟合。

 

这是完整的代码。

 

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

前向选择代码的输出结果显示,该算法识别了 5 个特征的子集,这些特征在乳腺癌数据集上的逻辑回归模型中产生了最佳准确率(0.9548)。这些选定的特征通过其索引进行标识:0、1、4、21 和 22。

线形图提供了有关不同特征数量下模型性能的额外见解。它显示:

  • 使用 1 个特征,模型的准确率约为 91%。
  • 添加第二个特征将准确率提高至 94%。
  • 使用 3 个特征,准确率进一步提高至 95%。
  • 包含 4 个特征使准确率稍微超过 95%。

超过 4 个特征后,准确率的提高变得不那么显著。这些信息可以帮助你做出关于模型复杂性和预测性能之间权衡的明智决定。基于这些结果,你可能决定在模型中仅使用 3 或 4 个特征,以平衡准确性和简洁性。

后向选择

前向选择的对立方法是后向选择。你从整个特征集开始,并逐渐消除其中的特征。

在每个阶段,你需要测量当前特征集减去要删除的特征后的模型性能。

造成性能下降最小的特征被从特征集中删除。

该过程重复进行,直到性能没有实质性提升或达到预设的特征数量。

后向选择和前向选择被归类为顺序特征选择;你可以在这里了解更多信息。

穷尽特征选择

穷尽特征选择比较所有可能的特征子集的性能,并选择表现最好的子集。这种方法计算量大,特别是对于大数据集,但确保了最佳的特征子集。

递归特征消除

递归特征消除从整个特征集开始,并根据学习算法判断的相关性反复消除特征。在每一步,最不重要的特征被移除,模型被重新训练。该方法重复进行,直到达到预定数量的特征。

嵌入式特征选择方法将特征选择过程作为学习算法的一部分。

这意味着在训练阶段,学习算法不仅优化模型参数,还选择最重要的特征。嵌入式方法比包装方法更有效,因为它们不需要外部特征选择过程。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者提供的图像

正则化

正则化是一种向损失函数添加惩罚项的方法,以防止机器学习模型中的过拟合。

正则化方法,如 lasso(L1 正则化)和 ridge(L2 正则化),可以与特征选择结合使用,以减少不重要特征的系数接近零,从而选择出最相关特征的子集。

随机森林重要性

随机森林是一种集成学习方法,它结合了多个决策树的预测。随机森林在构建树的过程中计算每个特征的重要性评分,这些评分可以用来根据特征的相关性进行排序。模型将具有更高重要性评分的特征视为更重要。

如果你想了解更多关于随机森林的信息,下面的文章“决策树和随机森林算法”也解释了决策树算法。

以下示例使用了 Covertype 数据集,该数据集包含有关不同类型森林覆盖的信息。

Covertype 数据集的目标是预测罗斯福国家森林中森林覆盖类型(主导树种)。

下面代码的主要目标是使用随机森林分类器来确定特征的重要性。通过评估每个特征对整体分类性能的贡献,这种方法有助于识别构建预测模型的最相关特征。

 

然后,我们创建一个对象,并将其拟合到训练数据上。接着,它从训练好的模型中提取特征重要性,并按降序排序。前 10 个特征根据其重要性评分被选择并显示在排名中。

 

此外,代码通过水平条形图可视化了前 10 个特征的重要性。

 

该可视化允许轻松比较重要性评分,并有助于在决定包含或排除哪些特征时做出明智的选择。

通过检查输出和图表,你可以选择最相关的特征用于你的预测模型,这有助于提高模型性能,减少过拟合,并加快训练时间。

这是完整代码。

 

这是输出结果。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

随机森林重要性方法的输出显示了根据其在预测森林覆盖类型中的重要性排名的前 10 个特征。

它揭示了海拔在所有特征中具有最高的重要性评分(0.2423),在预测森林覆盖类型中作用最大。这表明海拔在确定罗斯福国家森林中的主导树种方面起着关键作用。

其他具有较高重要性分数的特征包括 Horizontal_Distance_To_Roadways(0.1158)和 Horizontal_Distance_To_Fire_Points(0.1100)。这些特征表明,靠近道路和火点也显著影响森林覆盖类型。

排名前 10 的特征中,其余特征的重要性分数相对较低,但它们仍然对模型的整体预测性能有所贡献。这些特征主要与水文因素、坡度、方位和山阴影指数相关。

总结来说,结果突出了影响罗斯福国家森林区森林覆盖类型分布的最重要因素,这些因素可以用于构建更有效、更高效的森林覆盖类型分类预测模型。

当没有目标变量可用时,可以使用无监督特征选择方法来降低数据集的维度,同时保持其基本结构。这些方法通常包括将初始特征空间转换为一个新的低维空间,其中变化后的特征捕捉数据中的大部分变异。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由作者提供

PCA 是一种线性降维方法,将原始特征空间转换为由主成分定义的新正交空间。这些组件是原始特征的线性组合,旨在捕捉数据中的最高方差。

PCA 可用于选择代表大部分变异的前 k 个主成分,从而降低数据集的维度。

为了向您展示这如何在实践中运作,我们将使用葡萄酒数据集。这是一个广泛用于分类和特征选择任务的机器学习数据集,包含 178 个样本,每个样本代表来自意大利同一地区三种不同品种的不同葡萄酒。

使用葡萄酒数据集的目标通常是构建一个预测模型,该模型可以根据化学属性将葡萄酒样本准确地分类为三种品种之一。

以下代码演示了无监督特征选择技术主成分分析(PCA)在葡萄酒数据集上的应用。

这些组件(主成分)捕捉数据中最多的方差,同时最小化信息损失。

代码首先加载葡萄酒数据集,该数据集包含描述不同葡萄酒样本化学性质的 13 个特征。

 

然后使用 StandardScaler 对这些特征进行标准化,以确保 PCA 不会受到输入特征尺度变化的影响。

 

接下来,使用 sklearn.decomposition 模块中的 PCA 类对标准化数据进行 PCA。

 

每个主成分的解释方差比例都被计算出来,表示每个主成分解释的数据总方差的比例。

 

最后,生成两个图来可视化主成分的解释方差比例和累计解释方差。

第一个图展示了每个单独主成分的解释方差比例,而第二个图则说明了随着更多主成分的加入,累计解释方差是如何增加的。

这些图帮助确定模型中使用的主成分的最佳数量,在维度减少和信息保留之间取得平衡。

 

让我们看看完整的代码。

 

这是输出结果。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

左侧图表显示解释方差比例随着主成分数量的增加而减少。这是 PCA 中观察到的典型行为,因为主成分是按解释方差的多少排序的。

第一个主成分(特征)捕捉到最高的方差,第二个主成分捕捉到第二高的方差,依此类推。因此,解释方差比例随着每个后续主成分的增加而减少。

这是 PCA 用于维度减少的主要原因之一。

右侧的第二张图展示了累计解释方差,并帮助你确定选择多少主成分(特征)来表示数据的百分比。x 轴表示主成分的数量,y 轴显示累计解释方差。当你沿 x 轴移动时,可以看到在包含这么多主成分时保留了多少总方差。

在这个例子中,你可以看到选择大约 3 或 4 个主成分已经捕捉了超过 80%的总方差,而大约 8 个主成分捕捉了超过 90%的总方差。

你可以根据希望在维度减少和保留方差之间的权衡选择主成分的数量。

在这个例子中,我们确实使用了 Sci-kit 来学习应用 PCA,官方文档可以在这里找到。

ICA 是一种将多维信号分解为其成分的方法。

在特征选择的背景下,ICA 可以用来将原始特征空间转换为一个由统计独立成分组成的新空间。通过选择前 k 个独立成分,你可以在保持底层结构的同时减少数据集的维度。

非负矩阵分解(NMF)是一种维度减少方法,通过将一个非负数据矩阵近似为两个低维非负矩阵的乘积来实现。

NMF 可用于特征选择的背景下,提取一组新的基本特征,以捕捉原始数据的重要结构。通过选择前 k 个基础特征,你可以在保持非负性限制的同时最小化数据集的维度。

t-SNE 是一种非线性降维方法,它试图通过减少高维和低维位置之间的配对概率分布差异来保持数据集的结构。

t-SNE 可以应用于特征选择,将原始特征空间投影到一个低维空间中,从而保持数据的结构,允许更好的可视化和评估。

你可以在这里找到更多关于无监督算法和 t-SNE 的信息 “无监督学习算法”。

自编码器是一种人工神经网络,它学习将输入数据编码成低维表示,然后再将其解码回原始版本。自编码器的低维表示可以用来生成另一组特征,以捕捉原始数据的潜在结构。

总结来说,特征选择在机器学习中至关重要。它有助于减少数据的维度,最小化过拟合的风险,并提高模型的整体性能。选择合适的特征选择方法取决于具体的问题、数据集和建模要求。

本文涵盖了广泛的特征选择技术,包括监督和无监督方法。

监督技术,如基于滤波器、基于包装和嵌入的方法,利用特征与目标变量之间的关系来识别最重要的特征。

无监督技术,如 PCA、ICA、NMF、t-SNE 和自编码器,专注于数据的内在结构,以在不考虑目标变量的情况下降低维度。

在为你的模型选择合适的特征选择方法时,考虑数据的特征、每种技术的基本假设和涉及的计算复杂性是至关重要的。

通过仔细选择和应用正确的特征选择技术,你可以显著提升性能,从而获得更好的洞察力和决策能力。

内特·罗西迪 是一名数据科学家,专注于产品策略。他还是一位副教授,教授分析学,并且是 StrataScratch 的创始人,这个平台帮助数据科学家准备面试,提供来自顶级公司的真实面试问题。可以在 Twitter: StrataScratch 或 LinkedIn 上联系他。

了解更多主题

  • 机器学习中的替代特征选择方法
  • 特征选择:科学与艺术的结合
  • 特征商店峰会 2022:关于特征工程的免费会议
  • 学习高级 SQL 技巧的 5 个免费资源
  • 10 种高级 Git 技巧
  • 3 种研究驱动的高级提示技术以提高 LLM 效率…

原文:

评论

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

仅回顾一下我们上一个帖子中关于PyTorch Lightning 入门的内容,在本教程中,我们将深入探讨你应该使用的两个额外工具:TorchMetrics 和 Lightning Flash。

TorchMetrics 不出所料地提供了一个模块化的方法来定义和跟踪跨批次和设备的有用指标,而 Lightning Flash 提供了一套功能,促进更高效的迁移学习和数据处理,以及一份针对典型深度学习问题的最新方法的配方书。

我们将从向之前开始的 MNIST 示例中添加一些有用的分类指标开始。我们还将用 Flash Trainer 对象替换 PyTorch Lightning Trainer 对象,这将使我们更容易在新的分类问题上进行迁移学习。然后,我们将使用新的数据集CIFAR10来训练我们的分类器,我们将以此作为迁移学习示例的基础,转移到CIFAR100。

TorchMetrics

首先要做的是确保我们已经安装了所有需要的包。如果你已经按照“入门”教程中的安装说明操作,并现在通过 检查你的虚拟环境内容,你会发现你可能已经安装了 TorchMetrics。如果没有,请使用以下命令安装 TorchMetrics 和 Lightning Flash:

 

接下来,我们将修改我们的训练和验证循环,以记录 F1 分数和接收者操作特征曲线下面积(AUROC)以及准确率。我们将从 中移除(已弃用的)准确率,并从我们的模型中 回调中移除类似的 sklearn 函数,但首先,让我们确保在顶部添加必要的导入。

 

接下来,移除我们之前用来计算准确率的代码行:

 

和:

 

现在,我们可以用等效的 TorchMetrics 函数实现来替换我们删除的部分,计算准确率,然后就这样结束:

 

和:

 

不过,使用基于类的模块化版本的指标还有其他优势。

使用基于类的指标,我们可以在运行训练和验证时持续积累数据,并在最后计算结果。这在单一设备上很方便和高效,但在多个设备上,它真正变得有用,因为指标模块可以在多个设备之间自动同步。

我们将在 函数中初始化我们的指标,并在训练和验证步骤中添加每个指标的调用。

 

在 中定义的指标模块将在 和 中被调用,我们将在每个训练和验证周期结束时计算这些指标。

在步骤函数中,我们将调用我们的指标对象以在训练和验证周期中累积指标数据。我们可以为每个指标对象调用“forward”方法以在返回当前批次的值的同时累积数据,或者调用“update”方法来静默累积指标数据。

 

我们将重写 并重载 以一次计算和报告整个周期的指标。

 

通过这些少量更改,我们可以利用 TorchMetrics 中实现的 25 种不同的指标,或子类化 类并实现我们自己的指标。不过,请记住,子类化 LightningModule 类比实现常见任务如图像分类的训练有更简单的方法。

Lightning Flash

如同一套俄罗斯套娃的深度学习抽象库,Lightning Flash 在 PyTorch Lightning 上添加了更多抽象和简化。事实上,我们只需 7 行代码就能训练一个图像分类任务。我们将使用 CIFAR10 数据集以及基于 Lightning Flash 内置 ResNet18 主干的分类模型。接着,我们将展示如何将模型主干重新用于分类新数据集 CIFAR100。

尽管 Lightning Flash 仍在积极开发中,且有许多尖锐的边角,但你已经可以用很少的代码组装特定的工作流程,甚至有一个他们称之为 Flash Zero 的“无代码”功能。为了我们的目的,我们可以用不到 20 行代码组装一个迁移学习工作流程。

首先,我们将用 8 行代码在 CIFAR10 数据集上进行训练。我们利用 类及其内置的主干架构,以及 类来替代训练和验证的数据加载器。

 

然后,我们可以通过重新使用我们之前训练的模型的特征提取主干并使用“freeze”方法进行迁移学习,来训练新的图像分类任务 CIFAR100 数据集,该数据集每个类别的示例较少。

这种策略只更新新的分类头上的参数,同时保持主干参数不变。

 

这种将参数重新应用于新任务的方式是迁移学习的核心,节省了时间和计算以及相关成本。考虑到开发者的时间比计算时间更宝贵,Lightning Flash 的简洁编程风格可能非常值得学习几个新的 API 模式。

一些最实用的深度学习建议可以归结为“不要做英雄”,不要重新发明轮子,忽视像 Flash 这样的便捷工具,这些工具可以让你的生活更轻松。

说到简化,还有一种使用 Flash 训练模型的方法我们不得不提及。通过 Flash Zero,你可以直接从命令行调用 Lightning Flash,使用内置的 SOTA 模型来训练常见的深度学习任务。Flash Zero 也有很多棱角分明的地方,如果你想根据自己的需求进行调整,准备好为 PyTorch Lightning 项目贡献一些 pull request。

例如,下面是从 Flash Zero 文档中修改的一个示例。如果你查看 原版 (截至本写作时),你可能会立即注意到下载 hymenoptera 数据集的命令行参数中有一个错别字:下载输出文件名缺少扩展名。下面的修正版下载了 hymenoptera 数据集,并用 ResNet18 主干训练了一个分类器,训练了 10 个周期:

 

文档中的错别字是一个相当小的错误(也是你为项目打开第一个 pull request 的一个良机!),但这表明 PyTorch Lightning 和 Lightning Flash 项目正在快速变化。

随着项目的扩展,预计开发将以快速的速度继续进行。这意味着在新项目中设置依赖时,使用静态版本号可能是个好主意,以避免 Lightning 代码更新时出现破坏性更改。同时,这也为你提供了塑造项目未来的机会,以满足你特定的研发需求,无论是通过 pull request、贡献评论,还是在项目的 GitHub 频道 上提出问题。

在这些 PyTorch Lightning 教程文章中,我们已经看到 PyTorch Lightning 如何用于简化在多个复杂度层级上的常见深度学习任务的训练。通过子类化 ,我们能够定义一个有效的图像分类器,该模型负责训练、验证、指标和日志记录,极大地简化了编写外部训练循环的需要。该模型还使用了 PyTorch Lightning Trainer 对象,使得将整个训练流程切换到 GPU 变得轻而易举。从 Lightning Modules 构建模型是获得实用性而不牺牲控制的一种好方法。

通过使用 Lightning Flash,我们在仅 15 行代码(不包括导入部分)中构建了一个迁移学习工作流。对于那些已知解决方案和成熟的最先进技术的问题,你可以通过利用 Flash 内置的架构和训练基础设施节省大量时间!

最后,我们对 Flash Zero 从命令行进行无代码训练有了初步了解。无代码是一种越来越受欢迎的机器学习方法,尽管工程师对此有所不满,但无代码具有很大的潜力。目前正在迅速发展,Flash Zero 有望成为一种强大的方式,以开箱即用的最佳工程解决方案应用于机器学习和数据科学领域,让科学家可以专注于工作标题中的科学部分。

简介: Kevin Vu 负责 Exxact Corp 博客,并与许多才华横溢的作者合作,这些作者撰写有关深度学习各个方面的内容。

原文。已获许可转载。

相关:

  • PyTorch Lightning 入门
  • 如何将 PyTorch Lightning 模型部署到生产环境
  • 开始使用 PyTorch Lightning

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速进入网络安全职业生涯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持你组织的 IT 需求


更多相关主题

  • 深度学习库简介:PyTorch 和 Lightning AI
  • 开始使用 PyTorch Lightning
  • 免费使用 Lightning AI Studio
  • 深度学习的完整免费 PyTorch 课程
  • 调整 PyTorch 中 Adam 优化器的参数
  • YOLOv5 PyTorch 教程

原文:

评论外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

版权:

在我之前的文章 数据科学中的统计学初学者指南数据科学家应了解的推断统计学 中,我们讨论了几乎所有基础的(描述性和推断性)统计学知识,这些知识在理解和处理任何数据科学案例研究中都很常用。在这篇文章中,我们将稍微深入,探讨一些不在热点中的高级概念。


外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速开启网络安全职业生涯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升你的数据分析能力

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持你的组织的 IT


在理解 图之前,首先了解什么是分位数

分位数定义了数据集中的特定部分,即分位数确定了分布中有多少值高于或低于某个特定限度。特殊的分位数有四分位数(四分之一)、五分位数(五分之一)和百分位数(百分之一)。

一个例子:

如果我们将一个分布分成四个相等的部分,我们将称之为四分位数。第一个四分位数包括所有小于四分之一的所有值。在图形表示中,它对应于分布总面积的 25%。两个较低的四分位数涵盖了分布值的 50%。第一和第三四分位数之间的四分位距等于分布在均值周围的 50%值的范围。

在统计学中,Q-Q(分位数-分位数)图是通过将两组分位数相互绘制的散点图。如果这两组分位数来自同一分布,我们应当能看到点形成一条大致为直线的线(y=x)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Q-Q 图

例如,中位数是一个分位数,其中 50%的数据低于该点,50%的数据高于该点。Q-Q 图的目的是找出两组数据是否来自相同的分布。Q-Q 图上绘制了45 度角;如果两组数据来自相同的分布,则这些点会落在该参考线附近。

知道分布是否正态非常重要,这样才能对数据应用各种统计度量并以更易于人类理解的可视化方式进行解释,而 Q-Q 图正是关键。Q-Q 图回答的最基本问题是曲线是否符合正态分布。

正态分布,但为什么?

Q-Q 图用于找出随机变量的分布类型,无论是高斯分布、均匀分布、指数分布,还是帕累托分布等。

通过仅查看 Q-Q 图,你可以判断分布的类型。一般来说,我们仅讨论正态分布,因为我们有一个非常漂亮的 68-95-99.7 规则,这完全适用于正态分布,因此我们知道数据在均值的第一个、第二个和第三个标准差范围内的分布情况。因此,知道分布是否正态为我们实验打开了新的大门。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Q-Q 图的类型。来源

偏态 Q-Q 图

Q-Q 图可以找出分布的偏度(不对称的度量)。

如果 Q-Q 图的下端偏离直线但上端没有,则分布是左偏(负偏态)

现在,如果 Q-Q 图的上端偏离直线而下端没有,则分布是右偏(正偏态)

尾部 Q-Q 图

Q-Q 图可以找出分布的峰度(尾部厚度的度量)。

拥有胖尾的分布会使 Q-Q 图的两端偏离直线,而其中心部分跟随直线,而瘦尾分布的 Q-Q 图在两端的偏离非常少或可以忽略,从而使其完美符合正态分布。

Python 中的 Q-Q 图(来源)

假设我们有以下包含 100 个值的数据集:

 
 

要为这个数据集创建 Q-Q 图,我们可以使用plot()函数来自 statsmodels 库:

 

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在 Q-Q 图中,x 轴显示理论分位数。这意味着它不显示你的实际数据,而是表示如果你的数据是正态分布的,它应该位于什么位置。

y 轴显示的是你的实际数据。这意味着如果数据值沿着一个大致的 45 度角直线分布,那么数据是正态分布的。

我们可以在上面的 Q-Q 图中看到,数据值趋向于紧密地沿 45 度线分布,这意味着数据很可能是正态分布的。这并不奇怪,因为我们生成了 100 个数据值,使用了numpy.random.normal() 函数

相反,假设我们生成了一个包含 100 个均匀分布值的数据集,并为该数据集创建了一个 Q-Q 图:

 

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据值明显不沿着红色 45 度线分布,这表明它们不符合正态分布。

在概率论中,切比雪夫不等式,也称为“比纳耶夫-切比雪夫”不等式,保证对于广泛的概率分布类,只有一定比例的值会落在距离分布均值的特定范围内。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源:

切比雪夫不等式类似于经验法则(68-95-99.7);然而,后者规则仅适用于正态分布。切比雪夫不等式更广泛;它适用于任何分布,只要该分布包含定义的方差和均值。

所以切比雪夫不等式表明,至少有(1-1/k²)的数据必须落在均值的K个标准差范围内(或者等价地,不超过1/k²的分布值可以偏离均值超过 k 个标准差)。

其中K --> 正实数

如果数据不是正态分布,则不同数量的数据可能会落在一个标准差内。切比雪夫不等式提供了一种方法,了解在任何数据分布中,有多少数据位于均值的K个标准差范围内。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

资料来源:

切比雪夫不等式非常有价值,因为它可以应用于任何给定均值和方差的概率分布。

让我们考虑一个例子,假设有 1000 名应聘者来参加面试,但只有 70 个职位。为了在所有应聘者中挑选出最优秀的 70 人,招聘者会进行测试来评估他们的潜力。测试的平均分是 60,标准差是 6。如果某个应聘者的分数是 84,他们能否假设自己获得了工作?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

结果显示,大约有 63 人得分超过 60,因此在 70 个职位空缺的情况下,得分 84 的参赛者可以确保获得该职位。

Python 中的切比雪夫不等式(源)

创建一个 1,000,000 值的总体,我使用了形状=2、尺度=2 的伽玛分布(也适用于其他分布)。

 

现在从总体中抽样 10,000 个值。

 

计算与期望值距离超过 k 个标准差的样本数量,并用该数量计算概率。我想描绘一个当 k 增加时概率的趋势,因此我使用了从 0.1 到 3 的 k 范围。

 

绘制结果:

 

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

从上述图表和结果中,我们可以看到,随着 k 的增加,概率在减少,每个 k 的概率遵循不等式。此外,只有 k 大于 1 的情况是有用的。如果 k 小于 1,则不等式的右侧大于 1,这没有用,因为概率不能大于 1。

在概率论中,对数正态分布,也称为高尔顿分布,是随机变量的连续概率分布,其对数服从正态分布。

因此,如果随机变量X服从对数正态分布,则Y = ln(X)服从正态分布。等效地,如果Y服从正态分布,则Y的指数函数,即X = exp(Y),服从对数正态分布。

低均值、高方差且所有值均为正的偏斜分布符合这种分布类型。对数正态分布的随机变量只取正实值。

对数正态分布的概率密度函数的一般公式为:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

位置参数和尺度参数相当于随机变量对数的均值和标准差。

对数正态分布的形状由 3 个参数定义:

  1. σ 是形状参数(也是分布对数的标准差)
  2. θμ是位置参数(也是分布的均值)
  3. m 是尺度参数(也是分布的中位数)

位置参数和尺度参数相当于随机变量对数的均值和标准差,如上所述。

如果x = θ,则f(x) = 0。其中θ = 0m = 1的情况称为标准对数正态分布θ等于零的情况称为2 参数对数正态分布

以下图表说明了位置(μ)形状(σ)参数对对数正态分布的概率密度函数的影响:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源:

Python 中的对数正态分布 (来源)

让我们考虑一个例子,使用 scipy.stats.lognorm 函数生成 μ=1σ=0.5 的对数正态分布的随机数。

 

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在统计学中,幂律 是两种量之间的函数关系,其中一种量的相对变化导致另一种量的相对变化成比例,不受这些量初始大小的影响:一种量作为另一种量的幂变化。

例如,考虑一个正方形的面积与其边长的关系,如果边长加倍,面积则乘以四。

幂律分布的形式为 Y = k Xα

其中:

  • XY 是感兴趣的变量,
  • α 是法则的指数,
  • k 是一个常数。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源:

幂律分布只是众多概率分布中的一种,但被认为是评估正态分布无法处理的不确定性问题的宝贵工具,当这些问题发生在一定概率时。

许多过程在广泛的值范围内被发现遵循幂律。从收入分布、小行星体的大小、地震震级、深度神经网络中的权重矩阵的谱密度、单词使用、各种网络中的邻居数量等。(注意:这里的幂律是一个连续分布。最后两个例子是离散的,但在大规模下可以建模为连续的)。

Python 中的幂律分布 (来源)

让我们绘制 帕累托分布,这是一种幂律概率分布的形式。帕累托分布有时被称为帕累托原则或‘80–20’ 规则,因为该规则指出,80% 的社会财富掌握在 20% 的人口手中。帕累托分布不是自然法则,而是一种观察结果。它在许多现实世界问题中很有用。这是一种偏斜的重尾分布。

 

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Box-Cox 变换 将我们的数据转换为接近正态分布的形式。

一参数 Box-Cox 变换定义为在许多统计技术中,我们假设误差是正态分布的。这一假设允许我们构建置信区间并进行假设检验。通过转换目标变量,我们可以(希望)将误差归一化(如果它们尚未正态化)。

此外,变换我们的变量可以提高模型的预测能力,因为变换可以去除白噪声。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

原始分布(左)和应用 Box-Cox 变换后的接近正态分布。来源

Box-Cox 变换的核心是一个指数lambda (λ),其范围从-5 到 5。所有λ的值都被考虑,并为你的数据选择最佳值;“最佳值”是使数据最佳逼近正态分布曲线的值。

一参数 Box-Cox 变换定义为:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

以及两个参数的 Box-Cox 变换为:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

此外,一参数 Box-Cox 变换适用于y > 0,即仅适用于正值;而两个参数 Box-Cox 变换适用于y > -λ,即负值。

参数λ是使用剖面似然函数和拟合优度测试来估计的。

如果我们谈论 Box-Cox 变换的一些缺点,那么如果你想进行解释的话,Box-Cox 是不推荐的。因为如果λ是某个非零数字,那么变换后的目标变量可能比简单地应用对数变换更难以解释。

第二个障碍是,Box-Cox 变换通常在我们将变换后的数据恢复到原始尺度时给出预测分布的中位数。有时,我们需要的是均值而不是中位数。

Python 中的 Box-Cox 变换(来源)

SciPy 的 stats 包提供了一个名为 boxcox 的函数,用于执行 Box-Cox 幂变换,该函数接受原始非正态数据作为输入,并返回拟合的数据以及用于将非正态分布拟合到正态分布的 lambda 值。

 

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在概率论和统计学中,泊松分布是一种离散概率分布,它表示在固定时间间隔或空间中,给定事件发生的数量的概率,前提是这些事件以已知的常数平均速率发生,并且独立于上一个事件以来的时间。

简单来说,泊松分布可以用来估计某事发生“X”次的可能性。

一些泊松过程的例子包括客户拨打帮助中心电话、原子中的放射性衰变、网站访问者、到达空间望远镜的光子以及股票价格的波动。泊松过程通常与时间相关,但并不一定如此。

泊松分布的公式是:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

其中:

  • e 是欧拉数(e = 2.71828…)
  • k 是发生的次数
  • k!k 的阶乘
  • λ 等于 k 的期望值,当且仅当它也等于其方差时。

Lambda(λ) 可以被认为是区间内事件的期望数量。随着我们改变速率参数 λ,我们也改变了在一个区间内观察到不同数量事件的概率。下面的图是泊松分布的概率质量函数,展示了在不同速率参数下事件发生的概率。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

泊松分布的概率质量函数,速率参数变化的情况。来源

泊松分布也常用于建模财务计数数据,其中计数很小,且经常为零。例如,在金融领域,它可以用来建模一个典型投资者在某一天的交易次数,这个次数可以是 0(经常发生),也可以是 1、2 等。

作为另一个例子,这个模型可以用来预测在给定时间段内,比如十年中,市场将发生多少次“冲击”。

Python 中的泊松分布

 

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

随着 λ 变大,图形看起来越来越像正态分布。

希望你喜欢阅读这篇文章。如果有任何问题或建议,请留下评论。

随时通过 LinkedIn 与我联系,有任何问题请随时提问。

感谢阅读!!!

参考文献

原文. 经许可转载。

相关:

  • 数据科学家应该了解的推断统计学
  • 数据科学家需要知道的重要统计学
  • 零样本学习:你能在没有见过物体的情况下对其进行分类吗?

更多相关主题

  • 回到基础 第 2 周:数据库、SQL、数据管理及……
  • 10 个用简单英语解释的基本统计概念
  • 数据科学的 8 个基本统计概念
  • 你应该了解的 7 个 SQL 概念
  • ChatGPT 作为学习数据科学概念的个性化辅导员
  • 你应该了解的 5 个梯度下降和成本函数概念

原文:

评论

由 Aaron Soellinger 和 Will Kunz

在为我们的项目设计 MLOps 堆栈时,我们需要一个解决方案,允许高度的定制和灵活性,以便随着实验的需要而演变。我们考虑了包含许多功能的大型平台,但在一些关键领域感到受限。最终,我们决定采用一种方法,分别实现专用工具用于标注、数据版本控制和持续集成。本文记录了我们构建这种自定义 MLOps 方法的经验。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由 Finding Dan | Dan Grinwis 提供,来自 Unsplash

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(摘自 )

使用 Jupyter 进行开发的经典问题是,从原型到生产需要将代码从笔记本复制/粘贴到 python 模块中。NBDEV 自动化了笔记本和模块之间的过渡,从而使 Jupyter 笔记本成为生产管道的官方部分。NBDEV 允许开发者指定笔记本应创建哪个模块,哪些笔记本单元格应推送到模块中,以及哪些笔记本单元格是测试。NBDEV 的一个关键功能是其在笔记本内测试的方法,NBDEV 模板甚至提供了一个基础的 Github Action,用于在 CI/CD 框架中实现测试。生成的 Python 模块不需要开发者编辑,可以使用内置的 python 导入功能轻松集成到其他笔记本或项目中。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(摘自 )

机器学习管道中使用的文件通常是大型二进制/压缩文件的归档,这些文件对现有的版本控制解决方案如 git 来说不可访问或成本过高。DVC 通过将大型数据集表示为文件内容的哈希来解决数据版本控制问题,这使得 DVC 能够跟踪变化。它的工作原理类似于 git(例如 ,)。当你在数据集上运行 时,它会被添加到 并由 跟踪变化。CML 是一个项目,提供了从 Github Actions 工作流发布模型工件到 Github Issues、拉取请求等评论中的功能。这很重要,因为它帮助我们开始填补拉取请求中对训练数据变化以及模型准确性和有效性的记录缺口。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(摘自 )

我们希望进行自动化代码测试,包括在自动化测试管道中构建模型。Github Actions 与 CircleCI、Travis、Jenkins 竞争,旨在自动化代码推送、提交、拉取请求等的测试。由于我们已经使用 Github 托管我们的代码库,因此通过使用 Actions 避免了使用其他第三方应用。在这个项目中,我们需要使用 Github 自托管的运行器在本地 GPU 集群上运行任务。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(摘自 )

我们深入研究了如何使用 Label Studio,详细信息见 这里。Label Studio 是一个数据标注解决方案。它运行良好,并且灵活,适用于各种环境。

该设置旨在加快模型部署速度。这意味着更多的数据科学家可以和谐并行工作,代码库透明,并且新人员的入职时间更快。目标是标准化数据科学家在项目中需要执行的活动类型,并为他们提供明确的指示。

以下是我们希望通过此系统设计来简化的任务列表:

  1. 自动化从 Label Studio 的数据摄取,并提供一个单一的点来将数据摄取到模型训练和评估活动中。
  2. 对数据管道代码进行自动化测试,即单元测试和重新部署流程使用的容器。
  3. 对模型代码进行自动化测试,即单元测试和重新部署流程使用的容器。
  4. 启用自动化测试,包括模型的重新训练和评估标准。当模型代码发生变化时,用新代码训练一个模型,并将其与现有的现任模型进行比较。
  5. 当训练数据发生变化时触发模型重新训练。

以下是每个任务的管道描述。

该管道实施了对每个拉取请求的自动化测试反馈,包括语法、单元、回归和集成测试的评估。这个过程的结果是一个功能上经过测试的 Docker 镜像被放入我们的私有存储库中。这个过程最大化了最新的最佳代码在存储库中作为完全测试的镜像用于下游任务的可能性。以下是新特性的开发生命周期在这种背景下的工作方式:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这里展示了编辑代码时工作流的功能。使用 NBDEV 使我们可以直接从 Jupyter notebooks 中工作,包括在 notebook 中直接编写测试。NBDEV 要求 notebooks 中的所有单元格都必须无例外地运行(除非单元格标记为不运行)。 (图片来源:作者)

Label Studio 目前缺乏事件钩子来启用对存储的标签数据的更改更新。因此,我们采取了 触发的方法,每小时更新一次数据集。此外,当标签数据集足够小时,这些更新也可以作为训练管道的一部分进行。我们可以通过 Github Actions 接口按需触发数据管道刷新。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据管道从 Label Studio 读取数据,并将数据集的每个版本及相关输入持久化到存储在 AWS S3 中的 DVC 缓存。 (图片来源:作者)

模型管道将模型训练集成到存储库的 CI/CD 管道中。这使得每个拉取请求不仅能评估代码库中配置的语法、单元、集成和回归测试,还能提供评估新生成模型的反馈。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在这种情况下,工作流运行配置文件(model_params.yaml)中指定的模型训练实验,并更新模型工件(best-model.pth)。 (图片来源:作者)

基准评估管道形成了一个“官方提交”过程,以确保所有建模活动都按照项目的度量标准进行衡量。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

新训练的模型在 best-model.pth 中与基准数据集进行评估,结果会用最新的提交哈希标记并持久化到 AWS S3 中。 (图片来源:作者)

这里是 DVC 使用的 DAG 定义文件。它捕获工作流步骤及其输入,并允许在不同用户和机器间进行可重现性。

 
  1. Github Actions 工作流的 触发器不够可靠。它不能保证定时性。
  2. DVC 在触发的 Github Action 工作流中表现不够清晰。它会更改源控制的跟踪器,当这些更改被提交时,会创建另一个 Github Action。
  3. Github Actions 作为运行模型的编排机制需要一个自托管的运行器来使用 GPU。这意味着要连接到云端或本地的 GPU 实例,这会带来访问控制的问题。例如,我们不能公开源代码库而不从代码库中移除自托管运行器的配置,否则随机的人可能会通过推送代码到项目中在我们的训练服务器上运行工作负载。
  4. NBDEV 内置的工作流是在错误的地方测试代码。它是在笔记本中进行测试,而不是在编译后的包中测试。一方面,能够说“测试可以直接写入笔记本”是很好的。另一方面,直接测试笔记本会留下一个可能性,即 NBDEV 创建的代码包可能会失败,即使笔记本运行正常。我们需要的是能够直接测试 NBDEV 编译后的包。
  5. NBDEV 与“传统” Python 开发不兼容,因为 NBDEV 是单向的。它仅允许在互动的 Jupyter 笔记本风格中开发项目。它使得直接开发 Python 模块变得不可能。如果项目在任何时候想要转换为“传统” Python 开发,测试需要通过其他方式完成。
  6. 起初,我们使用 Weights & Biases 作为实验跟踪仪表盘,然而在将其部署到 Github Action 中时遇到了问题。我们可以说,实现 的用户体验在 Action Workflow 中遇到了第一次障碍。移除 Weights & Biases 立即解决了问题。在那之前, 被认为是 MLOps 中最好的用户体验。

最终,完成这些工具的实现需要一周时间,这些工具用于使用 Github Actions、Iterative.ai 工具(DVC 和 CML)以及 NBDEV 来管理我们的代码。这为我们提供了以下能力:

  1. 从 Jupyter 笔记本中工作,作为代码的记录系统。我们喜欢 Jupyter。它的主要用例是让我们能够直接在任何可以通过 SSH 访问的硬件上工作,通过在那里托管 Jupyter 服务器并将其转发到桌面上。需要明确的是,即使我们不使用 NBDev,我们也会这样做,因为替代方案是使用 Vim 或其他我们不那么喜欢的工具。过去用 VS Code 或 Pycharm 连接到远程服务器的实验失败了。所以我们选择 Jupyter。
  2. 测试代码,并测试它创建的模型。现在作为 CI/CD 流水线的一部分,我们可以评估从代码库的更改中产生的模型是否变得更好、更差或保持不变。这些都可以在合并到 之前的拉取请求中完成。
  3. 使用 Github Actions 服务器作为训练运行的编排器开始允许多个数据科学家以更清晰的方式同时工作。未来,我们将看到这种设置在编排协作数据科学过程中的局限性。

Aaron Soellinger 曾作为数据科学家和软件工程师解决金融、预测维护和体育领域的问题。他目前作为 Hoplabs 的机器学习系统顾问,致力于多摄像头计算机视觉应用的开发。

Will Kunz 是一名后端软件开发人员,面对挑战时总是展现出积极的态度和顽强的决心。不论是追踪难以捉摸的错误,还是快速适应新技术,Will 都希望找到解决方案。

原文。转载经许可。

相关:

  • MLOps 最佳实践
  • MLOps 是一种工程学科:初学者概述
  • MLOps 和机器学习路线图

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. 谷歌网络安全证书 - 快速进入网络安全职业。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. 谷歌数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. 谷歌 IT 支持专业证书 - 支持你的组织进行 IT 工作


更多相关话题

  • 使用 Jupysql 和 GitHub Actions 调度和运行 ETL
  • 机器学习初学者的 GitHub Actions
  • 多标签 NLP:类别不平衡和损失函数分析…
  • 如何使用机器学习自动标注数据
  • 在本地使用 LM Studio 运行 LLM
  • 免费使用 Lightning AI Studio
到此这篇spss25永久许可证代码(spss27永久许可证代码)的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章,希望大家都能在编程的领域有一番成就!

版权声明


相关文章:

  • 程序员入门技巧视频(程序员快速入门)2025-04-11 10:36:05
  • bt151和bt136的区别(bt136与bt138区别)2025-04-11 10:36:05
  • 二级域名解析到一级域名(二级域名解析到一级域名需要多久)2025-04-11 10:36:05
  • 抖音怎么扫二维码登录电脑上(抖音如何扫描二维码登录)2025-04-11 10:36:05
  • ew是什么意思的缩写(ewh什么意思)2025-04-11 10:36:05
  • 密码库(密码库查询)2025-04-11 10:36:05
  • 操作系统基本操作有哪些(操作系统的操作有哪些)2025-04-11 10:36:05
  • 字体图标什么意思(字体图标是什么)2025-04-11 10:36:05
  • ew是什么意思的缩写(ewm是什么的缩写)2025-04-11 10:36:05
  • 天国拯救战斗系统在哪(天国拯救战斗力)2025-04-11 10:36:05
  • 全屏图片