这个年代每个人都想成为数据科学家。
但数据工程呢?
从本质上讲,它是数据分析师和数据科学家之间的混合体。
数据工程师负责管理数据工作流,管道和ETL流程。鉴于这样的功能,市场对数据工程师的需求其实十分巨大,
如果您想成为这样的英雄,那么开始学习永远不会太晚。
在这篇文章中,我整理了所有必要的信息,以帮助您迈出第一步。
什么是数据工程?
没有比这更好的解释了:
科学家可以发现一颗新星,但他无法制造一颗。 他不得不请工程师为他做 - 戈登·林赛·格莱格
数据工程与数据相关联,包括数据获取,存储和处理。
因此,工程师的主要任务是为数据提供可靠的基础架构。
如果我们看一下需求的层次结构,数据工程将进入其中的前2-3个阶段:
收集,移动和存储,数据准备。
数据工程师做什么?
随着“大数据”的出现,责任领域发生了巨大变化。
如果这些专家早些时候使用Informatica ETL,Pentaho ETL,Talend等工具编写了大型SQL查询并超过了数据,那么现在对数据工程师的要求已经提高。
大多数招聘数据工程师的公司都有如下需求:
-
精通SQL和Python
-
熟练使用云计算平台
-
对SQL和NoSQL数据库有很好的理解(数据建模,数据仓库)
请记住,这只是必需品。
从这个清单中,我们可以假设数据工程师是软件工程和后端开发领域的专家。
例如,如果公司开始从不同的来源生成大量数据,那么作为数据工程师,您的任务就是组织信息的收集,处理和存储。
在这种情况下使用的工具列表可能会有所不同,一切取决于数据的数量,其到达速度和异构性。
大多数公司根本没有大数据,因此,作为集中存储库,即所谓的数据仓库,您可以使用带有少量脚本的SQL数据库(PostgreSQL,MySQL等)将数据驱动到存储库中。
谷歌,亚马逊,脸谱等IT巨头有更高的要求:
-
掌握Python,Java或Scala
-
大数据经验:Hadoop,Spark,Kafka
-
算法和数据结构知识
-
了解分布式系统的基础
-
具备Tableau或ElasticSearch等数据可视化工具的经验将是一大优势<
版权声明:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符,请将相关资料发送至xkadmin@xkablog.com进行投诉反馈,一经查实,立即处理!
转载请注明出处,原文链接:https://www.xkablog.com/kjbd-gc/6114.html