大数据不就是写SQL吗?

joytrian
发布于 2023-10-12 11:11
浏览
0收藏

免责声明~

任何文章不要过度深思!

万事万物都经不起审视,因为世上没有同样的成长环境,也没有同样的认知水平,更「没有适用于所有人的解决方案」

不要急着评判文章列出的观点,只需代入其中,适度审视一番自己即可,能「跳脱出来从外人的角度看看现在的自己处在什么样的阶段」才不为俗人

怎么想、怎么做,全在乎自己「不断实践中寻找适合自己的大道」

1 炸一听

恰恰相反。根据大部技术人相对朴素的认知,大数据就是Hadoop,写的不是SQL,是MapReduce,是Java。或者Python,或其他。OLTP数据库,才是非SQL不可!

2 更深入的

什么是SQL?什么是数据库?

什么是JAVA?什么是Scala?什么是Hadoop?

什么叫ETL?什么叫数据仓库?

什么叫数据标签?什么叫算法?

什么叫数据中台?什么叫数据中心?

什么叫分析方法?什么叫决策支持?什么叫数据挖掘?

还是不要说那么多了,根本学不完!

3 大数据能找到啥工作?

各领域都能找到!包括金融、零售、医疗、科技、政府...

金融

银行和金融机构可以用大数据分析客户的信用评分、风险管理、欺诈检测和投资策略。通过对交易数据、市场数据和客户行为进行分析,金融机构能够更好地管理风险并为客户提供个性化分服务。

医疗

大数据在医疗领域的应用包括疾病预测、患者分层、药物研发、医疗保健服务优化。通过分析患者的基因数据、生活方式和病史,医生可以提前预测疾病风险并定制个性化的治疗计划。

零售

大数据分析消费者购买记录、网上搜索行为和社交媒体活动,以便更好地了解消费者需求,优化产品组合和定制有效的市场营销策略。

制造

制造商使用大数据分析设备的传感器数据、生产过程中的质量控制数据和供应链数据,以提高生产效率、降低成本和确保产品质量。

交通

通过分析交通流量数据、道路状况和公共交通数据,交通部门可以更好地规划城市基础设施、优化交通流量和减少拥堵。

政府

政府机构使用大数据分析来改善公共服务、预测和应对自然灾害、制定政策和打击犯罪。例如,通过分析犯罪数据、人口统计数据和社会经济数据,执法部门可以预测犯罪热点并部署资源以提高治安水平。

4 大数据相关职位

大数据工程师

负责构建、维护和优化大数据基础设施和数据处理管道。大数据工程师需要熟悉分布式系统、数据库技术和数据处理框架(如Hadoop、Spark等),并具备编程能力。

数据科学家

运用统计学、机器学习、数据可视化和其他高级技术,为组织提供洞察力并支持业务决策。数据科学家需要具备统计学、编程和领域知识,以及良好的沟通和解决问题的能力。

数据分析师

负责收集、整理和分析数据,以识别业务趋势、市场行为和消费者偏好等。数据分析师需要熟悉数据分析工具(如Excel、SQL等)、统计学和可视化技术,并具备批判性思维]和沟通能力。

机器学习工程师

负责开发、训练和部署机器学习模型,以解决实际问题。机器学习工程师需要熟悉机器学习算法、编程语言(如Python、R等)和深度学习框架(如TensorFlow、PyTorch等)。

数据可视化专家

将数据转化为易于理解的图表、图形和仪表板,以便向非技术人员传达数据洞察。数据可视化专家需要掌握可视化工具(如Tableau、D3.js等)和设计原则,并具备良好的沟通能力。

数据架构师

设计和实施数据管理系统,以满足组织的数据需求和业务目标。数据架构师需要熟悉数据库技术、数据仓库、数据集成和数据治理等领域。

数据产品经理

负责规划、开发和管理基于数据的产品和服务。数据产品经理需要具备数据分析、项目管理和市场营销等多方面的技能。

所以!大数据专业人士需要具备一定的编程、统计、领域知识和沟通能力,以便在这个领域取得成功。


5 大数据技术栈

大数据技术栈包括许多不同的工具和框架,用于处理、存储和分析大量数据。以下是一些常见的大数据技术栈组件:

大数据不就是写SQL吗?-鸿蒙开发者社区

数据存储和处理

  • Hadoop:一种分布式数据处理框架,用于存储和处理大量数据。Hadoop包括HDFS(Hadoop Distributed FileSystem)用于存储数据,以及MapReduce用于处理数据。
  • Apache Spark:一种快速的大数据处理引擎,比Hadoop MapReduce更高效。Spark支持批处理和流处理,并提供了用于机器学习和图计算的库。
  • Flink:一种分布式流处理框架,用于实时数据处理。

数据库和数据仓库

  • NoSQL数据库:如MongoDB、Cassandra和Couchbase等,用于存储非结构化和半结构化数据。
  • 列式数据库:如Apache HBase和Google Bigtable等,用于存储和查询大量数据。
  • 数据仓库:如Amazon Redshift、Snowflake和Google BigQuery等,用于存储和分析大量结构化数据。

数据集成和ETL(提取、转换、加载)

  • Apache NiFi:一种数据集成工具,用于从多种数据源提取、转换和加载数据。
  • Apache Kafka:一种分布式流处理平台,用于实时数据传输和处理。
  • Talend:一种数据集成和ETL工具,用于数据预处理和管道构建。

机器学习和数据挖掘

  • Scikit-learn:一个用于Python的机器学习库,提供了许多常用的机器学习算法。
  • TensorFlow:一个开源的机器学习框架,由Google开发,主要用于深度学习。
  • PyTorch:一个开源的机器学习框架,由Facebook开发,主要用于深度学习。
  • XGBoost:一种高效的梯度提升决策树算法,用于监督学习任务。

数据可视化

  • Tableau:一种商业智能和数据可视化工具,用于创建仪表板和报告。
  • Power BI:一种由Microsoft开发的数据可视化和商业智能工具。
  • D3.js:一个用于JavaScript的数据驱动文档库,用于创建复杂的数据可视化。

编程语言

  • Python:一种广泛用于数据科学和大数据领域的编程语言,拥有丰富的库和社区支持。
  • R:一种专注于统计计算和图形展示的编程语言,常用于数据分析和可视化。
  • Scala:一种兼容Java的编程语言,常用于Apache Spark

数据管道和工作流调度

  • Apache Airflow:一种用于创建、调度和监控数据管道的工具,可以通过Python脚本来定义任务。
  • Luigi:一个由Spotify开发的Python库,用于构建复杂的数据管道和工作流。
  • Apache Beam:一种用于构建批处理和流处理数据管道的统一编程模型。

分布式计算平台


  • Kubernetes:一种容器编排平台,用于部署、扩展和管理容器化应用程序,支持大数据应用的弹性部署。
  • Mesos:一种分布式计算资源管理和调度平台,用于部署大数据应用和容器化服务。

数据湖和数据治理:


  • Apache Hudi:一种用于构建和管理大数据湖的开源库,支持增量处理和实时查询。
  • Delta Lake:一个用于构建数据湖的开源存储层,提供了事务、版本控制和数据质量管理等功能。
  • Apache Atlas:一个数据治理和元数据管理工具,用于跟踪数据资产、数据血缘和数据生命周期。

实时分析和流处理:

  • Apache Storm:一种分布式实时计算系统,用于处理大量数据流。
  • Apache Samza:一种分布式流处理框架,用于实时数据分析和事件驱动应用。


写在最后

​公众号​​​:​​JavaEdge​​​ 专注分享软件开发全生态相关​​技术文章​​​、​​视频教程​​​资源、热点资讯等,如果喜欢我的分享,给 🐟🐟 点一个​​赞​​​ 👍 或者 ➕​​关注​​ 都是对我最大的支持。


文章转载自公众号: JavaEdge

分类
标签
已于2023-10-12 11:11:11修改
收藏
回复
举报
回复
    相关推荐