个人笔记：分布式大数据技术原理（二）构建在 Hadoop 框架之上的 Hive 与 Impala

2024-01-10 08:39:07

大家想了解更多大数据相关内容请移驾我的课堂：
大数据相关课程
剖析及实践企业级大数据
数据架构规划设计
大厂架构师知识梳理：剖析及实践数据建模

有了 MapReduce，Tez 和 Spark 之后，程序员发现，MapReduce 的程序写起来真麻烦。他们希望简化这个过程。这就好比你有了汇编语言，虽然你几乎什么都能干了，但是你还是觉得繁琐。你希望有个更高层更抽象的语言层来描述算法和数据处理流程。于是就有了 Pig 和 Hive。Pig 是接近脚本方式去描述 MapReduce，Hive 则用的是 SQL。它们把脚本和 SQL语言翻译成 MapReduce 程序，丢给计算引擎去计算，而你就从繁琐的 MapReduce 程序中解脱出来，用更简单更直观的语言去写程序了。有了 Hive 之后，人们发现 SQL 对比 Java 有巨大的优势。一个是它太容易写了。刚才词频的东西，用 SQL 描述就只有一两行，MapReduce 写起来大约要几十上百行。而更重要的是，非计算机背景的用户终于感受到了爱：我也会写 SQL！于是数据分析人员终于从乞求工程师帮忙的窘境解脱出来，工程师也从写奇怪的一次性的处理程序中解脱出来。大家都开心了。Hive 逐渐成长成了大数据仓库

文章来源:https://blog.csdn.net/gyshun/article/details/135429851
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！