加入收藏 | 设为首页 | 会员中心 | 我要投稿 源码网 (https://www.900php.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

人们应该知道的大数据术语

发布时间:2018-04-05 06:28:28 所属栏目:大数据 来源:站长网
导读:副标题#e# Apache软件基金会(ASF):提供了许多大数据的开源项目,目前有350多个项目。是专门为支持开源软件项目而办的一个非盈利性组织。在它所支持的Apache项目与子项目中,所发行的软件产品都遵循Apache许可证。 Apache Kafka:以着名的捷克作家命名的Apa
副标题[/!--empirenews.page--]

Apache软件基金会(ASF):提供了许多大数据的开源项目,目前有350多个项目。是专门为支持开源软件项目而办的一个非盈利性组织。在它所支持的Apache项目与子项目中,所发行的软件产品都遵循Apache许可证。

Apache Kafka:以着名的捷克作家命名的Apache Kafka用于构建实时数据流管道和流媒体应用程序。为什么这么受欢迎?因为它能够以容错的方式存储,管理和处理数据流,并且十分快速。鉴于社交网络环境处理数据流,Kafka目前非常受欢迎。

人们应该知道的大数据术语

ApacheMahout:Mahout提供了一个用于机器学习和数据挖掘的预制算法库,也是创建更多算法的环境。换句话说,是一个机器学习的天堂环境。

ApacheOozie:在任何编程环境中,需要一些工作流程系统来以预定义的方式和定义的依赖关系来安排和运行工作。Oozie提供的大数据工作以Apachepig,MapReduce和Hive等语言编写。

Apache Drill,Apache Impala,Apache Spark SQL:所有这些都提供了快速和交互式的SQL,如与Apachehadoop数据的交互。如果你已经知道SQL,并处理以大数据格式(即HBase或HDFS)存储的数据,这些功能将非常有用。

ApacheHive:知道SQL?然后采用Hive握手。Hive便于使用SQL读取,写入和管理驻留在分布式存储中的大型数据集。

ApachePig:Pig是在大型分布式数据集上创建查询执行例程的平台。所使用的脚本语言叫做PigLatin。据说Pig很容易理解和学习。但问题是有多少人能从Pig学到什么?

Apach eSqoop:用于将数据从Hadoop移动到非Hadoop数据存储(如数据仓库和关系数据库)的工具。

Apache Storm:一个免费的开源实时分布式计算系统。它使得使用Hadoop进行批处理的瞬时处理可以更容易地处理非结构化数据。

人工智能(AI):人们可能会问,为什么在这里会有人工智能?人工智能不是一个单独的领域,所有这些趋势技术都是如此相关,人工智能开发智能机器和软件的方式,使得硬件和软件的这种组合能够感知环境,在需要时采取必要的措施,并继续学习这些操作。

行为分析:有没有想过谷歌如何为人们需要的产品/服务提供广告?行为分析侧重于理解消费者和应用程序所做的事情,以及如何以及为什么它们以某种方式起作用。它是关于了解人们的网上冲浪模式,社交媒体互动,电子商务行动(购物车等),并连接这些无关的数据点,并试图预测结果。

Brontobytes:10的27次幂,这是数字宇宙的大小。在这里,可以了解TB字节,PB字节,EB字节,ZB字节,YB字节,以及Brontobyte。人们今后会更多地了解这些术语。

商业智能(BI):在这里引用调研机构Gartner对商业智能的定义。商业智能(BI)是一个总括的术语,其中包括应用程序,基础设施和工具以及最佳实践,可以访问和分析信息,以改善和优化决策和绩效。

生物特征:这就是JamesBondish技术与分析技术相结合,通过一个或多个物理特征识别人,如面部识别,虹膜识别,指纹识别等。

点击流分析:用于分析用户在网络上浏览的在线点击。曾经想过为什么某些Google广告还会继续关注你,即使切换网站等?因为知道你在点击什么。

聚类分析:试图识别数据中的结构的探索性分析。聚类分析也称为分割分析或分类分析。更具体地说,它试图确定同一组案例,即观察者,参与者,回答者。如果分组不是先前已知的,则使用聚类分析来识别病例组。因为它是探索性的,它确定了依赖变量和独立变量之间的区别。SPSS提供的不同的聚类分析方法可以处理二进制,名义,顺序和比例(间隔或比率)数据。

比较分析:大数据的核心在分析中。顾名思义,比较分析是使用诸如模式分析,过滤和决策树分析之类的统计技术来比较多个进程,数据集或其他对象。人们知道它的技术性很差,但不能完全避开这个术语。比较分析可用于医疗保健,比较大量的医疗记录,文件,图像等更有效和更准确的医疗诊断。

连接分析:你一定已经看到这些像蜘蛛网一样的网络图表连接主题等,以识别某些主题的影响者。连接分析是有助于发现网络中人员,产品和系统之间的这些相互关联的连接和影响,甚至组合来自多个网络的数据的分析。

数据分析师:数据分析师是一个非常重要和受欢迎的工作职位,除了准备报告之外,它还负责收集,操纵和分析数据。

数据清理:这有点不言自明,它涉及从数据库中检测和纠正或删除不准确的数据或记录。还记得“脏数据”吗?那么,使用人工和自动化工具和算法的组合,数据分析人员可以纠正和丰富数据以提高其质量。记住,肮脏的数据会导致错误的分析和错误的决策。

DaaS:你有SaaS,PaaS和DaaS为代表的数据即服务吗?通过向客户提供按需访问云托管数据,DaaS提供商可以帮助快速获取高质量的数据。

数据虚拟化:这是数据管理的一种方法,允许应用程序检索和操作数据,而不需要其存储位置及其格式等的技术细节。例如,社交网络将人们的照片存储在他们的网络中。

脏数据:现在,大数据变得很流行,人们开始在数据中添加形容词,产生新的术语,如暗数据、脏数据、小数据,现在是智能数据。肮脏的数据就是不干净的数据,换句话说,是不准确、重复的,以及不一致的数据。显然,企业不希望与脏数据关联。

模糊逻辑:人们对100%这样的事物有多少把握?非常罕见。人类的大脑将数据聚合成部分真理,然后再抽象成某种阈值,来决定我们的反应。模糊逻辑是一种通过模仿部分真理来模仿人脑的运算,而不是像布尔代数的其余部分那样的“0”和“1”这样的绝对真理。模糊逻辑在自然语言处理中得到了广泛的应用,并已发展成为其他与数据相关的学科。

游戏化:在一个典型的游戏中,有人们喜欢的得分要素,与他人竞争,某些游戏规则等元素。大数据中的游戏化是使用这些概念来收集数据或分析数据或通常激励用户。

图形数据库:图形数据库使用的概念,如节点和边界代表人员/企业和他们的相互关系,从社交媒体挖掘数据。曾经想过,亚马逊如何告诉你在购买产品时,别人买了什么?是的,图形数据库!

Hadoop用户体验(Hue):Hue是一个开放源代码界面,使Apache Hadoop变得更加容易。它是一个基于Web的应用程序,并且具有用于HDFS的文件浏览器,MapReduce的作业设计器,用于制作协调器和工作流程的Oozie应用程序,Shell,Impala和HiveUI以及一组HadoopAPI。

HANA:高性能分析应用程序,来自SAP的软件/硬件内存中平台,专为大量数据交易和分析而设计。

HBase:一个分布式,面向列的数据库。它使用HDFS作为其底层存储,并支持使用MapReduce和事务交互的批量计算。

负载平衡:跨多台计算机或服务器分布工作负载,以实现系统的最佳结果和利用率。

(编辑:源码网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读