加入收藏 | 设为首页 | 会员中心 | 我要投稿 源码网 (https://www.900php.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

人们应该知道的大数据术语

发布时间:2018-04-05 06:28:28 所属栏目:大数据 来源:站长网
导读:副标题#e# Apache软件基金会(ASF):提供了许多大数据的开源项目,目前有350多个项目。是专门为支持开源软件项目而办的一个非盈利性组织。在它所支持的Apache项目与子项目中,所发行的软件产品都遵循Apache许可证。 Apache Kafka:以着名的捷克作家命名的Apa

元数据:元数据是描述其他数据的数据。元数据总结了有关数据的基本信息,可以使查找和处理特定数据实例更容易。例如,作者,创建日期和日期修改以及文件大小是非常基本的文档元数据。除文档文件外,元数据也用于图像,视频,电子表格和网页。

Mongo DB:一个跨平台的开源数据库,它使用面向文档的数据模型,而不是传统的基于关系数据库的表结构。这种类型的数据库结构旨在使结构化和非结构化数据在某些类型的应用程序中更加容易和快速地集成。

Mashup:幸运的是,这个术语对于我们在日常生活中了解mashup的定义类似。基本上,Mashup是将不同数据集合并为单个应用程序的一种方法(示例:将房地产清单与人口统计数据或地理数据相结合)。这是一个非常好的可视化。

多维数据库:针对数据在线分析处理(OLAP)应用程序和数据仓库进行优化的数据库。它只不过是数据多个数据源的中央存储库。

多值数据库:它们是一种直接了解三维数据的NoSQL和多维数据库。它们直接用于直接操作HTML和XML字符串。

自然语言处理:为使计算机更精确地理解日常人类语言而设计的软件算法,使人们能够更自然、更有效地与之交互。

神经网络:神经网络是一个美丽的生物学启发的编程范例,使计算机能够从观测数据中学习。有人称编程范例很美,本质上,人工神经网络是由现实生活中大脑的生物学启发的模型。与这种神经网络密切相关的是深度学习。深入学习则是一套功能强大的神经网络学习技术。

模式识别:当一个算法在大数据集或不同的数据集中定位递归或规律时,就会出现模式识别。它紧密相连,甚至被认为是机器学习和数据挖掘的代名词。这种可见性可以帮助研究人员发现见解或得出结论,否则会被掩盖。

RFID-射频识别:一种使用无线非接触式射频电磁场传输数据的传感器。随着物联网革命,RFID标签可以嵌入到每一个可能的“东西”中,以产生需要分析的巨大数据量。

SaaS:软件即服务,使供应商能够托管应用程序并通过互联网使其可用。SaaS提供商通过云计算提供服务。

半结构化数据:半结构化数据是指以常规方式未被捕获或格式化的数据,例如与传统数据库字段或公共数据模型相关联的数据。它也不是原始的或完全非结构化的,并且可能包含一些数据表,标签或其他结构元素。图形和表格,XML文档和电子邮件是半结构化数据的示例,它在万维网上是非常普遍的,通常在面向对象的数据库中。

情绪分析:情绪分析涉及捕捉和跟踪消费者在各种交互或文件(包括社交媒体,客户服务代表呼叫,调查等)中表达的意见,情绪或感受。文本分析和自然语言处理是情绪分析过程中的典型活动。目标是确定或评估对公司,产品,服务,人员或事件表达的情绪或态度。

空间分析:指分析地理数据或拓扑数据的空间数据,以识别和理解分布在地理空间中的数据内的模式和规律。

流处理:流处理旨在通过“连续”查询对实时和流数据进行操作。随着从社交网络不断流出的数据,流处理和流分析的确需要在这些流中不间断地计算数学或统计分析,以便实时处理大量的数据。

智能数据:智能数据据称是在通过算法进行的一些过滤之后,其数据是有用的和可操作的。

TB字节:一个相对较大的数字数据单元,一T字节(TB)等于1000GB字节。据估计,10T字节可以容纳美国国会图书馆的全部印刷品,而1T字节可以容纳1000份百科全书。

可视化:通过正确的可视化,原始数据可以投入使用。当然可视化并不意味着普通的图形或饼图。它们是指可以包含许多数据变量的复杂图形,同时仍然可以理解和可读

Yabyabytes:约1000ZB,或2500亿张的DVD容量。如今的整个数字宇宙是1 Yabyabytes,这将每18个月翻一番。

Zettabytes:大约1000EB字节或10亿TB字节。

(编辑:源码网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读