下载试用

产品特色-先进的Splunk

提高服务水平,缩减运营成本,规避安全风险……
产品特色
Splunk将为您挖掘IT数据中最宝贵的信息!

先进的Splunk

2009年Splunk第4版本引入MapReduce机制。如今Splunk第4版本所带来的先进性,MapReduce功不可没。

当然,MapReduce所实现的并行运算并不是Splunk所特有的。但是,Splunk将MapReduce用于索引数据存储系统以及搜索语言交付中,确实让分析大型IT数据的过程更加简易快速。

什么是MapReduce?

MapReduce是2004年由Google提出的一个软件架构,用于大规模数据集(大于1TB)的并行运算。MapReduce的基本原理是把问题变成两个部分:一个是指定一个Map(映射)函数,用来把源数据映射为一系列统计数据,另一个是指定并发的Reduce(化简)函数,用来保证把所有的统计数据合并为最终结果。根据MapReduce的定义,大多数Map(映射)函数都可以同时高度并行运行。只要把Map(映射)函数应用于所有数据,Reduce(化简)函数就可以用于合并Map(映射)阶段所生成的所有结果。
 
对于通常Web搜索中的大型批处理和高速数据检索来说,MapReduce无疑为其提供了一种最快速、最高效、扩展性最强的机制。当今,绝大多数领先的用于大型数据的管理技术都部署了MapReduce架构。
 

独一无二的数据采集/存储方法

Splunk引擎优化了搜索速度,并坚持着非结构化数据存储。具体而言,事件包括了原始事件文本、默认时间戳、来源(通常指文件名),来源类型(通常指数据类型)以及主机(搜生成这些数据的设备)。数据进入Splunk系统经过以上一些列关键字索引等处理后,这些数据将依然保持原始状态,不会发生任何改变。
 
一个典型的高性能Splunk部署中会有许多服务器,以用来做索引设备。当有数据从服务器等网络设备生成后,所生成的数据就会被转发到索引设备中。可有效避免系统互联过程中造成的数据拥堵。此外,任何数据都可以存储在任一缩印设备中,这样也可以很好地实现各索引设备的负载均衡。尽管可以把数据在各索引设备间的传输看作是提高索引性能的一种方式,但是实际上MapReduce带来的好处还不仅限于此,在搜索和报表等环节,MapReduce也带来了我们意想不到的先进性能。
 

大幅简化分析过程的Splunk搜索语言

Splunk搜索语言是一种专门的描述专递列表数据的最有效的方式,因为有了MapReduce机制,用户不需要编写代码,更不需要了解Map(映射)和Reduce(化简)具体过程。
 
在搜索界面中还有一些分栏,这些分栏概念不同于传统的数据库,它们并不长期保存于splunk内部数据当中。通过搜索,裸数据通过栏位字段得以赋予更多有意义的内容;通过配置,栏位字段能通过自动键/值抽取,通过正则表达式、分隔符或类似SQL的联合查找的方式自动添加。
 

无需编码主动生成分布式任务管理

一些替代MapReduce的架构如Google本身,或其他开源的Hadoop架构,用户都需要主动分离Map(映射)和Reduce(化简)函数中不同的检索任务。由于这个原因,包括Google和Yahoo都做了一系列措施来简化用户的操作。Google的数据处理系统叫做Sawzall,Yahoo的系统叫Pig。这两种系统中的程序都可以自动转换MapReduce任务,并且可以高度并行。这种方法似乎比MapReduce容易一些,但是它们都需要编写大量的程序代码。
 
在Splunk内部对搜索语句做完整的扫描之后,会按具体情况判断首个无需并行的搜索命令,而符合条件的搜索命令都会自动转换为高度并行的程序(相当于在Hadoop、Pig或Sawzall中编写各种脚本代码后所实现的效果),之后搜索命令会形成其自身的Map(映射)函数。这种完全可并行命令连同首个非并行命令被称为是搜索中的Map(映射)函数。
 
说到处理大规模数据,MapReduce架构已成为商用硬件中并行处理大型数据,并提高其性能和规模的最佳选择。之所以有了MapReduce,其后的各种语言和架构才逐步得到了发展:如Google Sawzall,Yahoo!Pig,开源Hadoop架构以及Splunk。对于Splunk来说,MapReduce无疑就是不断延伸搜索与报表强大功能的利器。
 
不同于其他MapReduce语言与架构需要为每个新的任务自定义脚本或代码,Splunk完全是利用自有的搜索语言自动处理复杂的进程。Splunk搜索语言可以分析处理大规模的IT数据,无需用户另行操作。以MapReduce为基础,Splunk只受到运行在搜索设备中的数据源规模。
 
超越传统的搜索语言,Splunk能够为大家呈现一个通用的索引,自动访问或加载数据。此外素有的数据夹在机制都无需开发或维护代码,用户的生产效率也随之得到大幅提高。
 
通过各种分布式索引(存储)到磁盘的方法论,Splunk的运行速度与效率也在提高。良好的单点、多点分布式存储以及实时搜索能力,Splunk带来了灵活的高可扩展性能。
 
Splunk优秀的用户界面让分析大规模的数据也变得非常简单。Splunk产品适用于故障排除、即时报表以及仪表板创建等相关的大型IT数据分析领域。
 

Splunk销售与支持

  • 联系电话:400-067-1005
  • 电子邮件:contact@10data.com


沪ICP备11017547 沪公网安备 31011502002368号 ©版权所有 2005-2017 上海天旦网络科技发展有限公司(Netis)

GO TOP

返回