News

Guangdong BAIDU Special Cement Building Materials Co.,Ltd
— 焦点体育 —

如何整合复杂技术打造数据分析平台?

大家晚上好,感谢大家参与这次分享,感谢 InfoQ AI 前线组织这次瀚思科技主题月!我们成立于三年前,按行业划分是一家安全公司。但和大家熟知的卖杀毒软件的传统安全公司很不一样,瀚思帮助各种中大型企业搭建安全大数据的分析平台,在平台上实时运行各种机器学习算法的安全分析策略,最终帮助企业定位各种安全问题。所以我们自认为也是一家大数据 +AI 公司。第一,当然是因为看好这个方向,我们认为这个方向是网络安全领域发展的大趋势。这个趋势虽然今天说起来显而易见,毕竟现在所有的新旧安全厂商都说自己有 AI 能力,但三年前,安全界大部分人都不清楚 AI 能具体解决哪些安全问题,套用 AI 界的热门话题词,也就是常说的不清楚AI 怎么落地,整个安全界也是在这几年内摸索前进才有了些共识。考虑到大多数人都是对 AI 和大数据感兴趣,这次系列分享,除了病毒样本分类议题外,会特意简化安全领域的相关知识,比如不会说网站渗透是怎么做的、APT 攻击模型包含几阶段等等,而把重点放在大数据平台建设的主要技术点上,也就是和其他行业大数据平台的共性上。1.最底下是数据收集层,典型大数据平台的数据来源多种多样,比如日志、文本、网络流、甚至视频、声音等等。除了数据量大、速度高外、这些数据的一个重要特征是非结构化,也就是不能齐整地转换成传统数据库的表。某些数据经过处理后,能转成结构化形式存入常规数据库;如果实在不能结构化,就只能使用非传统数据库来存储,比如输入一句话在海量文本中查找,这种只能靠文档数据库。数据收集层会耗费系统开发非常多的精力,我们的经验是多达 30%-50%。但除非采视频这种很特别的数据,这部分相对技术难点低,而工作量巨大,脏活累活多,因为每种数据源可能对应几种采集和解析逻辑,尤其解析逻辑常常现场需要修改。很多业务系统运维人员都未必清楚目前运维日志的格式含义。3.最上是和实践业务对应的业务应用层。大家听到的对大数据平台分析的分享往往不谈这层,因为这层和下面两层会分属于不同部门开发。但我们因为商业模式的原因,会给客户提供整个全三层的平台。我们的经验是这层常常决定整个项目的成败,因为任何系统都是给客户使用得好才能产生价值,而一般的客户是不会通过编程来使用整个平台,尤其是领导,可见的永远是可视化层。不过这次时间限制,不会具体谈可视化这个大议题。后面看是否需要专门安排瀚思的 UED 团队来分析大数据分析的专门可视化设计。对选型不确定,同时实在不及看各开源项目内部实行机制的话,尽快对最主要场景做性能测试帮助判断。各家自己发的性能测试报告都是挑对自己有利的场景,大数据软件一般只擅长特定一些场景,所以官方测试报告基本没参考价值。这种 lambda 架构是常见的方案,也是目前各种技术成熟度下的权宜之计。非实时离线计算系统操作全量数据集、实时/准实时在线系统分析源源不断新增的数据集,也就是在线系统做增量分析。业务层会把双系统对用户隐藏起来,把分析结果显得是来自一个系统,当然业务系统也经常协调双系统会有各种分析结果不一致问题。需求变化大,目前主要的高性能需求推动力来自物联网平台,对性能要求远超出一般企业的流处理需求,而这个潜在市场又出奇地大,导致将来流平台会往这市场倾斜,优先考虑性能。在大数据分析平台上运行的大部分算法属于有监督算法(分类等),少量属于无监督算法(聚类、或者异常检测)。常见的两类算法一般都是全量数据训练版本,并不支持增量训练。比如用户分类,输入数据得是过往 N 天所有用户的行为特征,一旦做好分类。新增了一天数据,训练得重新用 N+1 天数据开始一轮。无监督学习的典型应用场景,比如物联网领域、网络安全领域大量需要的异常检测,需要对算法做特殊改进以支持增量数据计算。全量计算速度跟不上,而 Lambda 架构损失实效性,两者都不适合流计算。A:态势感知这个方向没错,企业安全应该避免以往那种各种为政地堆积各种安全产品,而是帮助企业真正把企业安全进行全生命周期的安全管理。不过目前各家态势感知产品过于着力于表面的简单可视化,比如地图之类。我们认为态势感知得把底层基本功打扎实,比如大数据分析平台做好,才能谈高层次的感知。大安全行业发展趋势肯定是走更加自动化人工智能话的道路,因为攻击方只会越来越自动、越来越靠人工智能。Q:最近在做人流数据的时序数据分析预测,老师有没有比较推荐的模型,目前的我是从时序数据提取特征,把时序数据转换为非时序数据,然后使用 gbrt 进行预测,自回归相关的模型比较简单,做不了复杂的预测,神经网络 RNN 之类的网络怎么样?
Tel
Mail
Map
Share