首页 理论教育终端安全风险管理:19个异常资源占用风险点

终端安全风险管理:19个异常资源占用风险点

【摘要】:表B-13 异常资源占用风险的风险点列表基于资产使用生命周期分析资产使用生命周期包含:入网前、运行阶段、维修阶段、报废阶段,异常资源占用的风险对终端的影响在资产使用生命周期的体现如下:风险点(1-4):终端CPU使用率持续高,这些风险主要涉及入网前和运行阶段。终端入网后,如果该终端的CPU使用率持续高,导致终端正常的工作不能开展,风险较高,如果终端运行了关键业务,则风险更高。

1.风险分析

(1)风险描述

终端本身资源包括CPU、内存和磁盘存储空间等。终端正常运行时,各项资源的使用率会在一个正常范围内。安装运行的业务或应用软件过多、病毒感染或遭受攻击时,都可能会导致终端的某种资源占用率持续过高,影响正常的业务开展。

终端设备在运行一段过程后,常常由于运行软件过多,大量消耗内存和CPU资源,如果不能有效监控硬件资源使用情况,适时给用户提示告警,可能导致机器运行速度较慢,甚至业务服务无法运行。硬盘的剩余空间也需要随时监控,如果运行了关键业务的主机硬盘空间不够,导致数据不能存储,会有业务数据丢失和业务不能正常运行的风险。

CPU使用率:表示系统资源的调用情况,如果利用率高就说明系统资源调取繁忙,会造成电脑运行反应缓慢。常见的引起CPU使用率高的因素有:

√ 终端上的驱动没有经过认证,造成CPU资源占用100%。大量测试版的驱动在网上泛滥,造成了难以发现的故障原因

√ 防、杀毒软件造成故障。由于一些防、杀毒软件的运行,加入了对网页、插件、邮件的随机监控,增大了系统负担。可以根据情况有选择地开启服务

√ 病毒、木马造成。大量的蠕虫病毒在系统内部迅速复制,造成CPU资源占用率居高不下

内存使用率:一般来说,内存使用率超过85%,会认为内存使用率高。

磁盘剩余空间:终端上可用的磁盘空间大小。随着终端运行中的数据存储,以及所产生的垃圾文件,磁盘的可用空间会越来越小,如果磁盘空间过低,会造成操作系统运行速度的减慢,影响系统使用。安全的磁盘剩余空间大小需要根据实际情况确定,对于主要用于数据存储的终端设备,对磁盘剩余空间要求的值较大。对于普通终端设备,则对磁盘剩余空间要求的值没有那么高。

备注:各项资源具体的阈值需要结合实际情况确定。

(2)相关风险点

异常资源占用的风险点详见表B-13。

表B-13 异常资源占用风险的风险点列表(共19点,12个原生风险、4个次生风险、3个残余风险)

(a)基于资产使用生命周期分析

资产使用生命周期包含:入网前、运行阶段、维修阶段、报废阶段,异常资源占用的风险对终端的影响在资产使用生命周期的体现如下:

风险点(1-4):终端CPU使用率持续高,这些风险主要涉及入网前和运行阶段。维修和报废阶段,终端不运行,不存在该类风险。入网前,终端CPU使用率持续高,只会影响终端本身的运行,对整体系统不会造成大的风险,此时风险较低。终端入网后,如果该终端的CPU使用率持续高,导致终端正常的工作不能开展,风险较高,如果终端运行了关键业务,则风险更高。

风险点(5-8):终端内存使用率持续高,这些风险主要涉及入网前和运行阶段。维修和报废阶段,终端不运行,不存在该类风险。入网前,终端内存使用率持续高,只会影响终端本身的运行,对整体系统不会造成大的风险,此时风险较低。终端入网后,如果内存使用率持续过高,会导致一些进程和服务得不到必需的内存资源,不能正常运行,进而影响业务的正常进行,风险较高。

风险点(9-12):磁盘剩余空间持续不足,这些风险主要涉及入网前和运行阶段。维修和报废阶段,终端不运行,不存在该类风险。入网前,终端磁盘剩余空间不足,只会影响终端本身的磁盘存储,对整体系统不会造成大的风险,此时风险较低。终端入网进入运行阶段后,如果硬盘占用率持续过高,会导致一些进程和服务得不到必需的硬盘空间,运行数据得不到正常的存储,进而影响业务的正常进行,风险较高。

风险点(13-14):这两个风险主要涉及运行阶段,对占用CPU和内存资源比较高的进程,管理员去禁止,但系统不允许禁止,进程占用的资源不能释放,进而影响终端其他进程/服务的运行,风险高。

风险点(15):这个风险主要涉及入网前阶段和运行阶段,入网前对磁盘剩余空间不足的终端进行删除一些文件的操作,只会影响终端本身,风险较低。如果是运行阶段,且终端上存储的信息是关键信息,对终端进行文件删除、磁盘空间清理,会造成重要信息丢失的风险,风险高。

风险点(16):这个风险主要涉及入网前阶段和运行阶段,入网前对磁盘剩余空间不足的终端进行改变文件路径的操作,只会影响终端本身,风险较低。如果是运行阶段,且终端上存储的信息是关键信息,对终端上的文件进行改变文件路径的操作,如果改变的路径在对应的系统中没有进行记录,会造成信息缺失的风险,风险较高。

风险点(17-19):这些风险主要涉及运行阶段,在运行阶段过程中,如果这些资源占用信息不能准确获取,将不能进行对应的管控操作,风险较高。一般情况下,不会出现这些风险,但不排除系统不正常的时候这些风险出现。

(b)与信息安全的关系

异常资源占用风险涉及在线信息安全风险和存储信息风险。

风险点(1-4):CPU占用率过高,会导致正常的业务进程因为得不到运行所需要的CPU资源而无法运行,进而造成业务不可用。对在线信息而言,可能会因为缺少必要的资源造成在线信息得不到及时的处理和存储;对已经在终端上存储的信息而言,信息已经在存储状态,影响不大。

风险点(5-8):内存占用率过高,会导致正常的业务进程因为得不到运行所需要的内存资源而无法运行,进而造成业务不可用。对在线信息而言,可能会因为缺少必要的资源造成在线信息得不到及时的处理和存储;对已经在终端上存储的信息而言,信息已经在存储状态,影响不大。

风险点(9-12):磁盘剩余空间不够,会导致正常的业务进程因为得不到运行所需要的硬盘资源而无法运行,进而造成业务不可用。对在线信息而言,可能会因为缺少必要的资源造成在线信息得不到及时处理和存储;对已经在终端上存储的信息而言,信息已经在存储状态,影响不大。

风险点(13-14):这两个风险主要是对占用资源高的进程处理,如果处理的进程与在线信息相关,比如进程涉及数据存储,对在线信息有影响,如果进程与信息存储无关,对在线信息影响不大。对已存储的信息无影响。

风险点(15):对磁盘空间进行清理,删除不能删的文件时,如果删的文件是正在处理的在线文件,会不允许删除,不存在影响。如果是存储信息,则会造成文件误删的风险,风险较高。

风险点(16):对磁盘空间进行清理,改变一些文件的路径时,如果改变路径的是正在处理的在线文件,会不允许改变路径,不存在影响。如果是存储信息,对改变的路径需要记录在案,以便后续的文件再用,风险较低。

风险点(17-19):不能获取资源的使用率情况,与后续的控制有关,与在线信息和存储信息无关。

(c)基于资产使用人分析

该类风险与人员分类没有明显的关系,主要取决于终端的使用目的,如果终端运行了关键业务,而关键业务所需要的资源又得不到满足,则会风险较高;对资源使用率持续过高的终端需要采取相应的预警机制,以保证终端资源的使用率始终控制在一个合理的范围内。

(d)合规性要求

合规性要求见表B-14。

表 B-14

该风险属于运行时风险,对于异常资源占用的具体定义,等级保护方面在这块没有明确的要求。需要结合实际运维的情况不断修正异常占用率,从而及时解决终端中的异常资源占用问题。

相关技术和管理的风险管控措施参见以下小节阐述。

2.风险管控

每类风险在管控过程中,针对风险的事前、事中和事后3种状态进行监控,做到事前预防、事中控制、事后审计追查。下面的风险管控处理流程,尽量从事前、事中和事后3方面对风险进行管控。

(1)风险点(1-4):终端CPU使用率异常检测管理流程

事前处置:定义CPU使用率异常的范围,不同的业务终端上,CPU使用率异常的定义不尽相同;一般而言,CPU使用率持续在90%以上并且超过10s可称为异常。

事中处置:

√ 定时监测运行终端上CPU使用率的情况

√ 设定CPU异常的使用率范围

√ 如果终端CPU使用率超过设定的阈值,提示用户CPU使用率异常(通知终端用户,消息的方式)

√ 根据CPU使用率异常策略执行操作,提示终端使用者,并且发送防护平台

√ 记录CPU使用率异常的终端使用行为及终端使用者的操作,发送至防护平台服务器

事后处置:根据整体安全态势分析,调整安全策略,针对终端下发新CPU异常监控策略,查看持续高占用CPU资源的进程,采取禁用进程或者关闭不必要的任务的方式,降低CPU使用率。(www.chuimin.cn)

流程图见图B-20。

图 B-20

(2)风险点(5-8):终端内存使用率异常检测管理流程

事前处置:定义内存使用率异常的范围,不同的业务终端上,内存使用率异常的定义不尽相同;一般而言,内存使用率持续90%以上并且超过10s可称为异常。

事中处置:

√ 定时监测运行终端上内存使用率的情况

√ 设定终端内存的使用率范围

√ 如果终端内存使用率超过设定的阈值,提示用户内存使用率异常(通知终端用户,消息的方式)

√ 根据内存使用率异常策略执行操作,提示终端使用者,并且发送防护平台

√ 记录内存使用率异常的终端使用行为及终端使用者的操作,发送至防护平台服务器

事后处置:根据整体安全态势分析,调整内存监控策略,针对终端下发新的内存监控策略,查看终端上持续高占用内存资源的服务或进程,采取禁用某些服务和进程的方式,降低终端上的内存占用情况,以保证关键业务的内存使用需要。

流程图见图B-21。

图 B-21

(3)风险点(9-12):终端磁盘剩余空间不足检测管理流程

事前处置:定义硬盘剩余空间不足的最低值,不同的业务终端,不同的盘符下,对最低硬盘剩余空间的要求不尽相同。一般而言,对操作系统所在的盘符和应用数据所存储的盘符剩余空间要求不尽相同。还需要考虑终端用户数据增长的情况,对不同的终端制定不同的最低剩余硬盘空间值。

事中处置:

√ 定时监测运行终端上硬盘各盘符的剩余空间的情况

√ 设定终端剩余空间不足的最低阈值

√ 如果终端硬盘剩余空间低于设定的的阈值,提示用户剩余硬盘空间不足(通知终端用户,消息的方式)

√ 根据硬盘空间不足策略执行操作,提示终端使用者,并且发送防护平台

√ 记录硬盘空间不足的终端使用行为及终端使用者的操作,发送至防护平台服务器

事后处置:根据整体安全态势分析,调整硬盘空间监控策略,针对终端下发新的硬盘监控策略,查看终端上硬盘空间不足的盘符,是否有垃圾数据,如果有垃圾数据,采取及时清除的方法;如果是运行数据保存所需,看是否可以做数据迁移,以保证有足够的空间供运行使用,或者采取追加磁盘空间的方式,以保证有足够的磁盘空间来保证终端正常运行。

流程图见图B-22。

图 B-22

(4)风险点(13):对CPU占用率异常的进程处理流程

事中处置:

√ 发现终端CPU使用率持续过高时,记录终端CPU使用率的情况,保存至防护平台

服务器

√ 对持续占用CPU资源过高的进程和服务进行行为取证(占用高CPU使用率的进程、进程名称、CPU使用率持续高的终端、终端使用者、终端IP等原始记录信息),保存至防护平台服务器

事后处置:管理员通过CPU持续过高的记录对终端上的CPU使用率情况追溯,发现持续占用CPU资源的终端上的进程或服务,并通过发送通知给终端用户,建议其停止占用过高CPU资源的进程的运行,如果该进程不允许停止运行(核心业务所需),定位CPU资源高占用的原因,排查问题,将CPU使用率降到一个合理的范围。

流程图见图B-23。

图 B-23

(5)风险点(14-16):对内存使用率和磁盘剩余空间检测的流程与风险点13的流程图类似,此处不再赘述。

(6)风险点(17-19)

事前处置:目前主要通过获取Windows操作系统获取终端上各项资源的使用情况,如果终端操作系统有错误,其资源使用率信息可能无法获取,从而影响后续的资源控制策略和相关告警。

事中处置:需要先行修复操作系统,保证终端的资源使用率信息可正确获取。

事后处置:在获取的无误的终端资源使用率数据基础上,进行资源异常的检测和控制流程。

3.风险控制效果

通过对资源使用率的有效监控,也能够有效避免由于资源使用率过高而导致终端过慢,影响业务正常运行的情况发生。

资源占用率异常是一个动态的过程,实施前阈值的确定需要根据实际使用的需要来确定;在对终端资源使用率进行风险管理的时候存在这样的情况:

√ 一些进程本身占用的资源就会更高,如果频繁对这些进程检测,会影响系统的工作效率和进程的使用

√ 一些资源异常使用的信息报给管理员后,也未得到及时的关注和处理

因此,尽管部署了完备的检测和管理技术手段,却会因人的操作习惯和安全意识造成异常资源占用的风险继续存在。

针对该问题,建议增加以下几方面工作:

√ 加强安全意识培训和教育,使终端用户意识到保持合理资源使用率的重要性,督促其定期关注终端的各项资源使用率的情况

√ 提供制度保障,要求用户将终端各项资源的使用率控制在一个合理范围内

√ 建立定期检查和整改制度,定期对组织内终端资源异常使用的状况进行集中检查,

集中整改