联系我们

CrowdStrike - 发生了什么?

图片

德鲁-马歇尔,凯普纳-特里戈

使用 Kepner-Tregoe 事件映射法对 CrowdStrike Falcon 传感器碰撞事件报告作出回应

1.确定具体问题、原因和后果

问题 CrowdStrike 猎鹰传感器崩溃 由于通道文件 291 提供给内容解释器的输入参数不匹配。根据 CrowdStrike 的说法:

2024 年 2 月,CrowdStrike 推出了一种新的传感器功能,以实现对可能滥用某些 Windows 机制的新型攻击技术的可见性。该功能为快速响应内容收集数据预先定义了一组字段。 如区域合作协定所述根据我们的标准软件开发流程,我们开发并测试了这一新的传感器功能。

2024 年 3 月 5 日,在成功进行压力测试后,作为内容配置更新的一部分,通道文件 291 的第一个快速响应内容被发布到生产中,在 2024 年 4 月 8 日至 2024 年 4 月 24 日期间,又部署了三个快速响应更新。这些更新在生产中的表现符合预期。

2024 年 7 月 19 日,向某些 Windows 主机提供了快速响应内容更新,对 2024 年 2 月首次发布的新功能进行了演进。 传感器预计有 20 个输入字段,而更新提供了 21 个输入字段。在这种情况下,不匹配导致内存读取越界,造成系统崩溃.我们的分析以及第三方审查证实,威胁行为者无法利用这一漏洞。

原因 定义的新 IPC 模板类型 21 个输入参数字段,但只提供了 20 个输入值 传感器代码。这种不匹配导致越界内存读取,造成系统崩溃。

后果。 这导致受保护系统受到严重破坏,导致传感器崩溃,并因传感器离线而产生潜在漏洞。 参数矩阵以提供云监控和保险解决方案而闻名的美国云计算公司将受影响的 25% 家财富 500 强公司(不包括微软)的总损失估算为惊人的 $54 亿美元。(资料来源 首席信息官)

2.确定造成问题的情况

造成问题的环境:

  • 新 IPC 模板类型的集成代码未正确验证,导致参数数量不匹配。
  • 由于在测试过程中使用了通配符匹配标准,该问题躲过了多层构建验证和测试。
  • 新 IPC 模板实例的部署引入了第 21 个输入参数的非万用字匹配标准,从而引发了不匹配问题。

3.确定可能被突破或无效的具体障碍

被破坏/无效的障碍

  • 开发和测试过程:验证过程没有发现预期输入参数与实际输入参数之间的不匹配。
  • 内容验证器:内容验证器中的逻辑错误允许不匹配的模板实例通过。
  • 边界检查:由于缺乏运行时的数组边界检查,因此发生了越界读取。

4.确定已采取和建议采取的行动

已采取的行动

  • 传感器内容编译器补丁:开发了一个补丁,用于在传感器编译时验证输入的数量。
  • 运行时数组边界检查:已添加到内容解释器函数中,以防止越界访问。
  • 模板类型更新:传感器代码已更新,以正确提供 21 个输入参数
  • 测试覆盖范围扩大:自动测试现在包括模板类型中所有字段的非通配符匹配条件。
  • 内容验证器检查:引入了额外的检查,以确保模板实例不会超出预期的输入字段。

建议采取的行动:

  • 分阶段部署:实施模板实例的分阶段部署,以便在大范围部署前发现潜在问题。
  • 客户控制:加强客户对快速响应内容更新部署的控制。
  • 独立评论:聘请第三方供应商审查猎鹰传感器代码和整体质量流程。

评估与 Kepner-Tregoe 进程保持一致的有效性

根据《世界人权宣言》,对该事件的反应在以下几个方面是有效的 Kepner-Tregoe 事件绘图流程:

  • 问题识别:明确传感器崩溃的根本原因。
  • 情况判定:彻底分析各种因素,包括开发、测试和部署流程。
  • 障碍识别:成功找出现有障碍中的差距,如验证流程和界限检查。
  • 行动实施:实施并提出全面的缓解行动,以解决这些问题并防止今后再次发生。

不过,在确保采取更多主动措施和持续监控,以便在开发和部署生命周期的早期发现和解决此类问题方面,仍有改进的余地。

建议采取的行动

1.加强验证和测试流程:

  • 对模板类型中的所有字段实施更严格的测试方案,涵盖边缘情况和非通配符标准。
  • 为每个新模板类型和模板实例引入自动回归测试,以确保兼容性和稳定性。

2.加强部署程序:

  • 建立健全的分阶段部署流程,在每个阶段逐步推广并进行全面监控。
  • 提供详细的遥测数据和实时反馈机制,以便在部署过程中迅速发现并解决问题。

3.改进开发实践:

  • 纳入全面的代码审查和同行验证,以便在开发周期的早期发现潜在的集成问题。
  • 使用静态和动态分析工具自动检测参数不匹配和其他代码异常。

4.提高客户参与度:

  • 加强客户对快速响应内容更新的控制,允许他们根据自己的操作需求选择加入或退出特定更新。
  • 为每次更新提供详细的发布说明和影响评估,告知客户潜在的风险和益处。

5.持续改进和监测

  • 建立持续改进流程,定期审查和改进开发、测试和部署实践。
  • 建立持续监控和警报系统,实时检测异常情况并立即启动纠正措施。

通过采纳这些建议,组织可以进一步使其事件响应与 Kepner-Tregoe 方法保持一致,从而增强复原力并降低未来发生类似事件的可能性。但是,如果您想建立一个稳健的环境,从一开始就设法避免这些问题、 立即联系我们.

事件地图 Crowdstrike 猎鹰传感器碰撞事件地图

凯普纳-特雷戈事件地图

相关文章

女员工对问题感到沮丧
不要相信错误信息...
围绕电脑屏幕的团队
绘制支持组织的主动问题管理路径图

我们专注于:

联系我们

如需咨询、了解详情,或提出建议