移动应用隐私合规检测简介及目标检测技术的应用

科技怪授

发布于 2022-10-12 20:55

浏览

0收藏

1 移动应用隐私合规检测背景简介
移动应用的隐私合规检测，从技术形态上可以分为静态检测方案与动态检测方案。以下分别作简要介绍。
1.1 静态检测
静态检测方案通过对移动应用的安装包进行反编译，进而通过静态数据流、控制流分析等技术，检测移动应用中可能存在的隐私泄露问题。在该领域中，常用到以下工具：
• Apktool [1]: 反编译安卓Apk，可以反编译资源，并在进行修改之后重新打包Apk
• dex2jar [2]: 将Apk反编译成Java源码（classes.dex转化成jar文件）
• Soot [3]：Soot最初是Java优化框架，发展至今已广泛应用于分析优化和可视化Java和Android应用程序。
• Flowdroid [4]: 基于IFDS算法实现的针对Android的静态污点分析框架
利用上述工具，开发者可以制定相应的规范检测项，从而检测到应用中存在的隐私泄露隐患。
1.2 动态检测
动态检测方案通过运行待检测应用于真实手机或者模拟器沙箱，通过监控移动应用对系统内敏感资源的访问，结合移动应用的隐私政策声明分析，检测移动应用是否包含隐私违规行为。应用运行则可以由人工进行或者UI自动化。
1.2.1 敏感行为监测
运行时敏感行监测实时监控应用对用户隐私敏感数据的访问。在实现上分为两种：一种是直接在源码中添加监控代码。如在AOSP代码中的getLastLocation中直接添加代码，记录API访问行为。另一种则是通过hook方案，不直接修改源码，而是在系统运行APP时添加逻辑钩子，在APP调用特定敏感API时，先跳转至hook函数，最后再返回调用原敏感API。其中，hook函数负责记录应用的API访问行为。
1.2.2 UI自动化
移动应用自动化即通过程序控制移动应用UI交互。该领域典型的工具有： monkey [5]，进行UI界面随机点击以及系统级事件。第三方UI自动化工具：uiautomator2 [6]和AndroidViewClient [7], 基于系统工具uiautomator实现，能够实现基本的自动化UI测试功能编程。
2 目标检测技术在隐私合规检测领域的应用
深度学习中的目标检测，主要用于在视图中检测出物体的类别和位置，如下图所示。目前业界主要有YOLO [7]，SSD [8]和RCNN [9]三类深度学习算法。
移动应用隐私合规检测简介及目标检测技术的应用-鸿蒙开发者社区
以Faster RCNN为例，该算法是RCNN算法的演进。在结构上，Faster RCNN将特征抽取(feature extraction)，proposal提取，bounding box regression(rect refine)，classification都整合在了一个网络中，使得综合性能有较大提高，在检测速度方面尤为明显。Faster RCNN主要分为4个主要内容：

Conv layers。作为一种CNN网络目标检测方法，Faster RCNN首先使用一组基础的conv+relu+pooling层提取image的feature maps。该feature maps被共享用于后续RPN层和全连接层。
Region Proposal Networks。RPN网络用于生成region proposals。该层通过softmax判断anchors属于positive或者negative，再利用bounding box regression修正anchors获得精确的proposals。
Roi Pooling。该层收集输入的feature maps和proposals，综合这些信息后提取proposal feature maps，送入后续全连接层判定目标类别。
Classification。利用proposal feature maps计算proposal的类别，同时再次bounding box regression获得检测框最终的精确位置。

2.1 应用点
在UI自动化中，常常存在基于uiautomator的工具无法识别的UI布局。主要有两种原因导致这种情况：1、UI内容由整张图片渲染而成；2、UI控件原因，某些用户编写的UI控件没有支持无障碍服务，导致uiautomator无法获取UI布局。此时，使用UI图片目标识别，可以判断可点击的有效区域。

如上图所示，在Sechunter的UI自动化中，我们需要获取应用的隐私声明文件链接，以及相应的“同意”、“不同意”的位置。在uiautomator无法获得UI布局的情况下，可以进行目标识别，通过图像获得可点击位置，从而推进UI自动化测试的继续执行。
2.2 目标检测技术的应用
在模型训练中，主要困难在于数据集收集。Sechunter的解决方案是，先通过传统的图片处理方案获取初步的数据集，这里我们使用了图片处理领域的显著区域识别。这个过程的关键是要有一个验证模块，对隐私声明链接而言，即验证该区域点击跳转后内容的确是隐私声明。我们使用了LDA主题模型来判断文本内容是否是隐私政策。通过验证的样本都收纳到数据集中，然后用这些标注数据进行第一版的目标识别模型训练。
训练出来的模型只是利用传统图像处理能够识别成功的图片进行学习。对于不成功的图片，我们进一步使用OCR。OCR能够识别出图像中的文字内容及其位置。结合第一阶段的目标识别模型进行结果融合，可以得到更为精确的可点击区域结果，并且这个时候的融合方案已经初步可以使用了。随着数据集的积累，目标检测模型的检测结果也变得更精确。最终能够只使用目标识别方案。
3 小结
移动应用隐私合规检测对保护个人信息安全有着重要作用。但目前市场上的工具自动化检测能力普遍都还比较有限。Sechunter在自动化隐私合规检测领域做了一些积极探索，进行了众多跨领域技术调研，本文介绍的目标识别技术能够帮助自动化工具更快更准地识别UI可点击区域。