开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第1天,点击查看活动详情
本文主要讲述基于智能语音助手的数字取证方法,主要分为方案设计、抓取数据、处理数据、分析数据几个方面进行分析。
主要对智能语音助手(小爱同学)进行取证分析,获取用户与小爱同学交互时的数据,数据包括日志文件数据和用户对话信息。小爱同学的日志文件中,主要获取时间节点以及对应时间节点的相关操作。可以通过android sdk来抓取或直接从手机上读取日志文件。
下载android sdk,使用数据线连接电脑和手机,先在电脑运行中输入cmd打开命令窗口,在命令窗口中输入:adb logcat -v time >D:log.txt。此时,使用小爱同学APP完成一系列指令,完成后再按ctr+c键,在D盘可以看到生成的日志文件。
直接从手机上读取日志文件。
通过这些数据可以得到用户在哪个时间点做了什么操作,可以和小爱同学是否按照指令完成任务做对比。
用户与小爱同学的对话信息可以直接从小爱同学中获得。对于文本信息,主要提取出和敏感、安全、隐私等相关的关键词。这部分内容主要基于自然语言处理,分为数据预处理、训练语料、特征提取三个模块。数据预处理,对获取的文本信息进行分词、去停用词处理。使用jieba分词技术完成文本分词与去停用词。
训练语料,对分词、去停用词处理后的文本进行语料训练,使用gensim中word2vec模型进行训练。特征提取,使用训练后的文本,使用word2vec词向量技术获取文本中我们需要的关键词,例如安全、密码等关键词。智能语音助手与用户对话信息数据很庞大,可以提炼出更准确的数据,这部分数据可以提供给取证专家,获得更加有用的信息。