元素网站最新网页游戏排行榜2021
2023.2.14
 一、
 1.数据预处理的过程和解决问题
 2.什么是离群点,检测离群点的四个方法
 3.数据仓库的四个特点,画出数据仓库结构图
 4.维度归约的两个方法及区别。
 二、
 两个模型用来预测新冠病毒的阳性和阴性
 1.分别求准确率,精确率,召回率,错误率
 2.在实际中用哪个模型比较好(利用召回率)
 三、FP-树
 1.FP树的生成过程,画出FP树
 2.给出挖掘频繁项的过程和结果
 四、给出事务列表
 1.利用GSP算法,最小支持度为2,求频繁序列
 2.求最大频繁序列
 3.问如何从Lk-1到Ck
 五、给出ER图
 1.维度建模
 2.问如果时间维度有不同的粒度,事实表和维度表怎么做
 3.基本立方体【日, 商品号,城市】,求2017年第一季度所有品牌的销售额的OLAP操作
 4.Molap的工作原理
 六、DBSCAN
 1.过程
 2.列出核心对象
 3.分别给出两组密度相连还有密度可达的集合
 七、数据流
 一组数据流(PPT上有),给出到达子集11011
 1.求到达后的样子
 2.求1的个数
题量很大,很考验对算法的理解程度。
从往年题来看,一般往年的简答题(第一大题)之后不会再考,对于其他简答题需要熟练记忆。
整理了一套复习资料,链接如下:数据仓库挖掘复习题及智库,课后习题答案
