ROC值什么意思 roc什么意思
1.业务逻辑
数据分析遵循一定的流程 , 既保证了数据分析每个阶段的工作内容有章可循 , 也使得分析的最终结果更加准确 , 更有说服力 。
通常 , 数据分析分为以下步骤:
了解业务 , 确定目标 , 分析清楚需求 。
理解数据、收集原始数据、描述数据、探索数据和检查数据质量 。
准备、选择、清理、构建、整合和格式化数据 。
建立模型 , 选择建模技术 , 优化参数 , 生成测试计划 , 建立模型 。
对模型进行评价 , 对模型进行综合评价 , 对结果进行评价 , 对过程进行回顾 。
结果的部署和分析结果的应用
2.特色工程
包括特征提取、特征构建和特征选择 。特征工程的目的是筛选出更好的特征 , 获得更好的训练数据 。因为好的特征更灵活 , 可以用简单的模型进行训练 , 可以得到更好的结果 。
3.数据采集/清理/采样
1.数据收集
在数据收集之前 , 有必要指定要收集的数据 。大意是:哪些数据对最终结果预测有帮助?我们能收集数据吗?上网计算快吗?
1:比如现在我想预测一个用户对一个产品的订单 , 或者我想给用户推荐一个产品 。我需要收集什么信息?
店主:商店的等级 , 商店类别...
商品:商品评分 , 买家数量 , 颜色 , 材质 , 领子形状...
用户:历史信息(购买商品的最低和最高价格)、消费能力、商品停留时间...
2.数据清理
数据清理也是重要的一步 。机器学习算法大部分时间是一个处理机器 。至于最终的产品 , 那就要看原材料的质量了 。数据清洗就是去除脏数据 , 比如一些商品的账单数据 。
那么如何判断脏数据呢?
简单属性判断:身高3米的人;一个人一个月买了一个10w的发夹 。
或者组合属性判断:要不要判断一个人会不会买篮球鞋 , 样本中有85%的女性用户?
【ROC值什么意思 roc什么意思】完成相应的默认值:扔掉不可信的样本 , 考虑不使用默认值多的字段 。
数据清理标准:
数据完整性——比如缺少性别、籍贯、年龄等 。在人的属性中
数据的唯一性——例如 , 不同来源的数据是重复的 。
数据的权威性——例如 , 同一个指标有来自多个来源的不同值的数据 。
数据的合法性——比如获得的数据不符合常识 , 年龄超过150岁 。
数据的一致性——比如不同来源的不同指标实际内涵相同 , 或者同一指标内涵不一致 。
3.数据采样
采集清洗数据后 , 正负样本不平衡 , 需要进行数据采样 。抽样方法是随机抽样和分层抽样 。但是随机抽样会有隐患 , 因为一次随机抽样得到的数据可能会很不均匀 , 更有可能根据特点采取分层抽样 。
阳性和阴性样本不平衡的处理:
阳性样本
推荐阅读
- 移动通信的分类有哪些 什么是移动通信
- 五行不缺的男孩命好吗 五行什么都不缺好吗
- 适合6岁老人开的suv车 3岁开什么车
- 大鹏教育油画课 油画用什么颜料
- 男生游戏名简约霸气 男生游戏名简约霸气有什么
- 我的世界有狐狸的版本什么时候更新 我的世界有狐狸的版本的更新日期
- 动物出口需要什么条件 动物出口
- 成王败寇表达一个什么意思
- 非丁是什么
- 奥特佳和特斯拉什么关系