数据质量有几种维度?分别是什么 数据维度的种类


什么是数据库维度? 怎么理解?怎么用?做什么用的? 能否通俗易懂的说明 。谢谢 。
举个简单例子:
就拿excel表格来说,作为单一的工作表,就包含二维(行和列),而一个excel文件,通常包含多个工作表,打开excel文件时,在下方显示的“sheet1、sheet2”这些工作表页列,就是第三维 。
excel是最简单的数据库应用,一个xlsx文件只有三维,但你可以用若干个xlsx文件来组成一个项目,这些文件序列,你可以视为第四维 。
然后,你还可以把一组组xlsx文件放在一个个目录中,那么这些目录序列,你可以视为第五维 。
再往上,你还可以设置更上一级目录,那就是第六维……
反正在excel中,任何一个单元格,都可以调用存储在本地电脑(甚至是网络电脑)任何地方的、任何一个excel文件中的、任何一个工作表的、任何一个单元格内容,所以说,虽然是一大堆的文件,你也可以当做是一个数据库来处理,只是不那么方便 。
……
在数据库中,单一的数据库就能包含很多很多维,你也可以把这些维,当做树状目录的结构来理解,也可以当做一堆堆的xlsx文件集合来理解 。
磁盘的存储结构(不管是fat还是ntfs,还是linux或os或别的什么磁盘格式),都是一种大型的、多维的数据库,分区是一个维度,目录是一个维度,每一档下级目录又是一个维度 。文件是一个维度,文件中的章节行段也是维度……
数学中的维度概念,和通常意义上的空间维度,是两回事 。
空间维度可以用数学来解释,但数学维度,三维以上你就无法用空间来显示 。

但在数据库中,三维只是基本操作 。
……
用excel来举例,已经是我能找到的最容易理解的方案 。
我真正理解数据库维度时,是从数组开始的,当时使用一个很简陋的编程软件,他不提供数据库建立和访问,数组的维度也有限,还需要自己建立多维存储文件,并且只支持文本格式 。
文本格式中,使用【】标记数组维度,【】中间的标识符可以自定义,通过各种不同的标识符来延伸维度……做着做着,我忽然间就领悟到什么叫数据库、什么叫维度,如果不考虑执行效率的话,用一个文本文件,就能模拟出一个硬盘来……

数据质量与数据质量八个维度指标
数据质量与数据质量八个维度指标
数据的质量直接影响着数据的价值,并且直接影响着数据分析的结果以及我们以此做出的决策的质量 。质量不高的数据不仅仅是数据本身的问题,还会影响着企业经营管理决策;错误的数据还不如没有数据,因为没有数据时,我们还会基于经验和基于常识的判断来做出不见得是错误的决策,而错误的数据会引导我们做出错误的决策 。因此数据质量是企业经营管理数据治理的关键所在 。
数据的质量可以从八个方面进行衡量,每个维度都从一个侧面来反映数据的品相 。八个维度分别是:准确性、真实性、完整性、全面性、及时性、即时性、精确性和关联性 。
我们在比较两个数据集的品相的时候往往采用这种图形表示 。比如说,常规来讲内部数据采集的准确性、真实性、完整性高,而全面性、及时性、即时性、精确性和关联性方面取决于企业内部对数据的重视程度以及采用的技术手段的先进性有关;外部数据集,比如说微博数据、互联网媒体数据等,其全面性、及时性和即时性都可以通过技术手段,如网络爬虫等得到提高,但在准确性、真实性、精确性上难以保证,也难以控制,在关联性方面取决于数据采集和挖掘的相关技术 。
我们也可以用这个模型来衡量公司内部各个职能部门数据的品相 。下图是个示意,通过数据质量8大指标的评价,我们可以对企业内部数据治理有针对性地采取措施去提高企业的数据质量 。
数据的准确性
数据的准确性(Accuracy)是指数据采集值或者观测值和真实值之间的接近程度,也叫做误差值,误差越大,准确度越低 。数据的准确性由数据的采集方法决定的 。
数据的精确性
数据的精确性(Precision)是指对同一对象的观测数据在重复测量时所得到不同数据间的接近程度 。精确性,也可以叫精准性 。精确性与我们数据采集的精度有关系 。精度高,要求数据采集的粒度越细,误差的容忍程度越低 。
测量人的身高,我们可以精确到厘米,多次测量差异只会在厘米级别;测量北京到上海的距离,我们精确到公里,多次测量结果间的差异会在公里级别;采用游标卡尺测量一个零件的厚度,可以精确到1/50毫米,多次测量的结果间的误差也只会在1/50毫米间 。采用的测量方法和手段直接影响着数据的精确性 。
数据的真实性
数据的真实性,也叫数据的正确性(Rightness) 。数据的正确性取决于数据采集过程的可控程度,可控程度高,可追溯情况好,数据的真实性容易得到保障,而可控程度低或者无法追溯,数据造假后无法追溯,则真实性难以保证 。
为了提高数据的真实性,采用无人进行过程干涉的智能终端直接采集数据,能够更好地保证所采集数据的真实性,减少人为干预,减少数据造假,从而让数据更加正确地反应客观事物 。
数据的及时性
数据的及时性(In-time)就是数据能否在需要的时候得到保证 。我们月初会对上个月的经营和管理数据进行统计汇总,这些数据能否及时处理完成,财务能否在月度关账后及时核算 。数据的及时性是我们数据分析和挖掘及时性的保障 。如果公司的财务核算复杂,核算速度缓慢,上个月的数据在月中才能统计汇总完成,等需要调整财务策略的时候,已经到了月底了,一个月已经快过完了 。特别是公司做大了之后,业务覆盖多个市场、多个国家,数据不能及时汇总,会影响到高层决策的及时程度 。
数据的及时性与企业数据处理的速度和效率有直接的关系,为了提高数据的及时性,越来越多的公司采用管理信息系统,并在管理信息系统中附加各种自动数据处理功能,能够在数据上传系统之后自动完成绝大部分报表,从而保证数据处理的效率 。计算机自动处理中间层数据是提高企业数据处理效率的有效手段 。
除了保证数据采集的及时性和数据处理的效率问题外,还需要从制度和流程上保证数据传输的及时性 。数据报表完成了,要及时或者在要求的时间范围内发送到指定的部门,或者上传到指定的存储空间 。
数据的即时性
数据的即时性是指数据采集时间节点和数据传输的时间节点,一个数据在数据源头采集后立即存储,并立即加工呈现,就是即时数据,而经过一段时间之后再传输到信息系统中,则数据即时性就稍差 。
微博的数据采集,当用户发布了微博,数据立即能够被抓取和加工,会生成即时微博数据报告,并随着时间推移,数据不断变化,我们可以称作是即时采集和处理的 。一个生产设备的仪表即时反应着设备的温度、电压、电流、气压等数据,这些数据生成数据流,随时监控设备的运行状况,这个数据可以看作是即时数据 。而当设备的即时运行数据存储下来,用来分析设备运行状况与设备寿命的关系,这些数据就成为历史数据 。
数据的完整性
数据的完整性是从数据采集到的程度来衡量的,是应采集和实际采集到数据之间的比例 。一条信息采集12个数据点,如我们采集员工信息数据的时候,要求填写姓名、出生日期、性别、民族、籍贯、身高、血型、婚姻状况、最高学历、最高学历专业、最高学历毕业院校、最高学历毕业时间等12项信息,而某一员工仅仅填写了部分信息,如只填写了其中的5项,则该员工所填写数据的完整性只有一半 。
一个公司数据的完整性体现着这个公司对数据的重视程度 。要求采集数据而实际上并未完整采集,只采集了一部分,这就是不完整的,往往是公司对数据采集质量要求不到位导致的 。公司要求每个人都填写完整的个人信息表,而有部分员工拒绝填写,公司2000员工,只有1200人填写了完整的个人信息表,则这个数据集就是不完整的 。
另外,对于动态数据,我们可以从时间轴上去衡量数据采集的完整性 。比如,我们要求每小时采集一次数据,每天会形成24个数据点,记录为24条数据,但是员工渎职,只记录了20次,那么这个数据集也是不完整的 。
数据的全面性
数据的全面性和完整性不同,完整性衡量的是应采集和实际采集的差异 。而全面性指的是数据采集点的遗漏情况 。比如说,我们要采集员工行为数据,我们只采集了员工上班打卡和下班打卡的数据,上班时间的员工行为数据并未采集,或者没有找到合适的方法来采集 。那么,这个数据集就是不全面的 。
我们描述一个产品的包装,仅仅描述了产品包装的正面和背面,没有记录产品包装的侧面,则就是不全面的 。我们记录一个客户的交易数据,我们只采集了客户订单中的产品、订单中产品的价格和数量,而没有采集客户送货地址、采购时间,这个数据采集就是不全面的 。
腾讯QQ和微信的用户数据记录了客户交流沟通的数据;阿里和京东的用户数据记录了用户的购买交易数据;百度地图记录了用户出行的数据;大众点评和美团记录了客户餐饮娱乐的数据 。对于全面描述一个人的生活的衣食住行各方面,这些公司的数据都是不全面的,而如果把他们的数据整合起来,则会形成更加全面的数据 。所以说,数据的全面性说一个相对的概念 。过度追求数据的全面性说不现实的 。
数据的关联性
数据的关联性是指各个数据集之间的关联关系 。比如员工工资数据和员工绩效考核数据是通过员工这个资源关联在一起来的,而且绩效数据直接关系到工资的多少 。采购订单数据与生产订单数据之间通过物料的追溯机制进行关联,而生产订单又是由员工完成的,即通过员工作业数据与员工信息数据关联起来 。
其实,我们本书探讨的企业大数据,每个数据集都是相关关联的,有些是直接关联的,比如员工工资数据和员工绩效数据,有些是间接关联的,比如说物料采购订单数据与员工工资数据 。这些数据的关联关系是由公司的资源,包括人、财、物和信息等,连接起来的 。如果有任何的数据集不能连接到其他的数据集,就会存在数据割裂或者数据孤岛 。数据割裂和数据孤岛是企业数据关联性不足导致的 。而数据的关联性直接影响到企业数据集的价值 。
产品数据分析要关注哪些维度或指标
(一)、销售数据之维度
1、商品
商品是零售分析的最细维度之一,大部分的指标都依附商品来做明细的记录,同时很多维度也是通过商品进行交叉分析 。
2、客户
客户是销售对象,包括会员 。客户所在地和区域有关联 。
3、区域
区域是地理位置 。从全球视角看:洲---国家---区;从国家视角看:区——省/市——县/ 区—镇/乡/村,一般按正式行政单位划分 。
4、时间
时间是进行数据分析非常重要的维度,分析的角度有公历角度和农历角度 。其中,公历角度:年——季度——月——日——时段(每2小时为一个段);星期、公历节假日 。农历角度:年——节气——日——时刻;农历节假日 。
(二)、销售数据之指标
1、销售数量
客户消费的商品的数量 。
2、含税销售额
客户购买商品所支付的金额 。
3、毛利
毛利=实际销售额-成本 。
4、净利
净利=去税销售额-去税成本 。
5、毛利率
销售毛利率是毛利占销售收入的百分比,也简称为毛利率,其中毛利是销售收入与销售成本的差 。
毛利率=(毛利/实际销售额)×100% 。
6、周转率
周转率和统计的时间段有关 。周转率=(销售吊牌额/库存金额)×100% 。
7、促销次数
促销次数有宏观概念上的,也有微观概念上的 。宏观上,是指一个销售单位中一段 时间内发动促销的次数,或某个供应商的商品在一段时间内参与促销的次数;微观层面上,是表示一个单品在一段时间内参与促销的次数 。
8、交易次数
客户在POS 点上支付一笔交易记录作为一次交易 。
9、客单价
客户在一次交易中支付的金额总和称为客单价 。
客单价=销售额/交易次数 。
10、周转天数
周转天数=库存金额/销售吊牌额 。周转天数越长,表示经营效率越低或存货管理越差;周转天数越短,表示经营效率越高或存货管理 。
11、退货率
退货率=退货金额/进货金额(一段时间);用于描述经营效率或存货管理情况的指标,与时间有关 。
12、售罄率
售罄率=销售数量/进货数量 。
13、库销比
库销比=期末库存金额/(本期销售牌价额/销售天数*30)
(只有在单款SKU 计算中可用数量替代金额 。)
14、连带率
连带率=销售件数/交易次数 。
15、平均单价
平均单价=销售金额/销售件数 。
16、平均折扣
平均折扣=销售金额/销售吊牌额
17、SKU(深度与宽度)
英文全称为 stock keeping unit, 简称SKU,定义为保存库存控制的最小可用单位,例如纺织品中一个SKU 通常表示一个规格,颜色,款式),即货号,例:AMF80570-1 。
18、期货
所谓期货,一般指期货合约,就是指由期货交易所统一制定的、规定在将来 某一特定的时间和地点交割一定数量标的物的标准化合约。服装行业上具体指订货会上所订购且分期交付的货品 。
19、坪效
就是指终端卖场1平米的效率,一般是作为评估卖场实力的一个重要标准 。
坪效=销售金额/门店营业面积(不包含仓库面积) 。
20、促销商品
指促销活动期间指定的商品,其价格低于市场同类的商品 。包括DM 商品,开店促销,普通促销货(特价),不包含正常降价 。
(三)、销售数据之分析方法
1、直接数据的分析 。
2、间接数据的组合分析 。
数据质量有几种维度?分别是什么?


  • 完整性

  • 数据完整性问题包含数据条目不完整,数据属性不完整等
  • 一致性多源数据的数据模型不一致,如命名不一致,数据编码不一致,含义不一致,生命周期不一致等

  • 准确性准确性也叫可靠性,不可靠的数据可能会导致严重的问题,会造成有缺陷的方法和糟糕的决策

  • 唯一性

  • 用于识别和度量重复数据,冗余数据,重复数据是导致业务无法协同,流程无法追溯的重要因素,也是数据治理需要解 决的最基本的数据问题
  • 关联性数据关联性问题是指存在数据关联的数据关系缺失或错误,例如:函数关系、相关系数、主外键关系、索引关系等 。存在数据关联性问题,会直接影响数据分析的结果,进而影响管理决策 。

  • 真实性

  • 数据必须真实准确的反映客观的实体存在或真实的业务,真 实可靠的 原始统 计数据是企业统计工作的灵魂,是一切管理工作的基础,是经 营 者进行正确经营决策必不可少的第一手 资料 。
  • 及时性数据的及时性(In-time)是指能否在需要的时候获到数据,数据的及时性与企业的数据处理速度及效率有直接的关系,是影响业务处理和管理效率的关键指标 。

  • 逻辑检查不同表字段之间可能会有逻辑关联,需要稽核

  • 离群值检查部分数据可能会偏离其他数据,比如同一个商品金额大家都是100元,而有一条数据是1W

  • 自定义规则由需求方自定义相关规则

  • 波动稽核

  • 与上周环比稽核波动情况
  • 强弱规则

  • 每个规则的权重应该是不一样的,需要配置优先级,这对后续的告警方式是有帮助的
    我们最终的目的是希望做到页面可配置

APP数据指标体系的维度包括哪些?
APP的数据指标体系主要分为五个维度,包括用户规模与质量、参与度分析、渠道分析、功能分析以用户属性分析 。
用户规模和质量维度主要是分析用户规模指标,这类指标一般为产品考核的重点指标 。
参与度分析主要分析用户的活跃度 。
渠道分析主要分析渠道推广效果 。
功能分析主要分析功能活跃情况、页面访问路径以及转化率 。
用户属性分析主要分析用户特征 。
什么是数据库维度?
从多个角度(时间、地域、机构等方面)研究一个对象的信息,其中,被研究对象为实体,研究角度就成为维度 。


【数据质量有几种维度?分别是什么 数据维度的种类】关于数据维度和数据维度的种类的内容就分享到这儿!更多实用知识经验,尽在 www.hubeilong.com