数据的资料型态主要可以区分为结构化资料和非结构化资料。在微软的Excel以及BI解决方案中,Power Query这个应用程式是用来存取结构化资料与非结构化资料的一项整合工具,也是微软利用Excel及Power BI进行资料整合与分析的一项大突破。
Power Query的资料型态
所谓的资料型态(Data Type)也称之为资料型别,是指物件所能保留之资料类型的属性,也就是在资料表里储存资料时,针对资料栏位的资料型态之定义。常见的资料类型包括文字(字串)、整数、精确位数、浮点数、字元、货币资料、日期和时间资料、二进位字串等原始数据类型。不过,在Excel的活页簿工作环境里,储存格所储存的资料内容仅是数字、文字或带有运算式的公式,而公式的呈现也仅是公式执行后的结果,此结果也不外乎是文字或数值。至于我们所看到的工作表上的储存格显示着日期、带有金融符号的金额、…这些都是拜储存格格式设定之赐。有了储存格的格式设定,才能让报表的呈现更具可读性也更有意义。然而,骨子里储存在工作表里储存格的内容不是数字就是文字或公式,其资料内容,并没有资料型态的概念。
学过资料库或程式设计的朋友们应该都知道,传统的资料库系统都是具备资料型态(Data Type)的,藉由资料型态来定义资料库中各个栏位或变数的性质与格式的属性。透过资料型态限制该栏位可以存储的资料种类与规格,即可确保资料的一致性与完整性。而身为资料连接、清理与转换工具的Power Query,自然也是处理资料库的神器,也就能够存取并规範资料型态。例如:在汇入资料至Power Query后,即可看到建立的查寻会自动也可以手动设定与调整每一个资料栏位的资料型态。基本的资料型态(Data Type),不外乎是文字、数值、日期、时间、逻辑、…等等。
在Power Query的环境里,则提供了以下所示的多种常见资料型态:
文字 (Text):用于存储字串资料。
- 数字 (Number):
- 整数 (Whole Number):用于储存整数值。
- 小数 (Decimal Number):用于储存浮点数。
- 固定小数 (Fixed Decimal Number):也称为货币型别,适合需要高精度的数值。
- 日期与时间 (Date/Time):
- 日期 (Date):仅包含日期部分。
- 时间 (Time):仅包含时间部分。
- 日期时间 (DateTime):包含日期和时间。
- 日期时间区域 (DateTimeZone):包含时区资讯的日期时间。
- 持续时间 (Duration):表示时间间隔。
- 布林值 (True/False):逻辑值,仅有 True 或 False。
- 二进制 (Binary):用于存储二进制资料,例如档案或图片。
此外,Power Query 还有一些进阶型别,例如 Null(表示空值)和 Any(表示未定义的资料型态)。这些资料型态可以帮助使用者在处理资料时更精确地定义栏位的性质。在Power Query编辑器的视窗里,资料栏位名称左侧也都会显示该与资料栏位之资料型态十分贴切的图示。
下一篇:<<Power Query三大容器实作系列 - (2/7) Power Query的三大容器>>