中国勘察设计协会主管主办
近几年来,随着勘察设计行业信息化建设的高速发展,行业大部分企业已经从原来几乎没有业务系统,进入到业务系统全面开花阶段[1]。经过几年的运行,行政管理系统、生产经营系统、财务系统、协同设计系统等已积累了大量的业务数据,但由于各系统间相互独立,且往往缺乏统一的数据标准,数据不仅共享困难,还会出现不一致的情况,因而难以实现数据的集成、深度分析和再利用。相较于原先分散的数据源,借助商务智能(Business Intelligence,BI)平台可以将分散的数据建立起统一的数据仓库,使企业数据更加规范,可以更好地被分析利用。BI平台作为企业管理中一种以数据为驱动力的智能化管理工具,可以帮助企业有效地收集、整合、分析和可视化数据,显著提高企业的决策水平和管理能力。在当前日益严峻的经济形势下,市场环境越来越复杂,商业竞争越来越激烈,迫使企业必须加快数字化转型,而BI平台正是通过大数据分析助力企业实现商业价值的重要方式之一。
大数据时代,企业管理人员利用大数据BI工具进行企业经营状况分析和数据挖掘,已成为现代企业提高竞争力的重要举措[2]。汪少锋[3]从数据采集、优化数据预处理流程、数据分析建模、数据可视化等方面进行了深入研究,提出了BI平台如何应用在企业财务管理中的一套解决方案;胡志刚[4]等主要研究了BI在科研管理领域中的应用,介绍了科研智能的整体框架和关键技术;侯杰[5]等综合运用数据仓库技术、数据挖掘算法和多维数据建模与分析方法,建立了一套面向矿业集团经营和发展的商务智能分析体系;胡立勇[6]等则将BI技术应用到医院急救设备管理中,实现了医院急救设备的快速调配。
尽管BI平台在商业领域得到了广泛应用和验证,但其在勘察设计行业中的应用成果相对较少,研发面向勘察设计行业的BI平台有着重要的现实意义。本文旨在探索BI平台在勘察设计行业的落地应用研究,重点关注如何利用现有的前沿技术和方法,让业务人员基于业务需求快速地搭建各类应用。笔者基于当前国内外研究现状,结合行业企业实际情况,设计了一套企业BI平台的实现方案,其整体架构如图1所示。
图1 企业BI平台整体架构图
数据连接层:用于梳理企业各个业务系统和管理流程中的原始业务数据,以及重要的线下数据,并分别通过不同的方式接入数据同步引擎。
数据治理层:针对线上数据,使用数据同步工具对业务数据进行数据清洗、数据转换、数据关联等操作,以全量同步、增量同步的方式搭建数据仓库;针对线下数据,使用经过数据预处理后的EXCEL或CSV文件进行数据导入;针对其他逻辑非常复杂的线上业务数据,通过API数据服务的方式进行构建。通过这些不同的数据集成方式,完成数据仓库的搭建,确保数据仓库中的数据与原始业务数据的同步和实时更新,再对外提供数据存储和数据服务。
自助分析层:针对各类企业数据分析可视化场景需求,通过平台提供的各类功能特性,创建和使用各种报表及其他组件、仪表盘和故事板进行可视化数据分析,构建可视化数据应用等。
应用发布层:对构建的数据应用设置用户角色和数据权限的分配,发布并分享应用给各类管理者使用。
数据仓库建设
数据仓库是BI运行的数据基础,BI需要依赖数据仓库去做数据分析。因此,建立数据仓库是BI平台能否成功搭建的关键。
在企业信息化建设过程中,常常会出现大量异构系统和数据的情况。这些异构系统和数据来源于不同部门、业务流程或技术平台,可能具有不同的数据格式、数据结构和数据标准,容易导致数据孤岛、数据冗余和数据集成困难等问题,对企业的数据管理和应用形成挑战。
在没有数据仓库之前,企业的数据查询和分析系统、数据集市、报表系统、驾驶舱等各类系统的数据访问操作,通常直接基于业务系统数据。这种简单的数据访问模式,容易形成以下几个问题:一是业务系统对应的多个报表系统的更新和维护问题;二是不同业务系统之间的数据互通问题;三是业务系统的数据存在脏数据的问题;四是直接操作业务数据做分析,对业务数据库的压力太大,影响线上业务的稳定,同时还有破坏业务数据的风险问题。
数据仓库是一个面向主题的、集成的、随时间变化但信息本身相对稳定的数据集合,用于支持管理决策。具体而言,数据仓库中的数据不是企业业务数据的简单堆积,而是被组织成面向主题的数据模型,以便用户能够轻松地进行查询、分析和决策。
本文的目标是搭建一个企业数据仓库,通过数据抽取、转换、装载的过程(Extract–Transform–Load,ETL)工具,将原本分散、不同信息流、标准不统一的企业经营、生产、财务、项目和人力资源等数据载入并实时更新到数据仓库中,用以提供一致、准确的数据视图,为决策者和分析师提供强大的数据分析和洞察能力,支持业务决策、市场分析、业绩评估等重要活动。
对于勘察设计企业来说,借助功能强大的ETL工具,实现对各种业务数据的处理、转换、迁移,是建立企业数据中心,确保数据逻辑统一的理想途径之一。市面上有很多ETL工具,本文选用DataX工具用于数据仓库建设,它是阿里巴巴旗下的一款优秀的开源产品,能提供各种数据存储的读写插件,支持多线程执行,使用操作也很简单。
DataX是阿里云DataWorks数据集成的开源版本,是在阿里巴巴集团内被广泛使用的离线数据同步工具,实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase等各种异构数据源之间高效的数据同步功能。DataX先通过ETL进行数据清洗、转换、合并与集成,再将底层数据导入到数据仓库中。
DataX采用Framework+Plugin架构,将数据源读取和写入抽象称为Reader/Writer插件,纳入到整个同步框架中,如图2所示。本文在实际搭建数据仓库时的一项重要工作就是编写各类Reader和Writer,完成定义好的各主题域下的数据同步和更新。在进行主题域划分时,需要了解企业不同的业务流程都有哪些业务活动参与其中。划分主题域的方法有很多种,不同企业选取的方法也有所不同,其中较为常用的方法包括按部门划分、按需求划分、按功能划分和按业务系统划分四种类型。
图2 DataX设计框架
本文根据笔者所在企业实际运作情况,选取了最为常见的按部门划分方式来设计主题域。不同部门对应不同的职责范围,从事不同业务内容,管理不同的数据对象,会形成各种不同的主题域,如经营域、生产域、人事域、财务域等。这些主题域由不同的主题内容组成,具体如表1所示。
BI平台选型
目前,大部分勘察设计企业做数据分析的现状是:首先由部门员工提出具体业务需求,其次由IT人员完成数据的采集、处理、可视化和分析等一系列任务,业务人员再对IT人员完成的结果进行确认并提出修改意见。这个过程往往会迭代好几轮,工作量较大。
随着企业业务的快速发展,这种模式暴露出一些问题:一是已完成的应用难以适应业务的快速变化,且维护成本较高;二是IT人员需要面对各类业务人员提出的需求,他们对业务的理解往往没有专业人员理解得透彻,导致产出结果无法满足预期;三是该模式由于多方的参与,从需求到开发至最终交付需要一个过程,这使得产出成果的时效性较差。
为此,本文尝试一种新模式,那就是让IT人员只负责数据标准定义、数据仓库和数据集市的建立,提供各类数据服务,剩下的工作让业务人员自己来完成。他们通过建好的BI平台,在不需要编写任何代码的情况下,根据具体业务需求,通过“拖拉拽”式的自助式服务,灵活搭建各类应用,完成对业务数据的可视化、分析和挖掘等工作。
基于上述目标,在选择BI平台时,需要考虑以下几个关键因素:
一是业务需求。不同的BI平台在功能和特性上有所不同,这就需要评估选择的工具拥有的各项基本功能和分析能力是否能够满足企业的业务需求和目标。
二是可视化和报表功能。需要评估工具的可视化能力是否足够强大,是否能提供各种图表类型和自定义选项,创建易于理解和互动的仪表盘和报表。
三是数据整合和连接。需要能够连接和整合各种数据源,最好可以轻松进行数据提取、转换和加载(ETL)操作。
四是数据分析功能。是否能够提供高级分析功能,如数据挖掘、预测分析、趋势分析和多维分析。
五是用户友好性。选择易于使用和学习的BI平台对于用户的推广使用非常重要,故需考虑工具的用户界面和交互体验,以及是否具有丰富的培训资源来帮助用户上手。
六是扩展性和灵活性。具有扩展性和灵活性的BI平台,能够适应企业业务变化和增加新功能要求。
七是安全性和数据隐私。数据安全和隐私保护是非常重要的考虑因素,需确保BI平台能提供适当的安全功能,如访问控制、数据加密和安全审计等。
八是成本效益。需要考虑BI平台的总体成本效益,包括实施和维护成本,以及是否存在附加费用(例如培训、技术支持等)。
目前,市场上有许多BI平台可供选择,包括大型企业级平台,如国外的TaBIeau、PowerBI和国内的FineBI,开源平台如Redash、Superse、Datart等。根据上述选型时要考虑的几个关键点,本文对市面上的主流BI平台进行了调研和实际使用比较,结果如表2所示。
表2 国内外主流BI平台比较
如上所述,相比于TaBIeau、PowerBI、FineBI等业界使用最为广泛的商务BI平台,Datart无论在功能、可扩展性、上手难度,还是用户友好性等方面都可与之媲美,加之它是开源免费的,各方面都比较符合勘察设计企业的实际情况,本文最终选择Datart作为企业实施BI的平台。
平台搭建和应用案例
本文以笔者所在企业为例,介绍如何搭建企业级的BI平台并进而利用BI平台搭建一个基于企业级关键指标要素的数据分析及可视化应用——企业级数字驾驶舱,主要从指标设计、数据连接、数据治理、自助分析、应用发布五个层面分别介绍实际平台搭建及应用的过程。
指标设计
经过调研确定相关指标项,这些指标项涉及到的业务数据来自生产、经营、财务和人力资源管理等多个业务系统。由于整个企业的指标项体系极其庞大,作为示例仅列出经营概况、外务概况、人员概况三个方面的几个关键指标,如图3所示。
图3 企业级数字驾驶舱数据指标体系
数据连接
此过程的主要工作是梳理笔者所在企业业务系统现状,了解不同业务系统底层数据实现的逻辑,从而完成企业主要的生产及管理系统的数据库接入,如图4所示。
图4 数据连接
数据治理
由于上述建立的业务系统的合作软件供应商不同,数据库的类型也不同,故需要针对不同类型的数据库编写任务。本文创建了基于Oracle、SqlServer、Mysql等多种类型数据库的任务,同时根据表1设计的主题域,创建了各个主题下的数据同步任务,通过ETL工具创建一系列定时任务,同步及更新业务数据到数据仓库中,任务列表如图5所示。
表1 主题域分析设计
图5 数据治理
任务列表中的任务根据具体要同步更新的业务数据,编写了不同的数据处理规则;根据数据的新增和更新频率,设置了不同的任务执行周期表达式,以保证数据的实时更新。平台提供日志管理功能,可实时查看每个任务的执行情况,大大方便了对任务的管控。
自助分析
自助分析的前提是有足量的数据,这就首先需要保证有足够的数据源被接入进来。BI平台有专门的“数据源”模块用于配置和管理可视化数据的来源,新建一个数据源通常是开始分析或制作可视化界面的第一步,Datart默认支持以下三种数据获取方式:
一是数据仓库。平台通过JDBC连接数据仓库,获取数据仓库中的信息和数据。
二是文件。平台支持Excel和CSV文件作为数据源存储在服务端。以笔者所在企业为例,生产部门的水电费和房租是通过行政人员手工录入到Excel文件的,在查询文件数据源时,平台支持在数据视图中编写SQL语句对一个数据源下的多个文件进行关联与聚合操作。
三是接口服务。平台支持HTTP接口响应数据作为数据来源,通过程序实现复杂的业务逻辑,获取的数据一般通过封装成接口获取。在查询HTTP数据源时,支持在数据视图中编写SQL语句对一个数据源下的多个HTTP接口响应数据进行关联与聚合操作。
Datart将构建可视化分析应用的过程分解成几个步骤,这使得系统功能非常直观且内容可以很方便地被复用和更改。其中,数据视图用于从数据源中选取所需的数据,支持对所选数据进行转换和加工,用于分析和可视化制作;数据图表是可视化的基础单元,通过对数据视图中的字段做可视化属性配置,将查询结果进行可视化编码,最终以图表的形式进行展现;仪表盘是可视化的核心部分,用于呈现一组具有相关性的数据图表,从多角度掌握关键信息。
由于企业级数据驾驶舱涉及到的指标项繁多,图6仅以其中的部分指标项——合同数据可视化分析为例,展示了数据视图、数据图表组件、仪表盘的构建过程。其中,数据视图的创建是由企业IT人员来完成的,他们负责将合同数据从数据仓库中接入,接着由业务人员结合业务实际需求自助分析数据之间的关联,创建不同形式的可视化和交互组件并与数据视图绑定,将分析结果通过图表、动画等可视化方式呈现出来,最后将各个完成的组件布局排版组合成仪表盘。
图6 数据视图、数据图表组件、仪表盘的构建过程
应用发布
在上述工作完成后,就到了应用发布阶段。平台使用RBAC模型控制权限,支持创建和管理角色,以及设置用户或角色对资源的权限,能够精确控制发布与分享指定的应用给各类管理者使用。图7是企业级数字驾驶舱的一个数据指标展示页面案例。
图7 企业级数字驾驶舱页面案例
结语
本文借助开源的数据仓库搭建工具和BI分析工具,结合笔者所在的勘察设计企业的实际情况,搭建了企业的商务智能(BI)平台,具有一定的行业普适性和推广价值。通过该平台提供的功能和数据,业务部门人员可以根据业务需求,搭建多种数据分析应用模块,并进行数据的深入挖掘和可视化展现。系统解决方案在企业内得到了成功应用,在业务部门层面,培养出了部门内的数据分析能手;在企业层面,企业的综合管控和分析决策能力得到了有效提升,大大增强了行业竞争力。(本文作者朱晓伟、胡迅、黄争舸来自浙江大学建筑设计研究院有限公司,丁晨杰来自浙江大学计算机学院)
参考文献
[1]黄争舸,胡迅,朱晓伟,等.一体化信息体系助力设计院快速提升企业效能[J].中国勘察设计,2019(07):56–61.
[2]乔冰琴,段全虎,高翠莲.企业大数据分析挖掘及大数据BI工具应用实践[J].会计之友,2021(24):131–137.
[3]汪少锋.大数据技术下企业BI分析系统在财务管理中的应用[J].中国集体经济,2023(14):134–137.
[4]胡志刚,王欣,李海波.从商业智能到科研智能:智能化时代的科学学与科技管理[J].科学学与科学技术管理,2021,42(01):3–20.
[5]侯杰,胡乃联,李国清,等.基于商务智能的矿业集团运营决策系统解决方案[J].计算机集成制造系统,2016,22(01):202–212.
[6]胡立勇,李璟,胡小兰,等.基于商务智能技术的急救设备使用智能分析平台的构建与应用[J].中国医学装备,2023,20(04):119–123.
来源:《中国勘察设计》杂志