扩展学习|商业智能和分析:从大数据到大影响
文献来源:Chen H, Chiang R H L, Storey V C. Business intelligence and analytics: From big data to big impact[J]. MIS quarterly, 2012: 1165-1188.
下载链接:https://pan.baidu.com/s/1JoHcTbwdc1TPGnwXsL4kIA?
提取码:a8uy
????????在不同的组织中,与数据和分析相关的机会有助于产生对BI&A的极大兴趣,BI&A通常被称为分析关键业务数据的技术、技术、系统、实践、方法和应用程序,以帮助企业更好地了解其业务和市场,并及时做出业务决策。
????????图1显示了本文的关键部分,包括BI&A的发展、应用程序和新兴的分析研究机会。然后,我们报告了一项基于十多年来相关BI&A学术和行业出版物的重要BI&A出版物、研究人员和研究主题的文献计量学研究。
一、BI&A演进:关键特征和能力
表1?总结了与Gartner BI平台核心功能和炒作周期相关的BI&A 1.0、2.0和3.0的关键特征
关键特性 | Gartner BI平台核心功能 | Gartner炒作周期 | |
BI&A 1.0 | 基于dbms的结构化内容 ?RDBMS和数据仓库 ?ETL和OLAP ?仪表板和记分卡 ?数据挖掘和统计分析 | ?基于特别查询和搜索的商业智能 ?报告、仪表板和记分卡 ?人机交互 ?可视化 ?预测建模和数据挖掘 | ?基于列的DBMS ?内存DBMS ?实时决策 ?数据挖掘工作台 |
BI&A 2.0 | 基于Web的非结构化内容 ?信息检索和提取 ?意见挖掘 问题回答 ?网络分析和网络智能 ?社会媒体分析 ?社会网络分析 ?时空分析 | ?信息语义服务 ?自然语言问答 ?内容和文本分析 | |
BI&A 3.0 | 移动和基于传感器的内容 ?位置感知分析 ?以人为中心的分析 ?上下文相关分析 ?移动可视化和HCI | ? Mobile BI |
ps:Gartner BI平台是指由全球知名科技研究与咨询公司 Gartner Inc. 评定或推荐的商业智能(Business Intelligence,BI)平台。Gartner 是一家在科技行业享有盛誉的研究和咨询公司,其分析报告和市场鉴定具有广泛的影响力。
(一)BI&A 1.0
????????作为一种以数据为中心的方法,BI&A植根于长期存在的数据库管理领域。它在很大程度上依赖于各种数据收集、提取和分析技术。目前在工业中采用的BI&A技术和应用程序可以被视为BI&A 1.0,其中的数据主要是结构化的,由公司通过各种遗留系统收集,并且通常存储在商业关系数据库管理系统(RDBMS)中。这些系统中普遍使用的分析技术于1990年代普及,主要基于1970年代发展的统计方法和1980年代发展的数据挖掘技术。
????????数据管理和仓储被认为是BI&A 1.0的基础。设计用于提取、转换和加载(ETL)的数据集市和工具对于转换和集成特定于企业的数据至关重要。数据库查询、在线分析处理(OLAP)和基于直观但简单的图形的报告工具用于探索重要的数据特征。使用记分卡和仪表板的业务性能管理(BPM)有助于分析和可视化各种性能指标。除了这些完善的业务报告功能外,统计分析和数据挖掘技术还用于各种业务应用中的关联分析、数据分割和聚类、分类和回归分析、异常检测和预测建模。这些数据处理和分析技术中的大多数已经被整合到主要IT供应商提供的领先商业BI平台中,包括微软、IBM、甲骨文和SAP 。
(二)BI&A 2.0
????????自21世纪初以来,互联网和Web开始提供独特的数据收集和分析研究与开发机会。基于http的Web 1.0系统,以Web搜索引擎(如Google和Yahoo)和电子商务业务(如Amazon和eBay)为特征,允许组织在线展示其业务并直接与客户交互。除了将传统的基于rdbms的产品信息和业务内容在线移植之外,通过cookie和服务器日志无缝收集的详细且特定于ip的用户搜索和交互日志已经成为了解客户需求和识别新业务机会的新金矿。通过基于Web 2.0的社交和众包系统收集的网络智能、网络分析和用户生成的内容在2000年代迎来了一个新的和令人兴奋的BI&A 2.0研究时代,主要集中在非结构化网络内容的文本和网络分析上。
????????大量的公司、行业、产品和客户信息可以从网络上收集,并通过各种文本和网络挖掘技术进行组织和可视化。通过分析客户点击流数据日志,像Google analytics这样的网络分析工具可以提供用户在线活动的踪迹,并揭示用户的浏览和购买模式。网站设计、产品布局优化、客户交易分析、市场结构分析和产品推荐都可以通过网络分析来完成。除了捕捉名人聊天、对日常事件的引用以及在这些媒体中表达的社会政治观点之外,Web 2.0应用程序还可以有效地从不同类型的企业的不同客户群体中收集大量及时的反馈和意见。
????????与已经集成到商业企业IT系统中的BI&A 1.0技术不同,未来的BI&A 2.0系统将需要在现有的基于dbms的BI&A 1.0系统中集成文本挖掘(例如,信息提取、主题识别、意见挖掘、问答)、web挖掘、社会网络分析和时空分析等成熟且可扩展的技术。
(三)BI&A 3.0
????????移动和互联网设备支持高度移动、位置感知、以人为中心和上下文相关的操作和交易的能力,将在整个2010年继续为研究提供独特的挑战和机遇。移动界面、可视化和HCI(人机交互)设计也是很有前途的研究领域。尽管Web 3.0(基于移动和传感器的)时代的到来似乎是确定无疑的,但用于收集、处理、分析和可视化此类大规模流动移动和传感器数据的潜在移动分析、位置和上下文感知技术仍然未知。
二、BI&A应用:从大数据到大影响
????????下面介绍了其中一些有前途和高影响力的BI&A应用,并讨论了数据和分析的特征、潜在影响,以及精选的示例或研究:(1)电子商务和市场情报,(2)电子政务和政治2.0,(3)科学技术,(4)智能健康和福祉,以及(5)安全和公共安全。
????????表2总结了有前途的BI&A应用程序、数据特征、分析技术和潜在影响。
电子商贸 及市场情报 | 电子政务 与政治2.0 | 科学技术 | 智能健康和医疗 | 公共安全 | |
---|---|---|---|---|---|
应用 | ?推荐系统 ?社交媒体监测和分析 ?众包系统 ?社交和虚拟游戏 | ?无处不在的政府服务 ?平等的机会和公共服务 ?公民参与 ?政治运动和电子投票 | ?科技创新 ?假设检验?知识发现 | ?人类和植物基因组学?医疗保健决策支持 ?患者群体分析 | ?犯罪分析 ?计算犯罪学 ?恐怖主义信息学 ?开源情报 ?网络安全 |
数据安全 | ?客户交易记录搜索 ?用户日志 ?客户生成内容 | ?政府信息和服务 ?规章制度 ?市民反馈和意见 | ?科技仪器和系统生成的数据 ?传感器和网络内容 | ?基因组学和序列数据?电子健康记录(EHR) ?健康和患者社交媒体 | ?犯罪记录 ?犯罪地图 ?犯罪网络 ?新闻和网络 目录 ?恐怖主义事件 数据库 ?病毒、网络 攻击,以及 僵尸网络 |
特点:基于web的结构化,用户生成的内容,丰富的网络信息,非结构化的非正式客户意见 | 特征:碎片化的信息源和遗留系统,丰富的文本内容,非结构化的非正式公民对话 | 特点:基于仪器的高通量数据采集,细粒度多模态和大规模记录,科技特定数据格式 | 特点:不同但高度关联的内容,针对个人的内容,HIPAA, IRB和道德问题 | 特点:个人身份信息,内容不完整,具有欺骗性,群体和网络信息丰富,内容多语种 | |
分析 | ?关联规则挖掘 ?数据库分割和聚类 ?异常检测 ?图挖掘 ?社交网络分析 ?文本和网络分析 ?情感和影响分析 | ?信息集成 ?内容和文本分析 ?政府信息语义服务和本体 ?社交媒体监控和分析 ?社交网络分析 ?情绪和影响分析 | ?基于特定领域的科学技术 ?数学和分析模型 | ?基因组学和序列分析和可视化 ?EHR关联挖掘和聚类 ?健康社交媒体监测和分析 ?健康文本分析 ?健康本体 ?患者网络分析 ?不良药物副作用分析 ?隐私保护数据挖掘 | ?犯罪关联规则挖掘和聚类 ?犯罪网络分析 ?时空分析和可视化 ?多语言文本分析 ?情绪和影响分析 ?网络攻击分析和归因 |
影响 | 长尾营销,有针对性和个性化的推荐,增加销售和客户满意度 | 改革政府,赋予公民权力,提高透明度,参与和平等 | 科技进步,科学影响 | 改善医疗保健质量,改善长期护理,增强患者能力 | 公共安全保障水平不断提高 |
三、BI&A研究框架:分析学的基础技术和新兴研究
????????新兴的分析研究机会可以分为五个关键技术领域——(大)数据分析、文本分析、web分析、网络分析和移动分析——所有这些都可以为BI&A 1.0、2.0和3.0做出贡献。这五个主题领域的分类是有意地突出每个区域的主要特征;然而,其中一些领域可能利用类似的底层技术。在每个分析领域中,我们都展示了成熟和发展良好的基础技术,并建议了一些新兴的研究领域(见表3):
(大)数据分析 | 文本分析 | 网页分析 | 网络分析 | 移动分析 | |
---|---|---|---|---|---|
基本的技术 | ?数据挖掘 ?聚类 ?回归 ?分类 ?关联分析 ?异常检测 ?神经网络 遗传算法 ?多元统计分析 ?优化 ?启发式搜索 | ?信息检索 ?文档表示 ?查询处理 ?相关性反馈 ?用户模型 ?搜索引擎 ?企业搜索系统 | ?信息检索 ?计算语言学 ?搜索引擎 ?网络爬网 ?网站排名 ?搜索日志分析 ?推荐系统 ?网络服务 ?混搭 | ?文献计量分析 ?引文网络 ?合著网络 ?社会网络理论 ?网络度量和拓扑 数学网络模型 ?网络可视化 | ?网络服务 ?智能手机平台 |
新兴的研究 | ?统计机器学习 ?顺序和时间挖掘 ?空间挖掘 ?挖掘高速数据流和传感器数据 ?过程挖掘 ?隐私保护数据挖掘 网络挖掘 ?web挖掘 ?基于列的DBMS ?内存DBMS ?并行DBMS、 ?云计算 | ?统计NLP ?信息提取 ?主题模型 ?问答系统 ?意见挖掘 ?情感/影响分析 ?网络风格分析 ?多语言分析 ?文本可视化 ?多媒体IR ?移动IR ?Hadoop ?MapReduce | ?云服务 ?云计算 ?社交搜索和挖掘 ?声誉系统 ?社交媒体分析 ?网络可视化 ?基于网络的拍卖 ?互联网货币化 ?社交营销 ?网络隐私/安全 | ?链接挖掘 ?社区检测 ?动态网络建模 ?基于代理的建模 ?社会影响和信息扩散模型 ?E R G M s ?虚拟社区 ?犯罪/黑暗网络 ?社会/政治分析 ?信任和声誉 | ?移动网络服务、 移动普及应用、 移动传感应用、 移动社交创新、 移动社交网络、 移动可视化/ 人机交互、 个性化和行为建模、 游戏化、 移动广告和营销 |
? ? ? ? (1)其中,数据分析是指主要基于数据挖掘和统计分析的BI&A技术。如前所述,这些技术大多依赖于关系DBMS、数据仓库、ETL、OLAP和BPM等成熟的商业技术(Chaudhuri et al 2011)
????????自20世纪80年代末以来,人工智能、算法和数据库社区的研究人员开发了各种数据挖掘算法。在IEEE 2006年数据挖掘国际会议(ICDM)上,根据专家提名、引用计数和社区调查确定了10个最具影响力的数据挖掘算法。按排名依次为C4.5、k-means、SVM(支持向量机)、Apriori、EM(期望最大化)、PageRank、AdaBoost、kNN (k-近邻)、Na?ve贝叶斯和CART (Wu et al . 2007)。这些算法包括分类、聚类、回归、关联分析和网络分析。这些流行的数据挖掘算法中的大多数已被纳入商业和开源数据挖掘系统。
????????诸如用于分类/预测和聚类的神经网络以及用于优化和机器学习的遗传算法等进步都为数据挖掘在不同应用中的成功做出了贡献。
????????商学院通常教授的另外两种数据分析方法对财务分析也至关重要。多元统计分析以统计理论和模型为基础,涵盖了回归、因素分析、聚类和判别分析等分析技术,这些分析技术已成功地应用于各种业务应用中。在管理科学界发展起来的优化技术和启发式搜索也适用于选定的BI&A问题,如数据库特征选择和网络爬行/蜘蛛爬行。这些技巧大多可以在商学院的课程中找到。?由于数据挖掘和统计分析社区共同取得的成功,数据分析仍然是一个活跃的研究领域。统计机器学习通常基于良好的数学模型和强大的算法,如贝叶斯网络、隐马尔可夫模型、支持向量机、强化学习和集成模型等技术,已应用于数据、文本和web分析应用程序。其他新的数据分析技术探索和利用独特的数据特征,从顺序/时间挖掘和空间挖掘,到高速数据流和传感器数据的数据挖掘。
????????在各种电子商务、电子政务和医疗保健应用中,对隐私的关注日益增加,这使得保护隐私的数据挖掘成为一个新兴的研究领域。其中许多方法是数据驱动的,依赖于各种匿名化技术,而其他方法是过程驱动的,定义如何访问和使用数据。在过去的十年中,过程挖掘也作为一个新的研究领域出现,它侧重于使用事件数据分析过程。由于各种行业(例如,医疗保健、供应链)中事件日志的可用性以及新的流程发现和一致性检查技术,流程挖掘已经成为可能。此外,网络数据和网络内容有助于在网络分析和网络分析方面产生令人兴奋的研究,如下所示。
????????除了活跃的数据分析学术研究之外,行业研究和发展也产生了很多兴奋,特别是在半结构化内容的大数据分析方面。与可以通过RDBMS重复处理的结构化数据不同,半结构化数据可能需要在可扩展和分布式的MapReduce或Hadoop环境中进行临时和一次性的提取、解析、处理、索引和分析。MapReduce被誉为大规模、大规模并行数据访问的革命性新平台。
????????受到MapReduce的部分启发,Hadoop提供了一个基于java的软件框架,用于分布式处理数据密集型转换和分析。前三大商业数据库供应商——oracle、IBM和Microsoft——都采用了Hadoop,其中一些采用了云基础设施。
(2)组织收集的非结构化内容中有很大一部分是文本格式的,从电子邮件通信和公司文档到网页和社交媒体内容。文本分析的学术根源在于信息检索和计算语言学。在信息检索中,文档表示和查询处理是发展向量空间模型、布尔检索模型和概率检索模型的基础,进而成为现代数字图书馆、搜索引擎和企业搜索系统的基础(Salton 1989)。在计算语言学中,用于词汇习得、词义消歧、词性标注(POST)和概率上下文无关语法的统计自然语言处理(NLP)技术对于表示文本也变得非常重要。除了文档和查询表示之外,用户模型和相关反馈在增强搜索性能方面也很重要.
四、绘制BI&A知识景观:学术和行业出版物的文献计量学研究
????????为了更好地了解BI&A相关研究的现状并确定未来的知识来源,我们进行了文献计量学研究,分析了相关文献、主要BI&A学者、学科和出版物以及重点研究课题。本研究遵循了收集、转换和分析过程,这与其他应用程序中采用的典型的BI&A过程非常相似
五、BI&A教育和项目发展
????????BI&A研究框架内的特刊论文摘要
作者和书名 | 演变 | 应用 | 数据 | 分析或研究介绍 | 影响 |
Chau and Xu, “Business Intelligence in Blogs: ?Under- standing Consumer Inter- actions and Communities | 社交媒体和网络分析的BI&A 2.0 | 消费者和社区的市场情报 | 从博客中提取的用户生成内容 | ?文本和网络分析 ?社区检测 ?网络可视化 | 提高了销售额和客户满意度 |
Park et al., “A Social Network-Based Inference Model for Validating Customer Profile Data | BI&A 1.0 & 2.0社会网络分析和统计分析 | 预测客户资料的市场情报 | 自报用户资料和手机通话记录 | ?网络分析 ?异常检测 ?预测分析 | 个性化推荐,提高客户满意度 |
Lau et al., “Web 2.0 Environmental Scanning and Adaptive Decision Support for Business Mergers and? Acquisitions | 关于记分卡和网络分析的BI&A 1.0和2.0 | 环境扫描市场情报 | 从互联网和专有财务信息中提取的业务信息 | ?文本和网络分析 ?情感和影响分析 ?关系挖掘 | 并购中的战略决策 |
Hu et al., “Network-Based Modeling and Analysis of Systemic Risk in Banking Systems” | 关于统计分析的BI&A 1.0 | 银行系统的系统性风险分析与管理 | 美国银行信息提取自FDIC和联邦储备银行网络 | ?网络和数据分析 ?描述性和预测性建模?离散事件模拟 | 监测和减轻传染性银行倒闭 |
Abbasi et al., “MetaFraud: ?A Meta-Learning Framework for Detecting Financial Fraud” | 关于数据挖掘和元学习的BI&A 1.0 | 欺诈检测 | 财务比率,以及组织和行业层面的背景特征 | ?数据分析 ?分类与泛化 ?自适应学习 | 财务欺诈侦查 |
Sahoo et al., “A Hidden Markov Model for Col- laborative Filtering | 关于统计分析的BI&A 1.0 | 不断改变用户偏好的推荐系统 | 博客阅读数据、Netflix奖励数据集和Last。调频数据 | ?数据和网络分析 ?统计动态模型 ?协同过滤 | 个性化推荐 |
六、总结与讨论
????????通过BI&A 1.0计划,来自所有部门的企业和组织开始从通过各种企业系统收集并由商业关系数据库管理系统分析的结构化数据中获得关键见解。在过去的几年里,网络智能、网络分析、web 2.0以及挖掘非结构化用户生成内容的能力引领了一个新的、令人兴奋的BI&A 2.0研究时代,带来了前所未有的关于消费者意见、客户需求和识别新商业机会的智能。现在,在这个大数据时代,即使会计与审计2.0仍在成熟,我们发现自己正处于会计与审计3.0的边缘,伴随着所有新的和潜在的革命性技术带来的不确定性。学术信息系统课程如何继续满足传统学生的需求,同时也满足需要新的分析技能的在职IT专业人员的需求?这是一个值得我们深思的问题。
????????通过强调电子商务、市场情报、电子政务、医疗保健和安全等几个应用,以及绘制当前BI&A知识格局的重要方面,我们希望为未来的知识来源做出贡献,并加强当前关于(相关)学术研究重要性的讨论。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!