我们部门同事翻译的这本书即将出版,书名是《应用统计建模及数据分析——石油地质学实用指南》。最近拿来看了几天,收获不小。如果对这本书感兴趣,现在回复“预约”,到时候正式出版可以有5折的优惠价。
目前人们面临的问题变得越来越复杂,研究问题常常变得很困难。这就使得数据归纳的方法变得越来越重要,数据的重要性也越发凸显出来。统计学是数据分析的基本工具,它既研究如何从数据中把信息和规律提取出来,找出最优化的方案,也研究如何把数据当中的不确定性量化出来。
石油行业对统计学的使用由来已久,目前在大数据时代数据建模工具,石油工程师和地质学家也对大数据在油气行业的应用产生了浓厚的兴趣,并一直在探索实现基于数据驱动的油藏分析和开发优化技术。在大数据时代,数据分析的很多根本性问题和小数据时代并没有本质区别,统计学依然是数据分析的灵魂。
本书的引进翻译出版的目的是让国内研究人员尽快接触到油气行业领域主流的经典统计学和现代统计学方法。
全书分9章:第1~4章主要介绍应用统计学的基本理论,第1章为基本概念,第2章为探索性数据分析,第3章为概率分布,第4章为线性回归建模;第5~8章聚焦应用统计学的核心主题,第5 章为多元数据分析,第6 章为不确定性量化,第7章为响应面分析,第8章为数据驱动建模;第9 章介绍了本书的使用方法、关键要点,也提出了最后的思考。
整体上本书的主要内容是介绍统计学的关键概念,及其在石油地质、油藏开发中的应用实例。这里不可能介绍书中的全部甚至大部分概念,下面只是我比较感兴趣的一些内容。
1、概率、条件概率、随机变量
以前只是从概念上了解什么是条件概率,书中详细地用图形化的方式展示了什么贝叶斯框架的条件概率:
A发生的条件下C2也发生的概率,是A的面积基础上A与C2的交集,即P(C2|A)=P(A∩C2)/P(A)
2、单组/两组/多组数据的统计分析
对于单组数据的统计,介绍了均值、方差、偏度、峰度、绘图等概念。初始这些数值的数据统计方法,图形的统计表示方法也尽心概率介绍,一维数据特征的绘图,比如用箱线图和小提琴图表示,方便对比不同数据集的数据特征,小提琴图的信息量更大。
对于两组数据的统计方法,介绍用来分析两组变量之间的关系的方法,比如协方差、相关系数Pearson、秩相关Spearman等。重温了协方差的概念和计算方法,协方差是两组变量乘积的期望减去期望的乘积。书中表示,散点图是表示两组变量统计关系的主要方式。
对于多组数据的统计分析,多组变量的相关性分析是两组变量分析的扩展,需要计算两两变量之间的关系,形成关系矩阵,这个矩阵是对称矩阵。散点图的概念也可以扩展到散点图矩阵。书中指出,关系矩阵和散点图矩阵通常只能挖掘线性关系,对于更强的非线性关系,可以采用互信息的概念。
3、概率分布及其模型
概率分布是统计学的重要内容之一,了解概率分布的概念和常用概率分布模型对统计学的实用十分重要,地质统计学建模中的很多概念都和概率分布有关。整体上,概率分布的表示方法有两种,经验分布的表示方法和参数模型的表示方法。
经验分布的表示方法:直方图、分位图(累计概率分布图),后者鲁棒性更强。
参数模型的表示方法:均匀分布、三角形分布、正态分布、对数正态分布、泊松分布、指数分布、二项式分布、Weibull(威布尔)分布、Beta分布等,这种表示方法的优势是可以做概率的内插、外推的估计。上述几种概率分布模型之前都有大致了解,其中威布尔分布不太属性,因此用python代码进行了测试和计算(下图)。除此之外,书中也详细说明了正态得分变换的内容,这个技术在地质建模中经常用到。
4、线性回归
介绍了线性回归的具体方法,线性回归是最常用的方法,是人最容易理解的统计建模方法,最所有的数据,人们总是试图从中找到某种线性关系。
5、回归建模与分析
介绍了多种回归建模方法的概念和在石油领域的应用,包括简单的线性回归建模、多元回归建模、非参数变换与回归等。
对多元数据分析的分析方法,主要介绍了主成分分析、聚类分析、判别分析,及其这些方法的应用。
6、不确定性量化
不确定性的量化对统计分析很重要,对统计分析结果的应用,即实际决策的风险也横重要。涉及的概念比较多,其总体目标是分析模型输入参数的不确定性来确定模型输出结果的不确定性。通过一个油田的完整实例说明了不确定性量化的具体应用。
7、实验设计与响应面分析
由于数据数据获取难度大、费用高,必须用有限的数据获取总体的认识。因此,在统计学的实际应用中,实验设计和响应面分析很常用也很有必要。总体思想是,只观察指定的预测值组合的响应,然后根据这些点来拟合元模型(代理模型、响应面模型、降维模型),利用观测到的数据建立统计模型,该模型描述预测变量和响应之间的特定数学关系。书中给出了实验设计、响应面分析的多种方法。提到的实验设计方法有两大类:因子设计、抽样设计,其中又有细分的多种设计方法。响应面是数值实验结果分析的一种方法,它拟合输入和输出的关系,建立这种关系一般需要假设模型,称为元建模技术,常用的有:二项式模型、克里金模型、径向基函数等。
8、数据驱动建模
传统统计方法遇到了很多难题,需要人为的尝试探索数据可能复合的数学模型,本质上是模型驱动,如果数据包含了任务目前不能认识的模型,则统计分析可能会失败。因此,数据驱动的统计建模收到了极大关注,通过机器学习方法解释输入参数和输出变量之间的关系,不需要显式定义输入-输出关系的函数关系式。
常用的数据驱动建模方法有:分类回归树、随机森林、梯度提升机、支持向量机、人工神经网络等。
对于数据驱动的统计方法数据建模工具,实际应用中计算考虑因素有:模型评价、模型参数的自动调整、变量重要性评估、模型聚合等。
9、结语
最后本书对统计学在石油地质、油藏开发中的应用做了探索性的思考,包括:那些变量需要考虑,采用简单模型还是复杂模型,采用一个模型还是多个模型,过去的数据可以预测未来吗,欠拟合还是过拟合。
最后希望本书的出版对您的工作学习有积极意义。