中国金属材料流通协会，欢迎您！

钢铁业大数据特点、应用建议与问题分析

2018年5月3日 16:28:31来源：作者：

近年来，大数据的应用一直是制造业的热点话题。尤其是随着《中国制造2025》的实施，制造业企业正在积极推动大数据的应用落地。宝钢研究院首席研究员杜斌最近在内部交流时所作的《钢铁业大数据应用的技术思考》报告，受到广泛关注。3月22日，原冶金部副部长、中国工程院院士殷瑞钰特向本报推荐这一报告。他指出，在大量开展工业大数据应用的当下，这篇文章所讲述的经验和建议，涉及从技术特征与方法到投资节奏、从工程可行性到管理决策，以及人才条件诸多方面，很值得钢铁行业的专业人士甚至管理人士参考。为此，本报对该报告进行整理并刊发，以飨读者。

杜斌

近年来，大数据技术在人类日常生活及社会管理等领域的应用取得了巨大的成功。比如，流感预测、Alpha Go、广告精准推送等不断冲击着人们的视野，也引起了包括钢铁业在内的工业界的高度关注。不少钢铁企业纷纷策划或开展相关的研究与投入，建立各种规模、不同类型的大数据系统，若干应用案例也迅速涌现出来。

就目前来说，我国的钢铁业已经具有较高的自动化和信息化水平，各类数据系统也是高效率制造和管理的基础。尤其是近20年来，我国钢铁业技术人员利用数据建立的模型，通过编制软件系统，参与到制造的控制和决策各个方面，取得不少成果。与我国其他制造业横向比较，钢铁业在数据、算法、系统研制等相关技术领域均走在前列。目前，新的大数据技术浪潮拓宽了数据的应用范畴和人们的视野，钢铁人应以更大的兴趣投入其中。

需要说明一下，本文观点主要是针对已建成的钢铁产线而言。

钢铁业大数据有哪些特点？

●客观地说，社会大数据与工业大数据存在较多差异，工业大数据可能无法像社会大数据那样快速带来巨大的成功。而钢铁业永恒的话题依然是成本、质量和效率，数据只是手段。

工业大数据与社会大数据的异同

先进钢铁企业数据目前已经分布在广泛建立的多级计算机管理与控制系统中。这些数据按照生产和管理高效率的原则，具有分层布置和科学有限联通的特征。由于历史、成本和技术发展等原因，20多年来建立的钢铁计算机及数据存储系统大多为满足基本需要而设计。

工业大数据与社会大数据基本相似之处有两点：

一是数据类型基本相似。钢铁业数据以数值型为主。近年随着图像处理等技术的逐步应用，钢铁业在数据类型方面也不断地丰富，有了语音和动态视频数据，可以认为钢铁业数据类型与社会大数据类型基本相似，只是目前数值型数据仍明显占大多数。

二是数据建模的理论和方法基本相同。一般应用型研究的人们主要还是用常规数理统计、回归分析、状态估计等传统统计学方法，近年神经网络、现代数学拟合、线性规划等人工智能方法较为常见，不同问题选择不同的方法，与对象的特征相关。

不同之处有以下几个方面：

第一，对精度的要求不同。从一些社会学成功的大数据应用来看，如广告推送、行为预测等方面精度可以低一些，并不会因此产生重大的副作用。工业大数据就不同，其非常强调精度，如果工业大数据应用的精度低于现有水平，或者不能优于现有水平，就难以被企业接受。这样的例子很多。以过程控制模型来看，如果引入工业大数据建模参与过程控制，就需要新数据模型的精度超过现有的以冶金机理为主建立的控制模型才行。现有模型在局部也往往利用在线数据校正或者补偿（所谓自适应控制），所以用数据模型并不能轻而易举代替原有机理模型，除非是在机理模型难以建立的地方或者范畴。

第二，需求来源不同。从研究的出发点看，社会学领域的研究可以根据已有数据的情况来选择问题，只要取得有意义的结果就会带来价值；如果数据欠缺，社会学领域的研究就可以绕道而行。而工业问题则始终是围绕成本、效率、质量这些不变的问题进行，数据条件不足不能成为回避的理由。人们往往选择任何可行的方法来攻克难题，并不局限于数据方法，比如机理分析、测量校正、操作调整等方法。这个所谓研究需求来源的不同使得工业界对数据的依赖程度低于社会领域。

第三，数据的完整性不同。

一是数据本身的完整性不同。在保证数据本身的完整性方面，工业领域数据的收集成本高于社会领域，这是由两者的现实状况和数据收集方法等的不同所致。社会领域数据收集相对简便，比如智能手机的大面积普及，厂商可以利用手机终端来完成数据的收集，还有很多数据由政府免费提供。工业领域则要复杂得多，尤其是已有产线的数据收集就是一个极其复杂且耗费巨大的事情。比如，要把一台产线上已有特殊测量仪表的数据进行某种特定的收集，可能就要请原来的仪表制造商开放通信协议和接口，这并不容易。另外，工业设备通信协议和网络传送能力均已固化，要针对数据建模需要提出新的要求，实现起来需要时间和成本。这些都是目前工业大数据应用的具体困难，虽然不是不可克服，但要付出很大的努力和必要的成本，这些付出与所得要成比例才能持续。

二是解的完整性不同。在解的完整性方面，工业领域的要求高于社会领域。工业过程的控制必须是对要控制的方方面面均进行控制，比如炼钢就要对整个过程和所有的加料或操作进行控制指导，缺一不可；而社会领域则没有这方面的要求，可以只对一种或若干种商品广告推送进行指导。

第四，初值不同。对于一个工业过程的控制或者决策问题，有时候不能等到数据存在了再去解决。比如，控制总是在钢铁产线建立之初就要起作用，这就是所谓的数据初值问题，也就是工业界往往必须在数据产生之前就要有技术手段为制造提供控制与决策。

第五，风险不同。钢铁业大数据应用风险一般会比社会领域大，有些社会大数据应用比如广告推送、流感预测不会有难以承受的风险，而工业大数据模型可能使废品率上升，甚至危及正常生产和企业生存。

数据模型与机理模型存在较大差异

多数工业大数据应用都是通过数据建模来实施的。我们首先对比一下机理模型与数据模型的差异。机理模型是指主要的模型结构和参数来源于人们对建模对象客观规律的理解。

数据模型的参数解释性高于机理模型。通常机理模型来源于人类对对象的理解，其变量具有清晰的含义，在模型的自变量与因变量之间，专家可以给出物理或化学的解释。这种解释对于工程师对模型的理解十分重要，可以根据对相关模型变量的理解直接修改对应的模型参数。一句话，没有正确的理解就难以有良好的应用。反之，数据模型特别是一些智能模型，其参数因其复杂的数据拟合原理而变得失去了理化意义，工程师完全不能直观地或根据经验进行调整。

数据模型对对象变化的可适应性较弱。工业对象的变化总是难以避免，比如原材料性能、燃料热值、新型处理设备或部件的增加、客户对产品的新要求、产线新增或减少，等等。对象变化通常需要调整模型参数来适应，正因为数据模型的参数解释性差，必然导致调整的难度增加，甚至无法调整。尤其是增加原本不存在的新的添加物时，数据模型几乎无法调整，严重时会使得数据模型失效。

对钢铁业大数据应用的有关建议

●既要积极又要理性地开展钢铁业大数据技术的开发与应用，而理性主要反映在题目选择、技术方法以及循序渐进上。

工业大数据建模的技术方法

尽管目前大数据很热，但考虑到工业本身的特征，工业产品大多数是在人类设计的产线上制造，人们对制造过程积累了大量的知识和经验，在利用工业大数据建模时依然要紧扣问题，既充分利用大数据所含有的对象特征信息，也要充分利用数据之外的机理知识和专家经验，只有综合一切所能够利用的信息建立的模型才能达到最好的效果。通常认为：模型=机理+数据+经验，就是为了追求尽可能高的模型精度。

从工业建模的数据成本和效率角度出发，笔者认为，如果一个问题利用机理方法可以解决，就不一定要靠数据；如果用较少的数据可以解决就不必非要追求大数据。也就是说：机理＞小数据＞大数据。

也许有观点认为，随着深度学习等新技术的发展，上述问题都将不是障碍。这一点在外延明确的问题或领域也许可以较快看到（工业界这样的例子并不多）。对于大多数外延变化的钢铁业问题，我们暂时还看不到上述两个原则有被否认的趋势。

钢铁业大数据应用可从九大领域优先切入

所有这些技术比较或者建议并非是对工业大数据应用前景和价值的否定，而是针对工业问题给出合适的技术方法和路径。尽管与社会领域大数据应用存在诸多差异，但仍然可以选择一些领域开展工业大数据的研究和应用。

笔者首先建议在传统方法难以满足要求的领域或者利于发挥数据长处的领域优先开展。这些领域有：①钢铁全产线产品质量分析与监管；②专用设备诊断；③缺陷图像数据处理与分类；④基于大数据的能源整体调度优化；⑤基于制造大数据的智能采购；⑥基于市场与制造大数据的预测式制造系统；⑦基于大数据的销售决策支持；⑧成本大数据应用；⑨工序间数据建模与决策。

其中，①②④是已经长期利用数据进行工作的领域，是被证实数据应用可行且没有更好的方法可用的领域；③是把图像问题转化为数据后可以称之为大数据应用的领域，其本质依然是图像处理，其方法也是围绕图像处理技术而进行，只是大数据建模技术被认为是有前景的新方法之一；⑤~⑧是笔者较为推荐的所谓“薄而宽”的数据应用领域，宝钢数年来的实践证明了其价值和技术经济可行性，而制造环节的智能化很多是智能优化技术与大数据的结合，前者是难点与核心，故未列入；⑨则是由于大型钢厂过程计算机建设的分工设计特征决定了工序间信息的利用是一个先天的薄弱环节，传统方法是通过一系列工艺设定值来维系上下游工序间的信息衔接与传递，所以在工序间利用实际数据分析和建模可以起到补充和完善的作用。

以上列举的领域未必全面。其中②要注意的是，钢铁业工程师不要去做单体专用设备（如电机、泵阀等）的基于数据的设备诊断，而要把注意力放到工序设备的综合诊断上，因为前者很快会被专业厂商完成，而工序设备则是与钢铁业本身的制造、产品、工艺都有关的设备问题。

另外，说到大数据应用，不能不提到国际上一些把材料科学与钢铁制造相结合的数据应用研究，可算是智能化浪潮的一部分。这类研究更应当首先进行实验室探索，而不是立刻考虑工业界的计算机软硬件的安排。宝钢研究院就此成立了跨学科的年轻科研人员小组，按预研项目安排，这就是一个符合实际的做法。

钢铁业大数据应用应注意三个方面的问题

从企业的角度看，在开展大数据应用时应该注意什么呢？

关于大数据存放的策略，通常没有人反对把数据逐渐集中这一方式，事实上很多企业已经开始这方面的工作。为了全面应用工业大数据技术，人们期待把对象的所有数据都集中到同一个平台上，以便于做各种细致的研究。是否集中、何时集中所有的数据，目前对于新产线已不是技术问题，而是成本问题。数据集中的成本不仅仅是储存成本，对现有的钢铁产线而言，由数据收集带来的对原有仪表等供货商的依赖、对网络和通信设施的改造也许会带来更大的成本和麻烦。

一是建议首先开展“宽而薄”数据的应用研发。通常，制造管理相关（如MES/ERP）的数据属于“宽而薄”的数据，而生产控制数据（如仪表数据、L1控制系统等）往往是“窄而深”的数据。笔者建议工业大数据应用首先开展“宽而薄”数据的应用研发，一方面这里的数据看起来涉及面很宽，但实际上数据量并不大，存储或者“上云”相对容易；另一方面先进钢厂的数据相对比较完整。根据宝钢的实践，这里面可以产生很多数据效益。当然，方法不一定仅仅是人们常见的数据建模，更多的是智能优化等新技术的应用。宝钢在库存优化、产线智能排程、大宗原材料采购决策、战略客户销售协同等方面都取得了十分可观的价值，这些价值很多还都是在大数据云计算概念大规模出现前就开始产生了。至于“窄而深”的数据应用，对于控制界来说不是新技术，国内拥有较好的技术和人才基础，优先的方法是沿着过去已有的技术积累开展研发，在取得明确结果或者技术认识之后，再考虑数据集中，这是更符合实际和低成本的做法。

二是试点研究既是大数据的便利之处，也是必要途径。从笔者比较熟悉的成功数据应用技术成果看，大多数都经历过多次的实验，成功后往往对计算机系统提出了一定的新要求，很难想象在没有试验和一定研究的基础上就把很多数据收集起来，然后寄希望于依靠数据建模或者机器学习带来各种意想不到的成功。这既缺乏科学性，也不是经济的路径。通常而言，缺乏技术验证的东西很难得到工业界的接受。钢铁业已有的数据使我们可以通过简单的方法把有关的数据收集到离线的计算机中，并进行各类分析研究，找到模型，在得出效果（或者精度）和明确价值之后，再开始在线投资，会使风险和成本都小很多。这就是笔者所说的试点方法。

三是加强人才培训，分阶段分层次配置数据处理工具。钢铁业大多数员工并非数据学科出身，要从事工业大数据应用工作还需要补课。即使宝钢这样人才实力雄厚的企业，能够进行复杂数据应用的工程师也很少。熟悉对象且有一定数据基础的人方能较好地与专业数据工程师合作。因此，钢铁业大面积的大数据应用不仅是技术问题，也需要人才队伍建设的配合。

钢铁企业选择什么数据工具呢？笔者的建议是：考虑到企业工程师通常还不具备使用高端数据处理技术的能力，所以不要急于引进那些功能完整（指数据处理与建模、图形化等高级功能）的国外软件。这些软件在多用户的情况下价格十分昂贵。企业应该先给工程师提供简单的数据处理工具，然后再根据情况购买少数高级别工具给高级别人才用。笔者所在的小组就在为宝钢股份开发迷你型的钢铁业专用数据处理工具，不仅为企业节约较多的开支，同时又为后续的在线应用打下了扎实基础。

综上所述，虽然钢铁业大数据应用是技术问题，但大数据应用多数可以用传统方法完成，其载体是大量的计算机软硬件和通信网络等，所以某种意义上也是投资问题。在新技术快速发展、大数据技术日新月异的当下，笔者提出这些技术比较和差异分析，并非对大数据技术的否定，而是在目前“手机媒体”和“有偿培训”的影响力远大于专业人士的情况下，就钢铁业大数据应用提出自己的一些看法供大家参考。就笔者所知，目前钢铁业大数据新应用的项目不少是非钢铁业公司在负责实施，钢铁业内部的若干大数据系统项目有部分是由从未有过数据建模经历的工程师在主导，这里面的成本风险是可以想象的。另外，笔者亲历过一些缺乏行业基础的信息公司为技术基础薄弱的民营钢铁企业给出的大数据或智能化方案，存在明显的问题和风险，所以希望这些观点能够作为目前主流声音的补充。

笔者的核心建议是既要积极又要理性地开展钢铁业大数据技术的研发与应用，而理性主要反映在题目选择、技术方法以及循序渐进上。在大数据热的当下，这样的提法只能算一家之言，仅供同行们参考。来源：中国冶金报

友情链接

· 国务院国有资产监督管理委员会· 中华人民共和国发展和改革委员会· 中华人民共和国工业和信息化部· 中华人民共和国商务部· 中华人民共和国国务院· 中国钢铁新闻网· 五阿哥· 中国物流产业网· 华南物资集团有限公司· 找钢网· 全国金属材料企业信用查询与综合服务系统