通用研发项目描述文档模板 – Sample Topical Outline for the Primary Project Documentation

研发项目总描述文档是研发过程中重要的一环。 不仅研发团队可以在开发过程中用它随时回顾进程,设计下一步走向,即使在项目结束后,接手团队仍然可以延续过程。项目描述文档可以让大的团队保持同步。特别是在开发复杂、大范围系统的项目中,作用至关重要,项目组织者必须搞好。下面我们提供一套根绝实际项目编写的通用项目文档模板。稍加修改,可适用于大部分技术项目。

研发项目描述文档章节模板

复杂技术开发项目流程样板 – A Sample Template for Project Task Tree

无论技术大小,开发的过程基本都是一样的。担当技术难度大、涉及的知识领域广、需要参与的团队大时,正确的项目设计、管理就尤为重要。科学的管理方法可以提高研发效率,减轻各部门的压力,处理意外情况。而贯穿于始终的就是“科学方法”,简论见本站另一则短文。这里我们提供一套项目流程样板供参考。这个样板是基于一个真实的目标识别项目修改后得到的。 

测量目标识别软件系统的效能项目任务图
测量目标识别软件系统的效能项目任务图

开发新技术应遵循的科学方法 – Scientific Method for Developing New Technologies

技术开发,只要遵循统一的项目管理路线,无论多么庞杂、庞大,即使需要很复杂的过程、有很大的团队参与,也可以轻松完成。重要的是要在研发管理各个环节使用“科学方法”。 科学方法的简要框架可以概括为:

Scientific Method
Scientific Method

研发人员工作提示集 – Tips for Research Scientists and Engineers

以下为一组贴心小提示, 帮助研发人员、工程师、项目管理人员和管理层更高效地完成研发任务。

提示

  1. 管理层要为每一位研究和管理人员提供一套完备的用于规划、设计和实施研究项目的软件工具。提供使用和维护这些工具的时间和资源。
  2. 在整个项目各节点使用先期验证项目来发现可能的、意料之外结果,防止故障,避免采纳脆弱的步骤,确定操作范围并估计所提出方案的可行性
  3. 使用任务树结构图来规划自上而下的项目。随着这些项目的进展,使用里程碑结构图来规划项目的物流、时间表和成本核算。
  4. 在执行任务之前和执行过程中,盘点外部和内部对试验单元进行的修改,仔细确定每个修改是必需的、不需要的还是不相关的。
  5. 谨慎设计有人或动物参与的任务,因为管理和控制人或动物会比较困难且成本高昂,同时会牵扯复杂的道德和法律问题。
  6. 对于给定的任务,仔细地定义系统、环境和实验室,然后彻底、系统地检查它们,以确定:
    • 任务资源可能产生的不良影响,以及外部对于任务资源产生的不良影响;
    • 确定系统边界可能被破坏的方式;
    • 系统内影响任务单元的外来元素
  7. 将众多单个收益指标汇总成一个总结矩阵,或将众多收益指标和成本组合成一个总结矩阵总是可能的,但这种简单的形式有可能掩盖更有意义的信息。
  8. 计划好每一个任务后,在研究报告中随时记录下你发现的每一个小规律。定期将笔记收集到一个主列表中,按类别、类型和角色分组,将它们整理成系统的规律组,并确保规律之间没有冲突。
  9. 为了最大限度地降低测量结果的净不确定性,我们应该:(1)尽可能直接测量,(2)尽量减少中间结果的算术合并次数;(3)确保测量样本尽可能独立和随机
  10. 对于每个包含数字的知识命题,尽可能直接在命题本身或在伴随的命题中陈述数字的精度,或估计精度。例如:- 摄像机支持 256 级灰度; – 在0 到 120 mph 速度范围内,速度测量的误差在5 mph范围之内。
  11. 可行性试点对于探讨各组成任务的可行性很有用。每个试点计划可以相对简单,也可以不记录在最终的项目报告中,但研究团队必须在研究笔记中完整记录结果。一旦试点产生了可能有用的结果,也一定要进行确认和验证工作来。
  12. 一般来说,用于计划时间过少比过多会导致更大的整体上的时间损失
  13. 由于项目任务树模式图和里程碑模式图清楚地呈现了项目每个阶段、每个步骤的关系,作为主要规划文件,其非常重要,所以团队每一位成员都要有任务图的最新副本。
  14. 对于研发科学家和工程师:要抵制“随手编造”的冲动。提前仔细地计划好项目,同时随着经验的积累和试点的结果调整计划,发现计划的缺陷和潜在的可以改进的地方。准备好向管理层提供可靠的时间和成本估算。如果发现无法在最后期限前完成任务,就要马上让经理知道,不要等到最后一刻。请理解经理们需要照顾更广泛领域内各方的关切。在工作场所是不能实施民主制度的。
  15. 研发经理:请为您的研究人员和工程师提供必要的时间和资源,用于完善项目的规划和设计。将人员安排在一个或两个同时进行的项目上。不要进行无必要的操练式的工作,浪费研究人员和工程师的时间;不要微观管理,不要在小问题上斤斤计较。尽量不要让你的科学家和工程师承担行政任务,那是你的工作。如果你别无选择,请明确划定行政任务的时间和成本,核算在当前项目预算之外,并适当延长项目截止日期。
  16. 任务目标是任务团队和管理层之间的契约。它通常带有人际政治成分,所以要谨慎措辞。
  17. 从项目一开始,就要写好项目完成后要得到的知识。每当获得新的知识时,就要修改或更新最初的列表。
  18. 通过试点来摸索需要的参数和可行的运转条件,以及各因素的动态范围区间、前进每一步的大小。
  19. 如果已有解决方案可以满足任务需求,采用它几乎肯定比再造新的更具成本效益。
  20. 安排获得完整、原始且未经预处理的数据。准备好处理人际关系和所有权问题,以及不请自来的“帮助”。
  21. 在开始实验设计之前,仔细清点任务的所有组成部分。
  22. 确保实验室中的每件物品在实验中都有特定的用途。如果有物品不在所需任务的清单上,请将其移除。如果无法移除,也要尽可能用积极的方法处理
  23. 禁止除必要人员以外的所有人进入实验室,张贴并发布此限制,并严格执行。停止调整所有固定参数和环境系统。如有必要,在无人期间持续监控实验室
  24. 因为实验产生的偏差通常是非常隐蔽、出乎意料和违反直觉的,所以要查清所有可能造成实验偏差的来源。可以根据风险和成本,决定如何调查这些来源及其影响。当有人参与试验时,可以请心理学家来帮助识别偏差来源。
  25. 由于原始数据会被变形,性能指标也可能被更改,我们应该同时保留原始和处理后的实验数据。
  26. 在计算总体性能之前,分析在试点取得的原始或简化后的结果,检测任何异常、意料之外的规律,并确认假设的性能指标是否正确。
  27. 除了了解当前的任务目标之外,项目和管理人员还应该充分了解当前的上层任务和子的任务目标。在项目任务纵向层次和同层任务之间建立有效的沟通渠道。
  28. 文本的排版和各种的颜色选择可以增强文字和图形所能传递的信息。相反,不当的使用会分散读者的注意力,造成视觉混乱,使你希望读者无法正确地领会信息。参加一些正式的培训,可以提高文本排版和颜色使用的技术。要了解你的文档的黑白打印效果。
  29. 在记录项目过程时,省略曾经走过的弯路和错误的起始点,将过程提炼成尽可能简单的故事:从分析任务,到建立假设,到消化结果,再到验证结论,沿一条线性序列描述。
  30. 在整理项目报告或演示文稿之前,要首先了解读者和读者对这个项目感兴趣的内容,包括读者的知识水平、政治取向知识本身,以此来指导报告结构的设计和内容选择。

科研攻关中的混料试验方法-举例讲解

前言

方便面是一种广受欢迎的快餐食品,市场上种类很多,商家竞争激烈。谁能快速推出一款广受欢迎的口味儿,谁就能抢占市场,在短期内收益颇丰。

但怎么才能调制出最受欢迎的料包哪?因为佐料选择多,配置比例不好掌握。各个地区,甚至各个季节顾客的口味也不一样,重口难调。这里我们将介绍一种快速、系统的配料筛选方法。通过调整各种调料组合,覆盖全部可能的组合空间;然后邀请品尝师打分,拟合统计预测模型,挑选出最受喜爱的调料配方。只要掌握了这种方法,经常使用,就能更快推出比对手更受欢迎的产品,永远立于不败之地。

这种配料筛选方法实际上是一种经典的试验设计方法,叫混料试验方法,在工业制造、高技术开发领域都在大显身手,世界最有竞争力的企业都在使用。但其原理其实并不复杂,如果使用开源的R软件来设计和分析,一般人都能掌握。所以我们希望借助方便面这个例子,帮助各位在科学技术开发中正确使用。

混料试验设计简介

在混料试验设计中,独立因素是各个混料的百分比,各成分百分比之和一定是100%。影响整体混料特性的因素,不是哪个因素的多少,而是各种因素之间的比率。比如不锈钢的抗拉伸性,取决于不锈钢成分中的铁、铜、镍、铬之间的比率,而不是单一成分的多少。又如咱们的方便面料包,当面条和煮水量一定的情况下,味道取决于盐、鸡汤酱、酸菜、香油等调味品的比例,而不是某一调味品绝对量的多少。

由于各调味品的绝对取值受到限制,常见的选试验点的方法与正交试验不太一样, 用的是“单形格子”(Simplex-Lattice) 和“单形重心”(Simplex-Centroid) 选点法。如果部分因素之间还受到相互约束条件限制的话,就要用“D-最优极端定点”(D-Optimal Constrained  Extreme-Vertices)设计法了。

当因素较多或约束条件较复杂时,手工选试验点会比较繁琐, 理解上也有困难。好在现在的开源免费的R软件,可以 帮我们完成这一步。本文也将讲解如何使用R来完成所有任务, 并在文尾提供数据、代码的下载。

料包的配料试验

那么我们怎么设计方便面料包的配料试验哪?

在面材和用水量固定的情况下,每袋方便面料包的总重量大体是固定的。因此影响方便面口味的因素是各个佐料的比例,而不是单一佐料的多少。比如做一款鸡汤口味的料包,主要成分是鸡汤酱、酸菜、盐和香油,影响汤的咸淡和酱香特点的是佐料的比例。现在市场上有的方便面不受顾客欢迎,被抱怨太清淡,盐太少,估计这位厂家就没使用我们的试验优化方法。

试验过程首先要设计各种配料比的组合,然后按配料比做出试验产品,交给品尝师品尝、打分。配料比的选择是设计的核心,如果选择不当,最后估测出的预测模型就会是错误的。试验次数的多少也要根据模型的复杂程度、限制条件、以及精确度来决定。试验点的选择要覆盖所有可能的选择区域,均匀分布。虽然手工做到这一点有点难,但我们可以请R软件帮忙。

输入限制条件后,R软件就能提供一套佐料配比试验计划。一共安排有16组试验。看一下限制区内试验点的分布情况。

四维空间中的三维试验点展示

我们按这个计划做出方便面供十位品尝师排位打分。 我们用十位品尝师打出的平均分,来拟合以下典型二次多项式预测模型。用拟合好的这个模型,我们可以预测顾客对各种配料比的喜爱程度。看一下当香油确定在0的位址时,模型拟合好以后满意度排序得分预测结果。

模型预测顾客满意度排名(香油=0)

图中颜色愈深,排位分越靠前,越受欢迎。反之数越大,越不受欢迎。三个顶点对应的是鸡汤酱,酸菜和盐的含量,香油的比例固定在0的位置。在边线位置上是只有两种佐料组合的情况。中央虚线内为受约束可试验的区域。如果我们调整香油含量,就会看到预测的趋势也会相应地变化。(这里我们通过一个R/Shiny的应用演示此变化规律, 请参照文尾视频观看)。

在R软件中实现混料设计数据分析

下面介绍一下如何用R软件来实现以上过程。首先我们要引入三个功能库,”mixexp” 是专门用于设计和分析混料试验的。”nloptr” 是非线性方程优化功能库。”openxlsx” 是Excel文件编辑功能库。

第一步是设计混料试验。因为独立成分自身和之间都有约束条件,我们不能用“单形格子”和“重心”设计,也就是mixexp里面的SLD() and SCD() 功能。 我们需要用Xvert算法。好在mixexp提供了Xvert() 函数。 我们只要提供维数和约束条件,就能得到多维顶点坐标,很好用。

然后我们可以用DesignPoints()函数在三维坐标系中看一下选中的试验点。这些点都在约束区的棱边和顶点上。如需要拟合更高次的多项式, 我们可以用Fillv()函数,但试验次数也会增加,这里我们暂且就不考虑了。

第二步是分析试验数据。研究人员组织品尝师品尝16种配方,排序打分,输入数据。我们读入该数据,用mixexp里面的MixModel()函数拟合二次多项式模型,看一下拟和好的模型。预测的等高线图可以用ModelPlot()函数打出。 第三步就是寻找最佳配方了, 也就是在受约束条件下,相对于最高排名的各佐料比例。这要用到nloptr功能包里的nloptr()函数。写好优化目标,也就是我们拟合好的这个二次多项式,约束条件,相等的和不等的,然后执行nloptr()函数。再用ModelPlot()看一下在最优条件下的预测得分等高图。

预测最优结果

最后最优的调味组合找到了。

顾客喜爱度预测最佳泡包配比组合

最佳满意度佐料配方组合是

  • 鸡汤酱= 0.51
  • 酸菜= 0
  • 盐= 3
  • 香油 = 19

在这个配料组合下,平均客户满意度会达到最高的3.4。有的人也许会问,为什么不用品尝师打最高分的那个组合哪?这是因为品尝师们本身会有局限性,与实际客户群会有偏差。用模型总体趋势估测的结果会有更广泛代表性, 同时兼顾其它不可控因素对顾客喜好产生的影响。

总结一下,我们通过16组混料设计试验,拟合了一个二次多项式模型,找到了喜爱度最高的调料比例组合。 我们使用R软件完成设计和模型估测以及非线性函数的最优化。这个试验原理和过程可以应用在所有工业生产、科技攻关领域, 是企业竞争力的倍增器。

本文中用到的和视频中提到的代码和数据都可在以下链接 下载, 并欢迎观看视频。要在攻关中快速实现突破,就要先掌握研究方法。从设计分析,到生产制造,零基础,学得会,我们介绍的方法适用于所有科研领域。欢迎与本公司联系,共同实现突破。

Watch live video

统计模型精密仪器校准法

我今天介绍一种快书精准的仪器校准方法。通过用观测到的数据,对照真实值,拟合回归模型,估测矫正曲线,从而提高测量仪器的使用精准度。 我还将演示如何使用开源的R软件完成计算和作图。用到的所有数据和代码都可以在文后链接下载。

在制备纯硅晶用于生产集成电路时,碳原子会随机在硅晶体轴的两端形成,难于彻底清除。碳原子的多少会影响集成电路的性能,所以必须精确地测量出提炼出的硅晶中的碳含量,以便选择相应的处理方法。测量碳含量要用到的测量仪器叫傅立叶变换红外光谱仪,或FTIR光谱仪。 它的工作原理是根据被测量物质在红外光谱各个频段的吸收强度,判别某一种物质的含量。但由于精度要求极高,一般新仪器在使用前需要校准.

收集好的数据是这样的。左面是对一致碳含量的标准警惕样本,在FTIR侧联谊上测得的碳含量之,一共有五种含碳硅晶样本,覆盖一般常用范围,并侧重地碳含量,有A和B 两种地含量样本。每天每种测量五次。

表中每行就是每一次测量样本获得的碳含量,每天,连续十天,一共50行数据。值得提到的是,控制图分析表明仪器供桌状态是受控的:所以这些数据时可以作为典型数据来用的。如果不受控的话,使用者应该先找到愿因,调整仪器,使其工作状态先受控。右面的标识样本一致的真实的碳含量。再看一下校准线的回归统计模型。其中相应变量Yi就是观测到的碳含量,Xi是样本真实碳含量,Ei 食宿及独立正态误差。 Beta0 和Beta1 是要估测的模型参数, 将用来调整光谱仪, 也可以用来直接用反回归法直接读取真实碳含量值。

现在看一下拟合好的矫正曲线:纵轴是实际观测值,横轴是实际值,共有A, B, C, D, E五种硅晶样本。 为侧重地碳含量的精准度,用了两个低碳含量样本A和B。 你和实际与么中每天五个观测值得平均数。 最后选用的是三级多向时,与直线略微幼雏润,不大。绿色区域是95%置信区间带。

根据这个矫正模型,在实际使用中,如果读到一个值,比如1.0 PPMA, 那末相应的真实碳含量应该是多少哪?这就要用到一个模型方法叫逆拟合,也就是已知Y, 去求X,并给出X的置信区间。 这里X是一个统计变量,而不是常数。通过R语言的一个功能库, 我们计算出当Y=1时,相应的X, 也就是真实的碳含量应该是1.137, 95%的值行区间是介于1.116和1.159之间,也就是这台仪器实际上低估了真实的碳含量。我们可以依据这条假证曲线来推导未来的读取值。当然,另外一种方法就是调整正态仪器的功能参数,使校正曲线最大限度地接近45度直线。

我们可使用矫正曲线参数beta0 和beta1等直接调整测量仪,就更方便快捷了。

现在我们看一下如何通过R语言来完成模型拟合和画图。我之间主要节点演示一下,大家可在本文网址下载详细代码,阅读细节部分。 没有安装R和RStudio的可以在百度上搜,免费下载,并安装需要的功能库。

读入数据文件,处理成必要的R数据文件格式。

首先用R的基本功能你和一个单因素线性模型,叫Mod。 这个模型就是我们需要得到的矫正线。可以用plotFit()观看一下拟合好的情况。这里显示的是拟合好的矫正线及95%置信区间。 我们看到直线基本可以,但中间一组,也就是样本D组稍微偏低,似乎多项式曲线模型更合适一点。

下面我们选用一个三级多项式作为拟和模型。

依然用lm()功能,看一下拟合好后的结果。这个新模型与数据更接近一些。那末我们如何使用拟合好的曲线哪?比如说我们用光谱仪观测到硅晶的碳含量是1.0  PPMA,也就是Y的值,要知道真实的碳含量,我们可以依据校正曲线反向找X的值。用R功能库里的Invest()功能可以一步完成。只要引用拟合好的Mod模型,设置Y0 为1.0,我们看到,X是1.136981, 以及95%置信区间。我们还可以在图上画出位置来。

其它代码细节可在本频道网址下载后查看。

我们顺利地建立了红外光谱仪的矫正曲线,探明了观测值和实际值的关系,并可以在未来的使用过程中获得更精准的测量值。在试验之前要注意的是, 为保证收集到的数据的有效性,必须用控制图方法,确认收集到的数据符合均值和范围变量稳定可控的统计特征。具体方法请参考有关文献或关注本频道。

科学技术是提高产品竞争力的法宝。量化分析方法可以加快研发速度。希望大家关注本网,今后会有更多技术量化分析方法介绍。大家可在以下链接下载代码和数据。

下载数据和R代码:

通过实验设计迅速掌控5 纳米晶片刻蚀机性能

我们平常做工农业实验,最忌讳的就是盲目选择实验点,或者一次只改变一个变量。因为如果要验证的因素很多的话,所要做的是实验会成倍增加, 浪费财力物力不说,还可能找不到需要的因果关系。另外一个要注意的是,试验要分步进行,逐步添加试验。不要一上来就做全因子实验。 因为不是所有因素都和输出变量有紧密关系的。也就是说,最好把实验分为两步做,既 可以节省原材料和工作时间, 又可以精确命中目标。第一步是筛选实验,用部分因子实验从众多因素中筛选出比较重要的几个。第二步是优化实验,为筛选出来的几个因素寻找选最佳工作区间。大家经常听说的中心组合试验设计,和Box-Bhnken 等响应面试验就是常用的优化实验设计。

好的实验设计,要能做到用尽可能少的试验次数,准确地发现各因素的主作用,交互作用以及如何影响相应变量的。

今天我要演示的是集成电路硅晶圆加工过程的一个实际案例。我们知道在硅晶片加工中有一个重要步骤,就是硅晶片表面的氧化刻蚀工序。目前,无论多么高端的硅晶片,无论多么复杂的2D, 3D纳米级集成线路结构,都要经过硅晶氧化刻蚀这道工序。

具体来讲,就是通过光刻机在硅晶片表面把电子线路的反光膜刻出痕迹后,暴露下面的二氧化硅层,再刻蚀二氧化硅层。刻蚀二氧化硅层要用很精密的仪器,因为二氧化硅层只有5-20纳米。一个纳米是一毫米的百万分之一,所以 非常非常的薄,肉眼一般无法看见。不同颜色的硅晶片,就是由不同厚度的表面氧化层反光频率不同造成的。刻蚀硅氧化层有干和湿两种刻法,目前比较通用的是干刻法。干刻法须把硅晶片放入一个封闭的金属室中。晶片放在一个旋转的托盘上, 氮气,氮气和水汽的混和气体被吹入封闭的室内,并吹入氟化氢气体,根据时间的长短控制刻蚀的深度。刻蚀机性能好坏的一个重要指标就是在晶片表面刻蚀的均匀度, 或一致性。均匀一致性越高,生产出来的芯片的质量就越好,良品率就越高。下面我们设计一组试验来验证一台新300mm硅晶片刻蚀机的均匀一致性水平,并找出最佳的工作区间。

现有研究表明,影响刻蚀机一致性有六个可能因素,分别为;

A:            托盘转速 (高 : +1,低:  -1)

B:            灼蚀前氮气和氮水混合气总气流量 (高 : +1,低:  -1)

C:            灼蚀前水气雾流量 (高 : +1,低:  -1)

D:            氮气和氮水混和气总气流量 (高 : +1,低:  -1)

E:            灼蚀气体流速 (高 : +1,低:  -1)

F:            氧化硅灼蚀厚度 (200 Angs.: +1, 50 Angs.: -1)

要得知被影响的一致性, 一般先要在圆晶表面选九个点,测量晶片每个点在刻蚀氧化层之前和之后高度的差。然后再用九个差的标准差除以其平均值,再取对数,就得到一致性。这个也就是统计学中经常提到的变异系数的对数。测量厚度要用极精密的仪器,因为氧化层一般只有几个纳米, 一毫米的百万分之一。

六个因素,因为每值只取高和低,全因子试验要做2^6=64个试验, 这是很多的试验,而且会浪费很多昂贵的硅晶片。但实际情况,不是所有因素都一定与一致性相关,所以 我们可以先用部分因子试验筛选出几个比较重要的,然后再集中研究这几个重要的因素。部分因子试验可以比全因子试验成倍地减少试验次数,这样我们既筛选了因素,又能优化过程,很经济划算。

现在我演示一下如何用R软件设计这个实验。R软件是免费开源的,可以在百度上搜并下载。R的软件包几乎可以设计和分析任何类型的试验, 所以推荐大家学习。

我们要先引入两个功能库,FrF2和daewr。后面分析还会用到另外 几个,具体请参考详细代码, 可以在片后网址下载。

我们需要设计一个解析度四级的试验,以保证精确度,2^(6-2)=16  个的部分因子设计就可以。主因子混淆关系用E=ABC and F=BCD,因为三个因子的交互基本可以忽略不计,所以用这种混淆可以保证E和F的可靠性,E和F是比较重要的因子。

现在看一下设计好的试验计划。这个计划可以存为EXCEL文件,研究人员可以拿去做试验并记录数据。看一下因素混淆结构,只有二次混淆,一级主因素都清楚的。再看一下一和二级的主因素相关分析图,一级之间都是白的,也就是0; 二级交互因素之间有部分混淆, 因为是部分因子设计。但如果是全因子设计,级交互因素也都是清晰的。

再在试验中心加上两个中心点,用来估测纯测量误差,最后一共18个试验点。

试验做好输入均匀一致性数据后,我们还用R来分析结果。拟合主因素加二级交互的模型,我们应注意到只有部分二级交互作用可以估测到, 其它的未估测到的,是和估测到的混淆在一起的。所以要搞清这些显著的二级交互作用到底是哪个, 按常规至少要再加做16 个试验,也就是翻倍。但我们注意到混淆的结构,其实再做8个,也是翻一半倍就够了。 只要把含有A, E, 和F的二级交互解开即可。圆晶很贵,时间也宝贵,所以再加八个当然比加16个好了。但如果不受财力限制,多做16个试验也可以。多做会提高一点精度。

用R软件再加八个试验,然后做试验,收集数据,把数据重新引入R,拟合模型,我们看到 原来混淆的二级交互估测值已经清楚了。显著相关的两个主因素是E:  灼蚀气体流速 ,和F: 氧化硅灼蚀厚度(含5  nano meter 和20 nano meter两个种类),交互作用包括,A:F,  B:C,  和稍微弱一点E:F。

这是在最佳取值位二维的试验结果和拟和线。纵轴是刻蚀一致性,数值越小一致性越好。横轴是因素位值从低到高。 这里我们看到, 在其它因素都取最佳值时,因素E,刻蚀气体流速与刻蚀的一致性成正比。所以刻蚀气体流速越高,刻蚀的一致性就越好。因素F取低值-1,也就是刻蚀5纳米厚的氧化层时,刻蚀的一致性要好于刻蚀高值位, +1,也就是20纳米厚时。

在交互作用方面,在试验取值范围内,因素A: 托盘转速 和F: 氧化硅刻蚀厚度有交互影响。具体就是,对于刻蚀厚度在5纳米厚度时,托盘转速越高一致性越好。 但当刻蚀厚度在20纳米厚度时,托盘转速越低一致性越好。同样,因素B: 刻蚀前氮气和氮水混合气总气流量,和因素C:刻蚀前水气雾流量 也有交互作用。也就是,当刻蚀前水气雾流量高的时候,刻蚀前混合气总气流量越高,反应一致性越好。相反,当刻蚀前水气雾流量低的时候,刻蚀前混合气总气流量越低,反应一致性越好。 同样,我们也会看到因素E和F也存在这种相对微弱一点的交叉关系, 即虽然刻蚀气体流速越高,一致性越好,但在刻蚀层薄的5纳米刻蚀改进程度要好于厚层的20纳米,也就是刻蚀气体对薄层刻蚀的影响率大于对厚层刻蚀的影响率。

综合各种因素,根据前后共24个试验拟合好的统计模型,我们知道了在什么情况下,刻蚀的一致性达到总体最好,也就是本机器各操作相关系数最佳的取值点。这是实际生产过程中重要的一步, 对提高半导体集成电路芯片的质量至关重要。

通过演示这个实例,我向大家介绍了如何使用部分因子试验做因素筛选,并按需要扩展试验点的方法。我们还一同了解了如何用开源的R软件设计和分析试验,搞清了几个机器设置参数与刻蚀一致性的关系。

欢迎大家观看根据本文制作的视频。点击以下链接,下载本文用到的R相关代码。

Click link below to download a text file containing the R codes used in the article. 

SeMa Technology Series (1)

Statistical methods reinforcing semiconductor manufacturing – Review and discussion of U.S. Semiconductor Industry Qualification Plan

Outline: A quick summary of the Qualification Plan, how statistical methods fit in each of the three stages of the Qualification Plan, with actual case reference, and quick insight/discussion on the contribution of statistical methods. Focusing on the substantiated contribution (vs. unverified, theoretical suppositions) of each of the statistical methods.

Relevance of Statistical Methods in Manufacturing: Even in today’s high-tech manufacturing environment with very precise measurements and powerful processing capabilities arising from the advanced technologies, the demand for stricter equipment baseline settings, the discovery of new processing techniques to solve emerging problems, a thorough understanding of the process and equipment capacities, as well control of the high-tech manufacturing process is still relevant. For the majority of industries and do not employ high precision equipment, traditional statistical methods should live strong and well for a long time.

Three areas that we focus on to achieve immediate impacts for tech businesses are:

  1. Gauge study. High-precision equipment can achieve even better goals
  2. Minimizing experiment runs for expensive experiments. Design experiments to suit specific production environments. Optimization of a process. Discover the cause of failures or defects.
  3. Measure and control process and equipment capacity

We will discuss the ways to statistical methods that would improve each of the three areas with actual case examples. In the case example, we will emphasize how the statistical methods accelerate the efforts, make impossibles possible, saved expenses and deliver better products. Below is a diagram of an ideal manufacturing qualification plan should look like, each of the three stages involves many of the statistical techniques we will discuss in this sequence of articles.

Data Analytics Skills that Accelerate Scientific Discovery (1)

The following main skills are essential for researchers and technology innovators:

  • Data summarizing knowledge
  • Uncertainty and quantification of uncertainty
  • Predictive models
  • Design and analysis of experimental data 

None of these are either trivial or easy. We will discuss in separate posts the above topics for practical application that will provide immediate benefits. Further study is always welcome such as through university courses or reading advanced texts. In each of the posts, we will first summarize the basic knowledge, then illustrate how this knowledge may be applied in the real world setting using one or multiple scientific and technological application examples.

1. Data Summarization Basics

Data Summarizing Knowledge is the basic skill for all data analysis methods. A good understanding of the data provides a foundation for locating the best method to tackle scientific and technological problems. To understand data, the first step would be to check on

  1. Types of the data (numerical, categorical, or  a mix of all)
  2. Structure of the data (a series, multiple series such as in a table, unstructured such as texts or images)

For numerical data, to summarize the data we need to focus on

  1. The center of the data (mean, median, mode, quantile)
  2. The variation of the data (variance, max, min, range)
  3. The distribution pattern (symmetric vs. tailed, the direction of skewness)

For categorical data, to summarize we need to check

  1. The frequencies or relative frequencies of each category

If the data contains multiple series such as those usually appear in a table, in addition to the above actions on each of the individual series we need to check the statistical relationships between the series (columns or variables in a table) as well. The most common statistical relationship is the linear correlation. A linear correlation exists between numerical series, between numerical and categorical series, between categorical and categorical series. More about that will be described later. A complete correlation matrix helps us understand which two series are closely related. Note this is just to gain very basic knowledge, there are many relationships that are hidden quite deep, we will need more advanced methods to discover, which we will introduce later. Linear correlation paints a direct picture of the association between the series. Often it tells us how these series are related.

通过维护电力变压器学习预防性维护方法(之一)

预防性维护是现代工业技术中一种高效的维护方法。借助历史数据和统计模型,可以快速辨别即将损坏的设备,可以大幅降低运营成本。借助开源R软件包,上手简单,方法易学,本文教你分快速入门。

关键词

统计模型,预防性维护方法,相关性距阵图,直方图,电力变压器,设备爆炸的预防,输电线网,供电线路稳定,现代工业加速器,故障概率,统计分析R软件。

一.

普普通通的电力变压器在输电线网中,将高压电降为低压电后传送到普通用户。但是如果不及时维修,它就会爆炸。这是为什么哪?在变压器内,里面装满了散热油。如果没有油,降压产生的巨大热量会让变压器立刻烧毁。但是在高压电环境下,油料会发生化学反应,生成甲烷,乙烷,乙烯,乙炔,氢气,一氧化碳等气体。当这些气体囤积到一定程度时就会引发爆炸。为了保证供电线路稳定,电力公司要在事故未发生时,及时地对变压器检修。 但是,要在成千上万的变压器中找到需要检修的并不容易,不是所有年龄到了的变压器就需要检修。现在我就给大家介绍一种现代工业维护加速器,预防性维护方法。

要研究就一定要有数据。 我们拿到了美国某大电力公司31,031台变压器的检修记录。这些数据记录了变压器的使用时间,是否发生过故障,故障的种类,以及变压器缸中气体的含量。现代仪器可以只提取一点改变压器内部的气体,快速分析出其中的各种气体含量。我们通过分析,要找出哪种气体,或者哪几种气体和变压器故障高度相关。我们还要估测故障概率是如何随时间,随每种气体的变化,而变化的。这可以帮助我们有选择地维修变压器, 而不是只按年龄维修。因为许多变压器即使年龄很高,但只要内部气体还没有达到一定的量,也没有损坏的风险的。

用开源统计分析R软件的“corrplot”包,我们可以很轻松的画一个直观的二位相关系数距阵图。具体的指令可见在结尾下载的R文件。

在这张相关性距阵图上,深蓝色表明正相关,深红色表明负相关。相关的一对变量分别标在对应的行和列上。我们首相应该注意的是与第二行“变压器是否损坏”相关比较高的变量。这几个分别是甲烷,氢气,乙烷和全部气体,也就是说,甲烷,氢气,乙烷和全部气体与变压器损毁正相关性较强。反之,乙烯,乙炔,一氧和二氧化碳含量与变压器是否损毁没有相关性。另外,在各种气体之间,我们也注意到比较高的正相关性。这个土可以很直观地揭示潜在的导致变压器损毁的气体

#################### Readin Rds data
Transformer <- readRDS("data/Transformer.RDS")
my_data <- Transformer[, c(6, 12:19)]

#################### Calculate and display the correlation in correlogram
par(mfrow=c(1,1))
res <- cor(my_data, use = "complete.obs")
corrplot(res, type = "upper", order = "hclust", tl.col = "black", tl.srt = 45)

下面我们再用直方图分析各种气体含量的分布。这里,我们比较一下各种气体含量在损坏变压器和完好变压器中分布的差异。如果哪种气体差异大,那么就说明这种气体可以帮助找到要出故障的变压器。这里红色的是出了故障的变压器,蓝色的是完好的变压器。我们另外画了拟合的密度线来帮助辨识。

#################### histograms of gas levles of transformers (Hydrogen only)
failure <- unlist(my_data %>% filter(Eventual_Failure == 1) %>% select(Hydrogen))
operational <- unlist(my_data %>% filter(Eventual_Failure == 0) %>% select(Hydrogen))

log_failure <- log(failure+2)
log_operational <- log(operational+2)

hist(log_operational, freq=FALSE, col='skyblue', border=F, xlim=c(0, 15), ylim=c(0, 0.4),
     ylab="密度", breaks=seq(0, 15, length.out=16),
     main = "", xlab="log(氢气)")
hist(log_failure, freq=FALSE, add=T, col=scales::alpha('red', 0.25), border=F, 
     breaks=seq(0, 15, length.out=16))
y1 <- density(log_operational, bw=0.7)
y2 <- density(log_failure, bw=0.7)
lines(y1, col = "blue", lty=2, lwd=2)
lines(y2, col = "red", lty=2, lwd=2)
title(main="氢气 (Hydrogen)")

浏览一下我们会发现,有几种气体差异还是比较大的。比如甲烷,发生故障的变压器甲烷含量多介于7-9之间,而完好的多介于0-5之间;又比如乙烷,损坏的变压器乙烷含量多介于5-9之间,而完好的基本小于5。氢气,乙炔和总气体也略微可以分出区别。而一氧化碳,二氧化碳,乙烯,乙炔好像区别不大。这样电力公司只要测量一下甲烷,乙烷,氢气的含量,就可以大概知道变压器是否需要维修了。比如甲烷,如果含量在7-9之间,就应该维修。如果是乙烷,在5-7之间就应该检修了。

总结

但是这样做比较笼统,不够精确。比如,有的变压器即使甲烷含量比较高但依然可以正常工作,乙烷大于5也没有损坏。相反,不少变压器还没有达到某气体的危险程度就已经坏了。有一个重要因素我们还没有考虑进去,这就是变压器本身的使用年龄。在接下来的视频中,我们将介绍如何通过一个统计模型,同时使用年龄和各种气体含量,来更准确地估测设备的故障概率。