Featured

SeMa Technology Series (1)

Statistical methods reinforcing semiconductor manufacturing – review and discussion of U.S. Semiconductor Industry Qualification Plan

Outline: A quick summary of the Qualification Plan, how statistical methods fit in each of the three stages of the Qualification Plan, with actual case reference, and quick insight/discussion on the contribution of statistical methods. Focusing on the substantiated contribution (vs. unverified, theoretical suppositions) of each of the statistical methods.

Relevance of Statistical Methods in Manufacturing: Even in today’s high-tech manufacturing environment with very precise measurements and powerful processing capabilities arising from the advanced technologies, the demand for stricter equipment baseline settings, the discovery of new processing techniques to solve emerging problems, a thorough understanding of the process and equipment capacities, as well control of the high-tech manufacturing process is still relevant. For the majority of industries and do not employ high precision equipment, traditional statistical methods should live strong and well for a long time.

Three areas that we focus on to achieve immediate impacts for tech businesses are:

  1. Gauge study. High-precision equipment can achieve even better goals
  2. Minimizing experiment runs for expensive experiments. Design experiments to suit specific production environments. Optimization of a process. Discover the cause of failures or defects.
  3. Measure and control process and equipment capacity

We will discuss the ways to statistical methods that would improve each of the three areas with actual case examples. In the case example, we will emphasize how the statistical methods accelerate the efforts, make impossibles possible, saved expenses and deliver better products. Below is a diagram of an ideal manufacturing qualification plan should look like, each of the three stages involves many of the statistical techniques we will discuss in this sequence of articles.

Featured

Data Analytics Skills that Accelerate Scientific Discovery (1)

The following main skills are essential for researchers and technology innovators:

  • Data summarizing knowledge
  • Uncertainty and quantification of uncertainty
  • Predictive models
  • Design and analysis of experimental data 

None of these are either trivial or easy. We will discuss in separate posts the above topics for practical application that will provide immediate benefits. Further study is always welcome such as through university courses or reading advanced texts. In each of the posts, we will first summarize the basic knowledge, then illustrate how this knowledge may be applied in the real world setting using one or multiple scientific and technological application examples.

1. Data Summarization Basics

Data Summarizing Knowledge is the basic skill for all data analysis methods. A good understanding of the data provides a foundation for locating the best method to tackle scientific and technological problems. To understand data, the first step would be to check on

  1. Types of the data (numerical, categorical, or  a mix of all)
  2. Structure of the data (a series, multiple series such as in a table, unstructured such as texts or images)

For numerical data, to summarize the data we need to focus on

  1. The center of the data (mean, median, mode, quantile)
  2. The variation of the data (variance, max, min, range)
  3. The distribution pattern (symmetric vs. tailed, the direction of skewness)

For categorical data, to summarize we need to check

  1. The frequencies or relative frequencies of each category

If the data contains multiple series such as those usually appear in a table, in addition to the above actions on each of the individual series we need to check the statistical relationships between the series (columns or variables in a table) as well. The most common statistical relationship is the linear correlation. A linear correlation exists between numerical series, between numerical and categorical series, between categorical and categorical series. More about that will be described later. A complete correlation matrix helps us understand which two series are closely related. Note this is just to gain very basic knowledge, there are many relationships that are hidden quite deep, we will need more advanced methods to discover, which we will introduce later. Linear correlation paints a direct picture of the association between the series. Often it tells us how these series are related.

Featured

Design of Experiment (DOE) Response Surface Methods (RSM) to Optimize Wafer MOSFET Polysilicon Gate Etching Production with R in 10 Minutes

In integrated circuit (IC) manufacturing, engineers need to ensure the polycrystalline lines on the wafer are perfectly straight up. There are millions and millions of these tiny lines with a square millimeter area, and these billion lines are created together in a plasma chamber. Today we will introduce an experiment method to find the best equipment settings, the method of Response Surface.

Reactive-ion etching (RIE) is a microchip silicon wafer etching technology in chip fabrication. It uses chemically reactive plasma to remove patterned silicon dioxide “film” deposited on wafers. The plasma is generated under a low-pressure vacuum by Radio Frequency electromagnetic field, with chemical gas vapor injected in. The right combination of Radio Frequency (RF) electric field power, the pressure of the vacuum, and hydrogen bromide (HBr) gas injected into the etch chamber are the key factors lead to the quality silicon wafer. Engineers will need to ensure the profile of the polycrystalline silicon gates isotopic, that is, the walls of the etch lines should be vertically perpendicular to the substrate in all directions.

In this study, the engineers would like to find the right processing settings for this etching equipment. As this is a million-dollar business, we are going to help them, using design of experiment methods.

Data and sample R commends (user needs to load data to R)

View the video

Current Trends Point to a China-U.S. GDP Match in 2041 (2022 data)

As of 2022, China’s GDP per capita is $12,814 vs. the US $76,348.49, or only about 1/6 of the US value. China’s GDP per capita in 2022 is about US’ level in 1981, or 41 years behind. Based on the growth trends during the past 18 years, it will take China until 2078 to reach the US level, or about 55 years from now. See the growth forecast in the Chart below

China’s total GDP in 2022 is $18,100 bil., vs. US’ $25,460 bil., or about the US level in 2015. China is 7 years behind the US. Based on the current GDP growth of both countries since 2005, China will catch the US in about 2041, or 19 years from 2022. All dollar figures are based on current value. See the forecast growth trends in the chart below.

Of course, the forecasts assume the future world economic outlook, trade, and the two countries’ social conditions for the years to come to stay relatively comparable in the years between 2005-2022, and between 1980-2022 for the per-cap GDP forecast. Disruptive geo-political events are likely to invalidate the forecasts in either direction in short term, as many developed countries worked hard to stop the frightful world power shift. Nevertheless, the general demand for better living standards from the vast number of developing countries will ultimately drive world growth in the long run. China as one of the poor developing countries equipped with outstanding learning skills will enjoy abundant catch-up work, by gradually improving their production means. The per-capita economic gap China posts with the US may not mend soon, and it is exactly what will drive the race between China and US for hundreds of years to come.

(Data are compiled by Researchnology Economic Research©. Researchnology Co. will update these forecasts annually)

美国农业信息监测预警体系调研与启示 (转)

http://www.moa.gov.cn/gk/jcyj/201701/t20170122_5461605.htm

日期: 2017-01-22 09:29,作者: 赵卓, 来源:农业部市场与经济信息司

前言:2015年9月13-26日,农业部赴美农业信息监测、预警及展望交流团,在时任农业部市场与经济信息司张合成司长带领下,对美国农业信息采集、分析、发布和服务体系进行了全面调研,期间走访了美国农业部及其下属机构、有关行业协会、大学、期货交易所、咨询公司、农场等,系统了解了美国农业信息监测预警体系的管理制度、组织结构、运作机制等。形成了1篇总调研报告,7篇专题调研报告。从调研情况看,美国农业部通过“一场会(闭门会议)、一张表(农产品供需平衡表)、一个声音(统一的信息发布制度)”,成功构建了引导国内农业生产和国际农产品市场运行的战略武器。

  2016年7月11日,中国农产品供需形势分析报告正式对外发布,标志着我国我国农业信息监测预警工作向前迈出了一大步。值此在中国农产品供需形势报告发布之际,本网将独家逐步发布8篇调研报告,供读者交流学习。

  一、调研考察总体情况

  (一)调研目的。这次赴美团组主要目的是考察美国农业信息监测预警体系。美国农业信息监测预警工作具有很强的国际影响力,每月发布的《世界农产品供需评估报告》(World Agricultural Supply and Demand Estimates,简称WASDE)和每年发布的未来十年国内外农业展望报告,已经成为国际农产品市场的风向标,奠定了美国对外农产品贸易主导权、国内供需调控主动权、全球市场话语权,有效维护了美国农业特别是农场主利益。近年来我部逐步建立了粮棉油糖等重要农产品市场监测预警和农业展望制度,正在推动建立全球农业数据调查系统,迫切需要通过加强与美方交流,进一步借鉴学习美国农业信息采集、分析、发布和服务制度,在消化吸收的基础上,结合我国国情农情,加快完善我国农业信息监测预警的体制机制。

  (二)调研对象。围绕调研主题,这次调研组主要走访了美国农业部下属的国家农业统计局(NASS)、世界农业展望局(WAOB)、海外农业局(FAS)、经济研究局(ERS)、农场服务局(FSA)、营销服务局(AMS)等机构,美国谷物协会、苹果协会、华盛顿州果树协会等非政府组织,芝加哥商品交易所、4家农业信息咨询服务公司等市场机构以及伊利诺伊州立大学。这些机构在美国农业信息监测预警体系中承担不同的角色,发挥不同的作用,形成了分工协作的运作机制。同时,调研组还走访了位于马里兰州的Councell农场和位于伊利诺伊州的Gould农场,从农场主的视角看美国农业信息采集、服务机制及其影响。

  (三)调研方式。调研主要以座谈、走访为主。在我部国合司和国际交流中心的协调安排下,美方对这次出访高度重视,接待我们的都是受访机构的负责人或专家,并且提前做了充分的准备,让调研组通过座谈交流能够获得第一手的信息和观点。在调研过程中,我方也向美方介绍了我国农业信息监测预警进展情况,探讨了促进农业信息共享合作的建议,形成了一些初步合作意向。除了座谈、走访外,调研组还做了大量基础功课,搜集了美国农业部及下属机构网站上的有关信息和研究报告,学习了以前访美团组的相关考察报告,多方面多渠道了解美国农业信息监测预警制度。

  (四)主要成果。这次调研全面了解了美国农业信息监测预警体系的管理制度、组织结构、运作机制等,正在整理形成了关于美国农业信息统计、海外信息采集、预警分析、预测模型、信息发布和信息服务等方面的专题报告。各报告既梳理大量第一手材料,又总结提出强化我国农业信息监测预警体系建设的经验启示。调研组成员回国后陆续在各单位进行了交流分享,有的已经在实际工作中得以应用,将有利于提升我部农业信息监测预警工作水平。

  二、美国农业信息监测预警体系的主要特征

  (一)完善的农业统计调查制度。美国的农业统计体制是典型的分散型,几乎所有联邦机构都有统计工作,农业统计更是联邦政府重要统计内容之一。依据美国联邦的有关法律,美国农业部是农业统计工作的权威部门,负责农业信息收集、汇总、统计和发布工作。1862 年美国农业部成立,并于1863 年7 月开展了第一次作物调查。时至今日,美国已经建立了较为完善的国家农业统计体系,形成了以美国农业部所属的国家农业统计局、农业市场服务局、海外农业服务局等为主体的数据收集系统。国家农业统计局(NASS)是最重要的数据来源部门,具体承担日常的农业统计工作,负责收集、总结、分析和发布农产品生产、库存的基础数据。据该局国际项目处处长米勒先生介绍,农业统计局每年要发布超过400份报告,内容涉及120种农作物和45个畜禽产品。除联邦统计局总部,下设12个区域农业统计办公室,负责全美50个州的统计工作。NASS 调查的数据类型分为农业普查数据和经常性调查数据两大类。

  ——农业普查。NASS 每5 年要进行一次农业普查,普查范围涵盖了全美52个州或地区的所有农场,2007年农业普查覆盖了全美220多万个农场。农业普查数据库包括全国和52个州或联邦(区)的人口、农业与农村经济、农场数量、资源与环境、农产品生产与实践等5个方面的数据(1840—2012年)。从指标内容来看,包括全美和52个州或地区的农场生产要素情况、农业活动、农作物基本情况、牲畜基本情况、水产基本情况、农场收入状况、支出情况、农场和农场主基本特征等方面的数据,共计8000 多万条(1840—2007 年)。

  ——经常性调查。NASS 每年要承担上百项调查项目,统计数据涵盖的范围比较宽广,包括农场个数、各种作物的面积、产量、谷物库存量以及众多的其他商品。如开展种植意向调查、作物生长情况评估、生产和库存估计、季节平均价格分析、库存数量、市场营销和屠宰数据等。特别是农业库存调查是决定美国农业供需平衡表质量的重要数据来源。作为一项季度调查制度,农业库存调查通常在季末的最后一个月的头两周进行,根据所有者归属的经济行业类型不同,按存放地点分别在农场内与农场外进行。农场内库存调查是指所有在农场的粮食和油料,不分所有权和使用意图,包括粮食和油料的长期或临时库存,及按市场年度的第一季度还没有收获的农作物。每年最大的单项调查是在六月,由约2400名调查员用电话或上门访问的形式向12.5万个农场主调查,取得粮食库存以及农业统计所需的有关作物面积和牲畜存栏等信息,以推算涵盖200多万个农场的总体信息。农场外的库存调查是指对流通环节或加工环节的存量进行的调查,包括所有在农场以外的商业设施(粮仓、仓库、终端设施、商业加工厂、油料压榨场所)中储存的粮食或油料。

  美国发达的非政府组织(主要是协会)也在农业数据采集方面也发挥着重要作用。从这次走访的美国谷物协会、美国苹果协会、华盛顿州果树协会和华盛顿州小麦协会来看,这些协会不仅为会员提供高质量的产前产中产后服务,而且配合美国农业部做了大量的统计调查工作。如美国谷物协会总预算的一半来自于美国农业部海外农业局的贸易促进计划资金,其遍布美洲、欧洲、亚洲和非洲的分支机构,配合美国农业部进行包括我国在内的粮食主产国谷物生产和购销信息收集。华盛顿州果树协会按州农业部规定标准收集水果运输量、库存量等数据,不仅包括苹果的品种、质量等级、尺寸,还包括运输的包装类型、数量等信息。

  (二)专业的农业信息分析制度。美国农业信息分析制度的主要内容可概括为专业的机构和团队、科学的模型和方法、协调的运行机制三部分。

  ——机构和团队。美国农业信息分析预警机构大体可分为三类:第一类是美国农业部及所属研究机构,包括世界农业展望局、海外农业服务局、营销服务局、农场服务局、经济研究局等,其中美国农业部下属的经济研究局(ERS)是农业信息分析预警的专家智囊团。第二类是大学和研究机构,包括伊利诺伊大学、美国食物政策研究所、康奈尔大学等。调研组此次拜访的伊利诺伊大学农业经济学院,则针对该州的主要农作物玉米、大豆等,聚焦于农场主的营销需求,由15名教授组成研究队伍,以每天一篇分析文章的速度在网站上发布研究分析报告。第三类是以提供研究资讯和报告为业务的公司,如位于芝加哥的Agsource公司聚焦于为农场主、食品加工厂、对冲基金等提供市场价格服务,欧睿公司Euromonitor 公司主要为政府和企业拓展海外市场提供研究咨询服务。

  ——模型和方法。美国农业部分析专家在农产品供需评估过程中,采用了大量的综合贸易分析模型和数据量化工具,如SWOPSIM模型(Static World Policy Simulation Model),涉及22种农产品并将全球划分为36个国家和地区,由于该模型具有结构简单、可动态化扩展及可简易表达等多方面的优点,已被各国学者广泛利用;CPPA模型主要用来对主要农产品的供给、需求和贸易状况进行动态的、理论上前后一致的按年度进行的长期预测;ERS还使用BASELINE进行分析预测,主要通过世界价格、宏观经济发展趋势、国内相关经济和贸易政策等变量变化分析预测粮食与主要农产品生产、消费、进出口的变化,其中中国模型共覆盖14种种植产品,7种畜禽产品。在美国农业部的信息分析预警方法中,除了计量模型分析,还有基于专家观点的分析,实现了定量分析和定性分析的有机结合。

  ——运行机制。从数据到报告,美国农业部有一套严密的工作机制,确保农业信息分析预警体系的有效运行。美国农业部发布的官方报告,都要在世界农业展望局(WAOB)组织下,由专门的委员会进行审核发布,委员会对报告质量负责。如月度WASDE报告由WAOB主持下的多个跨部门商品预测委员会(ICEC)召开闭门会议后发布,中长期展望报告虽然由ERS为主导进行研究,但最终报告审核发布由WAOB主持下的国际农业预测委员会(IAPC)负责,成员来自WAOB、ERS、FSA等11个部门。报告的发布有明确的先后顺序。每月的WASDE报告是后续其他报告的起点,月报发布后,ERS及其他部属单位才会陆续发布更详细的解读报告以及农场收入、食物价格预测、政策建议等报告。未来十年的展望报告用上年11月的月度供需报告作为开始点,确保了短期报告和长期报告的内在一致性。

  (三)统一的农业信息发布制度。美国农业信息监测预警体系对全球农产品市场影响最大的产品是每月月初发布的WASDE报告,该报告可以说是美国农业信息监测预警“皇冠上的明珠”。WASDE报告的权威性和统一性是美国农业信息展望发布制度决定的,报告的核心内容及出炉过程是决定报告是这次考察的重点任务之一。

  ——WASDE报告的主要内容。让世界农产品市场瞩目的WASDE报告表面上看起来很简单,只有区区30多页,主要由各个品种的供需平衡平衡表组成,包括美国和世界主要谷物、大豆及其制品、棉花以及美国糖料和畜产品的供需平衡情况及价格预测。影响世界农产品运行的就是这一张张每月动态更新的农产品供需平衡表。每个品种的平衡表可以从三个维度去解构:第一个维度是时间,包括上一年度的实际值,当前年度的估计值,下一年度的预测值;第二个维度是内容,期初库存+产量+进口量=国内消费量+出口量+期末库存,一个等式、六项内容(谷物品种增加“饲料消费”一栏、棉花增加“损耗”一栏)构成了供需平衡表核心内容;第三个维度是区域,包括世界的、美国的、主要进口国和出口国,以及其他重要国家。美国的平衡表单独呈现,内容更加丰富,生产信息增加了播种面积、收获面积、平均单产,消费信息增加了食物、种植、饲料细化内容,平衡表的最后一列增加了平均价格(农场主销售价)。畜产品的平衡表只有美国的,并且按季度发布,相对简单一些。

  ——WASDE报告的主要参与者。提供信息并参与WASDE报告研究相关农业部下属单位有十多个,汇集各部门信息并组织讨论、准备报告的是各个品种的跨部门商品预测委员会(ICEC),每个ICEC的主席都是来自WAOB的经济学家,这样的组织安排确保月报内容的权威性和协调性。其中,小麦、稻米、饲料粮、油料、食糖的成员均来自于ERS、FAS、FSA,棉花、畜肉、禽肉、乳制品的成员均来自于AMS、ERS、FAS、FSA。NASS也参加ICEC的会议,但只是作为观察员并提供信息,不直接参与供需预测。从信息源看,美国平衡表中的生产和库存信息主要来自NASS,全球平衡表中的生产和贸易信息主要来自FAS,而ERS承担全面的经济分析,FSA提供农场政策分析和农业项目执行中产生的信息,AMS提供国内价格和生产者营销安排等信息,农业联合气象办公室则提供天气相关信息。

  ——WASDE报告的产生过程。WASDE报告需要搜集、梳理并整合来自多个部门的大量信息,最终形成一张张清晰的供需平衡表。报告的产生主要可分为两个环节:一是前期准备。每月WASDE报告发布之前,会按照计划进行一周的跨部门会议。ICEC根据最新政策的变换调整经济预测模型的参数并做出定量预测,委员会的专家召开预备会议对模型预测结果进行讨论并形成初步共识。二是闭门会议(lock-up)。由于高度的市场敏感性,WASDE报告的主要内容要在一个与外界隔绝联系的全封闭的会议室里(即安全防卫区内)进行充分讨论并形成共识后对外统一发布。据NASS官员介绍,闭门会议从报告发布前一天的中午12点开始,有关人员进入安全防卫区内开始工作,先将国内各州送来的生产调查资料开封,再配合全球市场调查信息,形成美国及全球农产品供需平衡表。早晨6点45分,记者被允许进入安全防卫区内的新闻发布室等候。8点钟,部长进入会议室,在WASDE报告上签字,然后由首席经济学家向其介绍报告的基本情况。8点30分,报告正式对外发布。WASDE报告一旦公开,所有人都可以同时浏览下载和免费订阅;FAS的PSD数据库可以方便查询190个国家和地区的生产、供给和消费数据;ERS专门有信息发布部门将专家报告编辑后以可视化形式方便用户浏览。严格的报告产生过程,让外界可以质疑WASDE报告的结论,但难以质疑其程序的严谨性,确保了报告的权威性和影响力。

  (四)社会化的农业信息服务制度。在美国这样一个高度市场化的经济体中,农户(即220万的农场主)作为农业经济领域的生产主体,市场信息是其科学经营决策、应对市场竞争的基础。围绕农户需求,美国已经形成了政府、非政府组织(协会、大学)、公司分工协作的社会化市场化信息服务体系。美国农业部公开透明的农业信息发布制度可以让农户第一时间获得生产、库存、消费、进出口、价格等市场信息。但美国农业部发布的数据和报告,更多还是基础性的,不是专门为哪个主体服务,而是为增强整个市场的透明度、提高市场运行效率服务。ERS专家告诉我们,ERS每年发布的上百份报告,农场主看的很少,主要还是供从事相关研究的专家、协会和公司查阅。而基于农业部发布数据进行二次开发、直接服务农场主和贸易商的,主要是协会、大学等非政府组织和大量的研究咨询类公司。协会主要靠会费生存,本身就代表农场主的利益,根据农户的需要提供信息、营销、质量提升、品种推广等服务。如美国苹果协会主要基于美国农业部发布的数据,每月针对会员提供详细的苹果生产、库存、进出口信息和分析预测服务。伊利诺伊大学农业经济学院的一项重要使命就是为当地农户提供市场信息服务,学院利用互联网技术,开发出基于网络的服务品牌farmdoc,农户方便查阅农产品市场形势研究报告。位于伊利诺伊州的Gould农场,每年大概花600美元每月订阅芝加哥某公司的市场价格信息服务。

  除了农业信息服务,美国农业部及市场化主体还为农户提供全面的农产品营销和生产性服务。农业部下属的营销服务局(Agricultural Marketing Service)有4000名员工,7个部门,主要负责乳制品、蔬菜水果、棉花烟草、有机食品、畜产品等品种的营销服务,其使命是“为高效的有竞争力的农产品营销提供便利”,愿景是“构建能够快速高效地将农产品从农场送达消费者的营销体系”,主要服务包括标准化、分等分级、质量认证、市场新闻、商品采购、营销订单与合同、运输服务、批发与农户市场等。孟山都等农资公司根据农业大数据分析在产前为农场提供针对性的农资供应服务,农机公司在收获时提供GPS导航和无人驾驶服务,大量的市场机构在产后提供储存、运输、销售等一系列服务。

  三、有关经验启示

  我国国情农情虽然与美国存在较大差异,但通过强化农业信息监测预警体系建设来服务农业生产、提升农业市场化水平却具有普遍性,是发达经济体通行做法。信息是无形之手发挥决定性作用的基础,美国农业部通过“一场会(闭门会议)、一张表(农产品供需平衡表)、一个声音(统一的信息发布制度)”构建了引导国内外农产品市场运行的战略武器。目前,我国正在加快推进全球农业数据调查分析系统建设,完善农产品价格和市场调控机制,更好地发挥信息在引导国内外资源配置的重要作用,可以从多方面借鉴美国农业信息监测预警的经验做法。

  (一)可靠的数据来源是基础。NASS和FAS等机构全面详实的数据决定了美国供需平衡表和全球供需平衡表的权威性和影响力。美国法律明确国内农业统计工作由农业部负责,从上到下实行垂直管理,不仅避免了重复建设,而且有助于防止数出多门,根本保证了数据的高度统一。同时,信息采集有一套严格的程序,各项调查制度十分完备,如生产调查、库存调查、进出口调查、市场销售等调查经过多年运转,不断总结完善,形成一套成熟的制度,保证了数据的权威性和可靠性,在月度供需平衡分析中发挥重要作用。NASS数据质量的背后有更深刻的理念支撑。NASS海外项目办公室的负责人Mark Miller说,NASS的使命是提供及时、准确、客观的数据,不带政治偏见,不提供政策建议,只提供事实,让数据自己说话(Let the data speak for themselves)。

  美国海外农业信息采集则由FAS统一负责。FAS海外农业数据调查系统覆盖了全球200个国家的13大类、65细类农产品品种,直接派出美国籍员工的区域几乎覆盖了所有的农产品生产消费大国和进出口大国。FAS通过其全球信息网络、高素质的员工、现代信息技术,采集包括粮食生产和库存、各国补贴及贸易政策、自然灾害、气象信息等10类数据,分为4个系统:出口销售查询系统(ESR),全球农业信息网络系统(GAIN),全球农产品贸易系统(GETS),生产、供应和分销网络系统(PS&D)。在FAS会议室,其全球分析办公室负责人向我们介绍了如何利用气象卫星和遥感卫星图片分析欧洲小麦主产区的旱情及作物长势,再配合以地面人员实地调查,来准确估计和预测小麦产量,体现出让人叹为观止的专业水准。

  (二)科学的模型方法是关键。美国的农产品供需评估不是基于分散主体的随意估算,而是以专业的分析模型和专家会商集成的科学判断。每一次预测,定量的模型分析都是起点。从20 世纪70 年代开始,美国许多机构就开始将需求、供给和贸易作为一体进行分析,通过构建联立方程模型来对未来的世界食物形势进行预测。美国农业部非常重视研究模型建设,与大学开展合作,保证研究模型的独特性和先进性。尽管不同机构的综合分析模型在函数的形式和方程数目上存在一定的差别,但均综合分析了国家、地区之间经由贸易所产生的交互关系,具有内在协调性。在定量分析的基础上,来自各领域的专家结合自身研究专长,进行充分的会商讨论,确保了预测过程和最终结果的科学性。正如美国农业部发布的中长期预测报告前言中所说,预测分析反映的是“模型结果和判断分析的综合”(a composite of model results and judgement-based analyses),来自各个部门的专家不仅对预测模型的前提进行研讨修订,而且对模型的结果进行讨论形成共识。

  (三)稳定的专家队伍是核心。美国农业部的主要研究机构——ERS有超过300名员工,大部分都具有农业经济相关的博士学位,与市场分析最相关的是市场与贸易经济部,该部门不仅开展短期市场预测,是每月供需报告研究发布的重要参与力量,每个主要品种的预测委员会里都有来自ERS的专家;也开展长期市场展望,是每年研究发布美国农业展望报告(未来十年)的主导力量。参与研究的专家一般具有经济学、计量经济学和统计学理论功底,大部分人都拥有美国名牌大学博士学位,并且长期从事农业问题研究,堪称农业问题专家。ERS专家队伍的商品分析师贵专不贵多,平均每个品种1-2人,一般长期从事该品种的研究,如Hodan Farah Wells女士负责蔬菜、水果两个大类的分析,她现场给我们展示了自己撰写的研究报告,除了有蔬菜水果供需形势的总体分析,还有单个品种如胡萝卜的生产、消费、进出口专题分析,显示出对所研究领域的职业素养和执著精神。

  (四)严格的工作机制是保障。供需平衡表涉及到生产、消费、进出口、库存等各环节,将各环节的数据整合到一张表上难度不小,不同作物之间的替代、种植与养殖之间的联动、各国国内调控及贸易政策的变化也加大了平衡表调整的难度。要想形成权威的、市场认可度高的平衡表,相关各方充分会商的过程必不可少。这方面,美国农业部的世界农业展望局和闭门会议是关键所在。尽管参与农业信息分析和预测工作的都是美国农业部下属机构,但美国农业部专门成立了世界农业展望局来负责组织协调,并且由向农业部长负责的首席经济学家来领导,应该说,农业展望局是美国农业信息监测预警体系的枢纽,有效增强了分析预警工作组织协调的效果。而闭门会议这一极其严格的会议形式有效巩固了各部门协作会商的成果,打消了外界的疑虑,成为“一个声音说话”的标志。

美国政府农业统计-US Agricultural Statistics

美国联邦政府农业部下属的农业统计局(NASS),每年发布农业统计数据,以满足农户、企业和投资人对农业生产、供应、消费、设施、成本和回报的多样化的信息需求。农业统计的年度数据形式涵盖了广泛,信息处理手段丰富,发布及时,是农业生产决策者、投资届,农户们最可靠的参考书。因为包括大量详尽的预测数据,广大农户在选择种植和养殖的品种上得到了指导。统计调查工作最直接的影响是稳定了农户收入,降低了投资的风险。 美国农业部对农作物、牲畜和家禽的估测,提供及时的当前、各州和全国的总量和平均值。农业统计是基于对农民和与农民做生意的人的抽样调查获得的数据,调查数据每五年会通过农业普查信息得到补充。随着数据通过商业或政府来源,已出版的数据也可能会进行修订。除非另有说明,各种表格中关于面积、产量、数量、价格、价值、供应和处置的美国总数均基于农业部的官方估计。它们不包括没有编制官方估计的州。

农业统计局收集、汇总、分析和发布美国农牧业方面的数据。为了适应快速变化的农业,其采用最先进的计算机、遥感技术并结合新的统计方法,定期地为政府政策制定者、农户、与农业相关的企业和金融投资者提供广泛的统计数据。其主要的数据收集工作包括:

  • 每年进行400 多次每周、每月、每季度或每年的调查。
  • 每五年进行一次农业普查——美国农场和牧场的完整统计。
  • 对调查设计、抽样和其他前沿统计问题进行持续研究。

其数据和报告产品涵盖的范围广泛,主要领域包括但不限于:

  • 农作物生产规模和库存
  • 农场劳动力规模、劳动力工资、个人和家庭收入和财务状况
  • 农业生产中使用的化学品的种类和数量
  • 特定作物的长势、牲畜库存和未来走势,农村发展状况
  • 农业产业,如面粉加工、乙醇、棉花和油脂,的现状

(待续)

通用研发项目描述文档模板 – Sample Topical Outline for the Primary Project Documentation

研发项目总描述文档是研发过程中重要的一环。 不仅研发团队可以在开发过程中用它随时回顾进程,设计下一步走向,即使在项目结束后,接手团队仍然可以延续过程。项目描述文档可以让大的团队保持同步。特别是在开发复杂、大范围系统的项目中,作用至关重要,项目组织者必须搞好。下面我们提供一套根绝实际项目编写的通用项目文档模板。稍加修改,可适用于大部分技术项目。

研发项目描述文档章节模板

复杂技术开发项目流程样板 – A Sample Template for Project Task Tree

无论技术大小,开发的过程基本都是一样的。担当技术难度大、涉及的知识领域广、需要参与的团队大时,正确的项目设计、管理就尤为重要。科学的管理方法可以提高研发效率,减轻各部门的压力,处理意外情况。而贯穿于始终的就是“科学方法”,简论见本站另一则短文。这里我们提供一套项目流程样板供参考。这个样板是基于一个真实的目标识别项目修改后得到的。 

测量目标识别软件系统的效能项目任务图
测量目标识别软件系统的效能项目任务图

开发新技术应遵循的科学方法 – Scientific Method for Developing New Technologies

技术开发,只要遵循统一的项目管理路线,无论多么庞杂、庞大,即使需要很复杂的过程、有很大的团队参与,也可以轻松完成。重要的是要在研发管理各个环节使用“科学方法”。 科学方法的简要框架可以概括为:

Scientific Method
Scientific Method

研发人员工作提示集 – Tips for Research Scientists and Engineers

以下为一组贴心小提示, 帮助研发人员、工程师、项目管理人员和管理层更高效地完成研发任务。

提示

  1. 管理层要为每一位研究和管理人员提供一套完备的用于规划、设计和实施研究项目的软件工具。提供使用和维护这些工具的时间和资源。
  2. 在整个项目各节点使用先期验证项目来发现可能的、意料之外结果,防止故障,避免采纳脆弱的步骤,确定操作范围并估计所提出方案的可行性
  3. 使用任务树结构图来规划自上而下的项目。随着这些项目的进展,使用里程碑结构图来规划项目的物流、时间表和成本核算。
  4. 在执行任务之前和执行过程中,盘点外部和内部对试验单元进行的修改,仔细确定每个修改是必需的、不需要的还是不相关的。
  5. 谨慎设计有人或动物参与的任务,因为管理和控制人或动物会比较困难且成本高昂,同时会牵扯复杂的道德和法律问题。
  6. 对于给定的任务,仔细地定义系统、环境和实验室,然后彻底、系统地检查它们,以确定:
    • 任务资源可能产生的不良影响,以及外部对于任务资源产生的不良影响;
    • 确定系统边界可能被破坏的方式;
    • 系统内影响任务单元的外来元素
  7. 将众多单个收益指标汇总成一个总结矩阵,或将众多收益指标和成本组合成一个总结矩阵总是可能的,但这种简单的形式有可能掩盖更有意义的信息。
  8. 计划好每一个任务后,在研究报告中随时记录下你发现的每一个小规律。定期将笔记收集到一个主列表中,按类别、类型和角色分组,将它们整理成系统的规律组,并确保规律之间没有冲突。
  9. 为了最大限度地降低测量结果的净不确定性,我们应该:(1)尽可能直接测量,(2)尽量减少中间结果的算术合并次数;(3)确保测量样本尽可能独立和随机
  10. 对于每个包含数字的知识命题,尽可能直接在命题本身或在伴随的命题中陈述数字的精度,或估计精度。例如:- 摄像机支持 256 级灰度; – 在0 到 120 mph 速度范围内,速度测量的误差在5 mph范围之内。
  11. 可行性试点对于探讨各组成任务的可行性很有用。每个试点计划可以相对简单,也可以不记录在最终的项目报告中,但研究团队必须在研究笔记中完整记录结果。一旦试点产生了可能有用的结果,也一定要进行确认和验证工作来。
  12. 一般来说,用于计划时间过少比过多会导致更大的整体上的时间损失
  13. 由于项目任务树模式图和里程碑模式图清楚地呈现了项目每个阶段、每个步骤的关系,作为主要规划文件,其非常重要,所以团队每一位成员都要有任务图的最新副本。
  14. 对于研发科学家和工程师:要抵制“随手编造”的冲动。提前仔细地计划好项目,同时随着经验的积累和试点的结果调整计划,发现计划的缺陷和潜在的可以改进的地方。准备好向管理层提供可靠的时间和成本估算。如果发现无法在最后期限前完成任务,就要马上让经理知道,不要等到最后一刻。请理解经理们需要照顾更广泛领域内各方的关切。在工作场所是不能实施民主制度的。
  15. 研发经理:请为您的研究人员和工程师提供必要的时间和资源,用于完善项目的规划和设计。将人员安排在一个或两个同时进行的项目上。不要进行无必要的操练式的工作,浪费研究人员和工程师的时间;不要微观管理,不要在小问题上斤斤计较。尽量不要让你的科学家和工程师承担行政任务,那是你的工作。如果你别无选择,请明确划定行政任务的时间和成本,核算在当前项目预算之外,并适当延长项目截止日期。
  16. 任务目标是任务团队和管理层之间的契约。它通常带有人际政治成分,所以要谨慎措辞。
  17. 从项目一开始,就要写好项目完成后要得到的知识。每当获得新的知识时,就要修改或更新最初的列表。
  18. 通过试点来摸索需要的参数和可行的运转条件,以及各因素的动态范围区间、前进每一步的大小。
  19. 如果已有解决方案可以满足任务需求,采用它几乎肯定比再造新的更具成本效益。
  20. 安排获得完整、原始且未经预处理的数据。准备好处理人际关系和所有权问题,以及不请自来的“帮助”。
  21. 在开始实验设计之前,仔细清点任务的所有组成部分。
  22. 确保实验室中的每件物品在实验中都有特定的用途。如果有物品不在所需任务的清单上,请将其移除。如果无法移除,也要尽可能用积极的方法处理
  23. 禁止除必要人员以外的所有人进入实验室,张贴并发布此限制,并严格执行。停止调整所有固定参数和环境系统。如有必要,在无人期间持续监控实验室
  24. 因为实验产生的偏差通常是非常隐蔽、出乎意料和违反直觉的,所以要查清所有可能造成实验偏差的来源。可以根据风险和成本,决定如何调查这些来源及其影响。当有人参与试验时,可以请心理学家来帮助识别偏差来源。
  25. 由于原始数据会被变形,性能指标也可能被更改,我们应该同时保留原始和处理后的实验数据。
  26. 在计算总体性能之前,分析在试点取得的原始或简化后的结果,检测任何异常、意料之外的规律,并确认假设的性能指标是否正确。
  27. 除了了解当前的任务目标之外,项目和管理人员还应该充分了解当前的上层任务和子的任务目标。在项目任务纵向层次和同层任务之间建立有效的沟通渠道。
  28. 文本的排版和各种的颜色选择可以增强文字和图形所能传递的信息。相反,不当的使用会分散读者的注意力,造成视觉混乱,使你希望读者无法正确地领会信息。参加一些正式的培训,可以提高文本排版和颜色使用的技术。要了解你的文档的黑白打印效果。
  29. 在记录项目过程时,省略曾经走过的弯路和错误的起始点,将过程提炼成尽可能简单的故事:从分析任务,到建立假设,到消化结果,再到验证结论,沿一条线性序列描述。
  30. 在整理项目报告或演示文稿之前,要首先了解读者和读者对这个项目感兴趣的内容,包括读者的知识水平、政治取向知识本身,以此来指导报告结构的设计和内容选择。

科研攻关中的混料试验方法-举例讲解

前言

方便面是一种广受欢迎的快餐食品,市场上种类很多,商家竞争激烈。谁能快速推出一款广受欢迎的口味儿,谁就能抢占市场,在短期内收益颇丰。

但怎么才能调制出最受欢迎的料包哪?因为佐料选择多,配置比例不好掌握。各个地区,甚至各个季节顾客的口味也不一样,重口难调。这里我们将介绍一种快速、系统的配料筛选方法。通过调整各种调料组合,覆盖全部可能的组合空间;然后邀请品尝师打分,拟合统计预测模型,挑选出最受喜爱的调料配方。只要掌握了这种方法,经常使用,就能更快推出比对手更受欢迎的产品,永远立于不败之地。

这种配料筛选方法实际上是一种经典的试验设计方法,叫混料试验方法,在工业制造、高技术开发领域都在大显身手,世界最有竞争力的企业都在使用。但其原理其实并不复杂,如果使用开源的R软件来设计和分析,一般人都能掌握。所以我们希望借助方便面这个例子,帮助各位在科学技术开发中正确使用。

混料试验设计简介

在混料试验设计中,独立因素是各个混料的百分比,各成分百分比之和一定是100%。影响整体混料特性的因素,不是哪个因素的多少,而是各种因素之间的比率。比如不锈钢的抗拉伸性,取决于不锈钢成分中的铁、铜、镍、铬之间的比率,而不是单一成分的多少。又如咱们的方便面料包,当面条和煮水量一定的情况下,味道取决于盐、鸡汤酱、酸菜、香油等调味品的比例,而不是某一调味品绝对量的多少。

由于各调味品的绝对取值受到限制,常见的选试验点的方法与正交试验不太一样, 用的是“单形格子”(Simplex-Lattice) 和“单形重心”(Simplex-Centroid) 选点法。如果部分因素之间还受到相互约束条件限制的话,就要用“D-最优极端定点”(D-Optimal Constrained  Extreme-Vertices)设计法了。

当因素较多或约束条件较复杂时,手工选试验点会比较繁琐, 理解上也有困难。好在现在的开源免费的R软件,可以 帮我们完成这一步。本文也将讲解如何使用R来完成所有任务, 并在文尾提供数据、代码的下载。

料包的配料试验

那么我们怎么设计方便面料包的配料试验哪?

在面材和用水量固定的情况下,每袋方便面料包的总重量大体是固定的。因此影响方便面口味的因素是各个佐料的比例,而不是单一佐料的多少。比如做一款鸡汤口味的料包,主要成分是鸡汤酱、酸菜、盐和香油,影响汤的咸淡和酱香特点的是佐料的比例。现在市场上有的方便面不受顾客欢迎,被抱怨太清淡,盐太少,估计这位厂家就没使用我们的试验优化方法。

试验过程首先要设计各种配料比的组合,然后按配料比做出试验产品,交给品尝师品尝、打分。配料比的选择是设计的核心,如果选择不当,最后估测出的预测模型就会是错误的。试验次数的多少也要根据模型的复杂程度、限制条件、以及精确度来决定。试验点的选择要覆盖所有可能的选择区域,均匀分布。虽然手工做到这一点有点难,但我们可以请R软件帮忙。

输入限制条件后,R软件就能提供一套佐料配比试验计划。一共安排有16组试验。看一下限制区内试验点的分布情况。

四维空间中的三维试验点展示

我们按这个计划做出方便面供十位品尝师排位打分。 我们用十位品尝师打出的平均分,来拟合以下典型二次多项式预测模型。用拟合好的这个模型,我们可以预测顾客对各种配料比的喜爱程度。看一下当香油确定在0的位址时,模型拟合好以后满意度排序得分预测结果。

模型预测顾客满意度排名(香油=0)

图中颜色愈深,排位分越靠前,越受欢迎。反之数越大,越不受欢迎。三个顶点对应的是鸡汤酱,酸菜和盐的含量,香油的比例固定在0的位置。在边线位置上是只有两种佐料组合的情况。中央虚线内为受约束可试验的区域。如果我们调整香油含量,就会看到预测的趋势也会相应地变化。(这里我们通过一个R/Shiny的应用演示此变化规律, 请参照文尾视频观看)。

在R软件中实现混料设计数据分析

下面介绍一下如何用R软件来实现以上过程。首先我们要引入三个功能库,”mixexp” 是专门用于设计和分析混料试验的。”nloptr” 是非线性方程优化功能库。”openxlsx” 是Excel文件编辑功能库。

第一步是设计混料试验。因为独立成分自身和之间都有约束条件,我们不能用“单形格子”和“重心”设计,也就是mixexp里面的SLD() and SCD() 功能。 我们需要用Xvert算法。好在mixexp提供了Xvert() 函数。 我们只要提供维数和约束条件,就能得到多维顶点坐标,很好用。

然后我们可以用DesignPoints()函数在三维坐标系中看一下选中的试验点。这些点都在约束区的棱边和顶点上。如需要拟合更高次的多项式, 我们可以用Fillv()函数,但试验次数也会增加,这里我们暂且就不考虑了。

第二步是分析试验数据。研究人员组织品尝师品尝16种配方,排序打分,输入数据。我们读入该数据,用mixexp里面的MixModel()函数拟合二次多项式模型,看一下拟和好的模型。预测的等高线图可以用ModelPlot()函数打出。 第三步就是寻找最佳配方了, 也就是在受约束条件下,相对于最高排名的各佐料比例。这要用到nloptr功能包里的nloptr()函数。写好优化目标,也就是我们拟合好的这个二次多项式,约束条件,相等的和不等的,然后执行nloptr()函数。再用ModelPlot()看一下在最优条件下的预测得分等高图。

预测最优结果

最后最优的调味组合找到了。

顾客喜爱度预测最佳泡包配比组合

最佳满意度佐料配方组合是

  • 鸡汤酱= 0.51
  • 酸菜= 0
  • 盐= 3
  • 香油 = 19

在这个配料组合下,平均客户满意度会达到最高的3.4。有的人也许会问,为什么不用品尝师打最高分的那个组合哪?这是因为品尝师们本身会有局限性,与实际客户群会有偏差。用模型总体趋势估测的结果会有更广泛代表性, 同时兼顾其它不可控因素对顾客喜好产生的影响。

总结一下,我们通过16组混料设计试验,拟合了一个二次多项式模型,找到了喜爱度最高的调料比例组合。 我们使用R软件完成设计和模型估测以及非线性函数的最优化。这个试验原理和过程可以应用在所有工业生产、科技攻关领域, 是企业竞争力的倍增器。

本文中用到的和视频中提到的代码和数据都可在以下链接 下载, 并欢迎观看视频。要在攻关中快速实现突破,就要先掌握研究方法。从设计分析,到生产制造,零基础,学得会,我们介绍的方法适用于所有科研领域。欢迎与本公司联系,共同实现突破。

Watch live video

统计模型精密仪器校准法

我今天介绍一种快书精准的仪器校准方法。通过用观测到的数据,对照真实值,拟合回归模型,估测矫正曲线,从而提高测量仪器的使用精准度。 我还将演示如何使用开源的R软件完成计算和作图。用到的所有数据和代码都可以在文后链接下载。

在制备纯硅晶用于生产集成电路时,碳原子会随机在硅晶体轴的两端形成,难于彻底清除。碳原子的多少会影响集成电路的性能,所以必须精确地测量出提炼出的硅晶中的碳含量,以便选择相应的处理方法。测量碳含量要用到的测量仪器叫傅立叶变换红外光谱仪,或FTIR光谱仪。 它的工作原理是根据被测量物质在红外光谱各个频段的吸收强度,判别某一种物质的含量。但由于精度要求极高,一般新仪器在使用前需要校准.

收集好的数据是这样的。左面是对一致碳含量的标准警惕样本,在FTIR侧联谊上测得的碳含量之,一共有五种含碳硅晶样本,覆盖一般常用范围,并侧重地碳含量,有A和B 两种地含量样本。每天每种测量五次。

表中每行就是每一次测量样本获得的碳含量,每天,连续十天,一共50行数据。值得提到的是,控制图分析表明仪器供桌状态是受控的:所以这些数据时可以作为典型数据来用的。如果不受控的话,使用者应该先找到愿因,调整仪器,使其工作状态先受控。右面的标识样本一致的真实的碳含量。再看一下校准线的回归统计模型。其中相应变量Yi就是观测到的碳含量,Xi是样本真实碳含量,Ei 食宿及独立正态误差。 Beta0 和Beta1 是要估测的模型参数, 将用来调整光谱仪, 也可以用来直接用反回归法直接读取真实碳含量值。

现在看一下拟合好的矫正曲线:纵轴是实际观测值,横轴是实际值,共有A, B, C, D, E五种硅晶样本。 为侧重地碳含量的精准度,用了两个低碳含量样本A和B。 你和实际与么中每天五个观测值得平均数。 最后选用的是三级多向时,与直线略微幼雏润,不大。绿色区域是95%置信区间带。

根据这个矫正模型,在实际使用中,如果读到一个值,比如1.0 PPMA, 那末相应的真实碳含量应该是多少哪?这就要用到一个模型方法叫逆拟合,也就是已知Y, 去求X,并给出X的置信区间。 这里X是一个统计变量,而不是常数。通过R语言的一个功能库, 我们计算出当Y=1时,相应的X, 也就是真实的碳含量应该是1.137, 95%的值行区间是介于1.116和1.159之间,也就是这台仪器实际上低估了真实的碳含量。我们可以依据这条假证曲线来推导未来的读取值。当然,另外一种方法就是调整正态仪器的功能参数,使校正曲线最大限度地接近45度直线。

我们可使用矫正曲线参数beta0 和beta1等直接调整测量仪,就更方便快捷了。

现在我们看一下如何通过R语言来完成模型拟合和画图。我之间主要节点演示一下,大家可在本文网址下载详细代码,阅读细节部分。 没有安装R和RStudio的可以在百度上搜,免费下载,并安装需要的功能库。

读入数据文件,处理成必要的R数据文件格式。

首先用R的基本功能你和一个单因素线性模型,叫Mod。 这个模型就是我们需要得到的矫正线。可以用plotFit()观看一下拟合好的情况。这里显示的是拟合好的矫正线及95%置信区间。 我们看到直线基本可以,但中间一组,也就是样本D组稍微偏低,似乎多项式曲线模型更合适一点。

下面我们选用一个三级多项式作为拟和模型。

依然用lm()功能,看一下拟合好后的结果。这个新模型与数据更接近一些。那末我们如何使用拟合好的曲线哪?比如说我们用光谱仪观测到硅晶的碳含量是1.0  PPMA,也就是Y的值,要知道真实的碳含量,我们可以依据校正曲线反向找X的值。用R功能库里的Invest()功能可以一步完成。只要引用拟合好的Mod模型,设置Y0 为1.0,我们看到,X是1.136981, 以及95%置信区间。我们还可以在图上画出位置来。

其它代码细节可在本频道网址下载后查看。

我们顺利地建立了红外光谱仪的矫正曲线,探明了观测值和实际值的关系,并可以在未来的使用过程中获得更精准的测量值。在试验之前要注意的是, 为保证收集到的数据的有效性,必须用控制图方法,确认收集到的数据符合均值和范围变量稳定可控的统计特征。具体方法请参考有关文献或关注本频道。

科学技术是提高产品竞争力的法宝。量化分析方法可以加快研发速度。希望大家关注本网,今后会有更多技术量化分析方法介绍。大家可在以下链接下载代码和数据。

下载数据和R代码:

通过实验设计迅速掌控5 纳米晶片刻蚀机性能

我们平常做工农业实验,最忌讳的就是盲目选择实验点,或者一次只改变一个变量。因为如果要验证的因素很多的话,所要做的是实验会成倍增加, 浪费财力物力不说,还可能找不到需要的因果关系。另外一个要注意的是,试验要分步进行,逐步添加试验。不要一上来就做全因子实验。 因为不是所有因素都和输出变量有紧密关系的。也就是说,最好把实验分为两步做,既 可以节省原材料和工作时间, 又可以精确命中目标。第一步是筛选实验,用部分因子实验从众多因素中筛选出比较重要的几个。第二步是优化实验,为筛选出来的几个因素寻找选最佳工作区间。大家经常听说的中心组合试验设计,和Box-Bhnken 等响应面试验就是常用的优化实验设计。

好的实验设计,要能做到用尽可能少的试验次数,准确地发现各因素的主作用,交互作用以及如何影响相应变量的。

今天我要演示的是集成电路硅晶圆加工过程的一个实际案例。我们知道在硅晶片加工中有一个重要步骤,就是硅晶片表面的氧化刻蚀工序。目前,无论多么高端的硅晶片,无论多么复杂的2D, 3D纳米级集成线路结构,都要经过硅晶氧化刻蚀这道工序。

具体来讲,就是通过光刻机在硅晶片表面把电子线路的反光膜刻出痕迹后,暴露下面的二氧化硅层,再刻蚀二氧化硅层。刻蚀二氧化硅层要用很精密的仪器,因为二氧化硅层只有5-20纳米。一个纳米是一毫米的百万分之一,所以 非常非常的薄,肉眼一般无法看见。不同颜色的硅晶片,就是由不同厚度的表面氧化层反光频率不同造成的。刻蚀硅氧化层有干和湿两种刻法,目前比较通用的是干刻法。干刻法须把硅晶片放入一个封闭的金属室中。晶片放在一个旋转的托盘上, 氮气,氮气和水汽的混和气体被吹入封闭的室内,并吹入氟化氢气体,根据时间的长短控制刻蚀的深度。刻蚀机性能好坏的一个重要指标就是在晶片表面刻蚀的均匀度, 或一致性。均匀一致性越高,生产出来的芯片的质量就越好,良品率就越高。下面我们设计一组试验来验证一台新300mm硅晶片刻蚀机的均匀一致性水平,并找出最佳的工作区间。

现有研究表明,影响刻蚀机一致性有六个可能因素,分别为;

A:            托盘转速 (高 : +1,低:  -1)

B:            灼蚀前氮气和氮水混合气总气流量 (高 : +1,低:  -1)

C:            灼蚀前水气雾流量 (高 : +1,低:  -1)

D:            氮气和氮水混和气总气流量 (高 : +1,低:  -1)

E:            灼蚀气体流速 (高 : +1,低:  -1)

F:            氧化硅灼蚀厚度 (200 Angs.: +1, 50 Angs.: -1)

要得知被影响的一致性, 一般先要在圆晶表面选九个点,测量晶片每个点在刻蚀氧化层之前和之后高度的差。然后再用九个差的标准差除以其平均值,再取对数,就得到一致性。这个也就是统计学中经常提到的变异系数的对数。测量厚度要用极精密的仪器,因为氧化层一般只有几个纳米, 一毫米的百万分之一。

六个因素,因为每值只取高和低,全因子试验要做2^6=64个试验, 这是很多的试验,而且会浪费很多昂贵的硅晶片。但实际情况,不是所有因素都一定与一致性相关,所以 我们可以先用部分因子试验筛选出几个比较重要的,然后再集中研究这几个重要的因素。部分因子试验可以比全因子试验成倍地减少试验次数,这样我们既筛选了因素,又能优化过程,很经济划算。

现在我演示一下如何用R软件设计这个实验。R软件是免费开源的,可以在百度上搜并下载。R的软件包几乎可以设计和分析任何类型的试验, 所以推荐大家学习。

我们要先引入两个功能库,FrF2和daewr。后面分析还会用到另外 几个,具体请参考详细代码, 可以在片后网址下载。

我们需要设计一个解析度四级的试验,以保证精确度,2^(6-2)=16  个的部分因子设计就可以。主因子混淆关系用E=ABC and F=BCD,因为三个因子的交互基本可以忽略不计,所以用这种混淆可以保证E和F的可靠性,E和F是比较重要的因子。

现在看一下设计好的试验计划。这个计划可以存为EXCEL文件,研究人员可以拿去做试验并记录数据。看一下因素混淆结构,只有二次混淆,一级主因素都清楚的。再看一下一和二级的主因素相关分析图,一级之间都是白的,也就是0; 二级交互因素之间有部分混淆, 因为是部分因子设计。但如果是全因子设计,级交互因素也都是清晰的。

再在试验中心加上两个中心点,用来估测纯测量误差,最后一共18个试验点。

试验做好输入均匀一致性数据后,我们还用R来分析结果。拟合主因素加二级交互的模型,我们应注意到只有部分二级交互作用可以估测到, 其它的未估测到的,是和估测到的混淆在一起的。所以要搞清这些显著的二级交互作用到底是哪个, 按常规至少要再加做16 个试验,也就是翻倍。但我们注意到混淆的结构,其实再做8个,也是翻一半倍就够了。 只要把含有A, E, 和F的二级交互解开即可。圆晶很贵,时间也宝贵,所以再加八个当然比加16个好了。但如果不受财力限制,多做16个试验也可以。多做会提高一点精度。

用R软件再加八个试验,然后做试验,收集数据,把数据重新引入R,拟合模型,我们看到 原来混淆的二级交互估测值已经清楚了。显著相关的两个主因素是E:  灼蚀气体流速 ,和F: 氧化硅灼蚀厚度(含5  nano meter 和20 nano meter两个种类),交互作用包括,A:F,  B:C,  和稍微弱一点E:F。

这是在最佳取值位二维的试验结果和拟和线。纵轴是刻蚀一致性,数值越小一致性越好。横轴是因素位值从低到高。 这里我们看到, 在其它因素都取最佳值时,因素E,刻蚀气体流速与刻蚀的一致性成正比。所以刻蚀气体流速越高,刻蚀的一致性就越好。因素F取低值-1,也就是刻蚀5纳米厚的氧化层时,刻蚀的一致性要好于刻蚀高值位, +1,也就是20纳米厚时。

在交互作用方面,在试验取值范围内,因素A: 托盘转速 和F: 氧化硅刻蚀厚度有交互影响。具体就是,对于刻蚀厚度在5纳米厚度时,托盘转速越高一致性越好。 但当刻蚀厚度在20纳米厚度时,托盘转速越低一致性越好。同样,因素B: 刻蚀前氮气和氮水混合气总气流量,和因素C:刻蚀前水气雾流量 也有交互作用。也就是,当刻蚀前水气雾流量高的时候,刻蚀前混合气总气流量越高,反应一致性越好。相反,当刻蚀前水气雾流量低的时候,刻蚀前混合气总气流量越低,反应一致性越好。 同样,我们也会看到因素E和F也存在这种相对微弱一点的交叉关系, 即虽然刻蚀气体流速越高,一致性越好,但在刻蚀层薄的5纳米刻蚀改进程度要好于厚层的20纳米,也就是刻蚀气体对薄层刻蚀的影响率大于对厚层刻蚀的影响率。

综合各种因素,根据前后共24个试验拟合好的统计模型,我们知道了在什么情况下,刻蚀的一致性达到总体最好,也就是本机器各操作相关系数最佳的取值点。这是实际生产过程中重要的一步, 对提高半导体集成电路芯片的质量至关重要。

通过演示这个实例,我向大家介绍了如何使用部分因子试验做因素筛选,并按需要扩展试验点的方法。我们还一同了解了如何用开源的R软件设计和分析试验,搞清了几个机器设置参数与刻蚀一致性的关系。

欢迎大家观看根据本文制作的视频。点击以下链接,下载本文用到的R相关代码。

Click link below to download a text file containing the R codes used in the article.