方恒通是联华电子在台南科学园区的技术经理,他进入公司已经10年了。当时,他对半导体工程师的专业与股票分红怀有憧憬,于是自台湾交通大学电子物理研究所毕业后,就踏入这个行业。
在财务吃紧的状况下,各家半导体厂不得不大幅缩减人事成本。联华也必须要裁减20%的人力。人力不足的情况下,维持厂务正常运作是个艰巨的挑战。刚进厂的新手,难以透过教育训练马上到现场支持故障维修。进厂多年的老手,很多也只是会处理基础性维修工作,对高难度现场维修根本使不上力。
“为什么新手学不会现场维修?为什么这些老手都上线多年了还这么没有sense?”方恒通心中抱怨着。
裁员后,方恒通只剩下八成的人力,工作却有增无减。但是,要培养一位独当一面的现场工程师至少得花5年,每年培训经费少说也要6000万元新台币。
这对半导体厂商不算多,因为每次机台故障所导致的生产损失可能高达6亿元新台币。如何让现场工程师早点“上线”,成了方恒通当前的首要任务。
半导体产业分工精细、变化迅速、专业知识复杂,需要来自电子、化学、机械、物理等专业领域的工程师。这些工程师多是台湾一流学府毕业的硕博士高材生。这些杰出的工程师每日必须工作超过12小时,才能维持工厂正常营运,全球供应链也才不会断线,工作压力可想而知。
早上6点半,方恒通已经抵达厂内。2/3的工程师也都开工了。工厂最近生产问题特别多,每个工程师手上约有3~5个待解决的案件,这让方恒通忙碌不已。方恒通一抬头,就看见进厂两年的“菜鸟”制程工程师——张钧平。这位新手一脸疲态,双眼无神地吃着泡面。张钧平也毕业于台湾交通大学电子物理所,一年前刚进厂里时,他自信的神态与实习表现赢得公司的赏识,如今却已消瘦成这般模样。
看到方恒通走了过来,张钧平赶紧回神报告最新的状况:“报告学长,昨天晚上你离开公司后,蚀刻那边又丢了一个issue过来,说是我们这边的机台出了问题,等下要开跨部门会议。”
方恒通拍一下头说:“喔!真的会疯掉!又是蚀刻过来的?是阿国接手的吗?他常常搞不清楚状况,你再去确认一次。”
洪国真,小名阿国,也是制程工程师,进入公司5年多,虽然非常认真,却被大家认为没有“sense”,常找不出问题关键。洪国真急忙进厂,一脸紧张地向方恒通报告:“学长,我前天比对过,我们上次提出的办法行不通,现在我们这边的生产线已经停摆36个小时了,预估损失超过300万元新台币了!”
“这下麻烦了,泓志一定很生气。钧平,跟我一起进Fab厂!”方恒通无奈地说着。李泓志是厂长,以治军严谨出名。
“好,那我先去上个洗手间,不然待会儿想上厕所要脱无尘衣很麻烦。”张钧平放下泡面,起身转往洗手间。
等待时,方恒通打开桌上的计算机,打开电子邮件。一封来自现场的检验报告让他胆战心惊:“2009年3月9日晚间7点,有片晶圆在生产过程中遭到不明污染,污染范围达晶圆面积的1/3,远超过报废标准。请各部门于11点集合举行跨部门会议报告。”
“11点就要开会,似乎有点赶。阿国,昨晚有个晶圆污染案件,等下11点就要开会,先交给你处理,记得询问详细故障情况。”方恒通一边交代着洪国真,一边起身准备和张钧平进入晶圆厂。
换上无尘衣,两人进入工厂,方恒通看了现场后,忍不住嘀咕:“是谁在使用黄金路径啊?先前我们不是已经知道黄金路径是无效的吗?为什么现在还在用?这样批量比对当然会发生问题。”
“黄金路径”是芯片有问题发生时,先关掉可疑的机台,再用没问题的机台重新生产出一样的芯片。方恒通对张钧平说:“真是的!你把这个事情写上KM,简单描述就好。”
11点的跨部门会议开始了。现场检验部推断晶圆污染可能来自一台扩散部门的机器,与两台薄膜部门的机器。会议结束后,方恒通吩咐洪国真与设备工程师陈汉宇一起进工厂,检查扩散部门的机台有没有问题。两人检查后,确定扩散部门的机台没问题,方恒通才放心去吃午餐。
晚上8点在办公室,一群人在休息之余,脑中仍不忘工作。方恒通叮咛洪国真:“阿国,下次别再排黄金路径,这个方法在三个月前就失效了。”
洪国真一脸纳闷地回答:“真的吗?可是KM上面没有写。”方恒通说:“KM虽然没写,不过以你的经验应该能查出问题来吧?”洪国真不好意思地点头:“是的,我会改进。”
张钧平匆匆忙忙从门口跑进来,喊着:“学长,今天早上的跨部门会议中提到那个污染报废芯片,因为产量很大,光今天薄膜部门停机,公司就损失了220万元(新台币)!目前还没找到解决办法,若这样再下去,损失将更惨重!”大家听到了,一阵哗然,议论纷纷。
晚上11点,洪国真持续在知识系统上找寻与芯片污染相关的关键词。但是他搜寻到的案件,都不符合需求。办公室里,只剩下洪国真以及陈汉宇。两人埋头苦干直到体力不支,才昏昏沉沉地睡去。
第1天:开关失灵了
艾力是质量检测单位的产品工程师,大家都叫他“货主”。2009年3月15日早晨,这一批瑕疵晶圆是他发现的。这批晶圆的缺陷并不是出现在每个芯片上,而是散落在几个芯片中。这批报废的货让公司损失了5万美元。
“5万!已经5万了!”艾力非常紧张,他最害怕这种小异常,因为小异常很难在第一时间解决,又很可能酿成不可收拾的大灾难。有工程师判定是晶圆中的参数BVGOX不符合出货规定。这代表晶圆数百个物层中,有某个导电通闸发生了故障。通闸如同灯泡开关,一旦发生故障,金属层之间就不能相互连结,因此就无法导电,晶圆也就报废了。
艾力比对正常芯片的批量,发现故障发生在某个金属层中,而这个金属层与扩散、黄光及薄膜这3个模块有关。在下午的跨部门会议上,艾力立刻请3个部门协助分头检查。3个部门花了7天查验,发现这批异常晶圆的问题比较可能是出在扩散模块,那是方恒通的权责范围。
第8天:有规律的缺陷
方恒通率领扩散部门的制程与设备工程师一起检测设备,寻找问题的根源。陈汉宇花了4天检查这批电性异常晶圆在制程中所有共同通过的机台,从零件耗损、机台密封橡胶到机器手臂振动都重新检验,但没有发现异常。
同一时间,洪国真也检测了晶圆扩散浓度、温度以及时间批量的差异,但是也没有头绪。组员在现场一边讨论故障原因一边找新线索。
时间慢慢流逝,这案件已经延宕快一个月了。在下午的会议中,虽然李泓志没说什么,但他神色凝重。所幸这批芯片异常问题并未扩大。会议后,方恒通回到办公室,看着窗外皎洁的月亮,一脚翘在办公桌上,发愣想着:“每几天就给我出一次电性异常的问题,几乎每星期都发作一次……”突然,方恒通灵光乍现,不自觉叫了出来:“唉!每星期一次?好像有点规律喔!”
方恒通要张钧平再次检查电性异常每周出现的频率。张钧平回报:“电性异常并不是那么规律,大约是上星期一有4片异常,这星期五有4片异常。”
方恒通一方面将这个“规律”发现在跨部门会议中提出,另一方面将这个线索告知黄光、蚀刻、薄膜部门,请这3个部门进行会诊。会议后,大家对这个新的想法充满了期待,士气顿时振奋不少。
第99天:周一与周五的神秘数字
但是,隔了3个月,问题依旧没有解决。在一次会议后,方恒通综合大家的意见,认为这个问题与制程较有关联。设备组的陈汉宇松了口气,但是制程组的洪国真和张钧平顿时感到压力直升。
洪国真和张钧平决定,先与黄光组、薄膜组的制程工程师联系,透过电话和电子邮件分享一些数据。没过多久,薄膜制程工程师孙大维回复,他想到一个“数值规律”。他发现周一、周五都固定是第3、9、16、22片有问题。孙大维的发现提供给了张钧平和洪国真另一个侦查线索。
然而,过去出问题的晶圆,多是3的倍数或者5的倍数,从未有过如此毫无关联的数字。线索断了,张钧平和洪国真又陷入了困境。洪国真开始上知识管理系统找数据。张钧平本身就是数独爱好者,对数字有着莫名的狂热,他的双眼一直没离开过这4个数字。
张钧平突发奇想,自言自语地说:“3+9+16+22=50,9是3的倍数,16跟22的公因子是2,3+22=25,16+9=25……25?芯片匣刚好是25片一装,所以电性异常会不会跟晶圆匣有关呢?”
张钧平的想法没得到洪国真的认同。洪国真认为,晶圆匣是设备相关的问题。但是在方才的会议中,所有工程师一致认为原因应该源自制程,而非设备。两人讨论了一阵子,张钧平又提出另一个想法:如果电性异常真的是制程问题,那么应该整盒晶圆匣都有瑕疵,而不是只有特定几个晶圆异常。如果瑕疵出现在特定的位置,势必与设备有关。两人讨论了一阵后,赶紧向方恒通报告。
第106天:是设备,还是制程?
张钧平的想法使问题又回到了设备组身上。陈汉宇紧急与同事开会,他们必须证明问题不是出在他们身上,所以要赶紧提出新证据。如此,他们才可以将这个烫手山芋尽快交给另一组工程师。
两个月内,陈汉宇彻底地检查了湿式清洗机,那是用来清洗晶圆匣的设备。陈汉宇和同事先检查前三个清洗槽的温度,然后巨细靡遗地检验清洗槽内的酸性溶液是否被杂质污染,以及溶液的导电指标是否异常。但是,他们找不出任何的问题。会议中,陈汉宇确认蚀刻设备没有问题。
这让方恒通又陷入了苦思。如果不是制程的问题,也不是设备的问题,那问题到底出在哪里?
第166天:高手的发现
吴瑞克是制程组的高手,常常解决故障大难题。这次,晶圆电性异常的事件已经持续快半年了。方恒通想借助吴瑞克的经验,特别将他由别的厂调来支持。吴瑞克一头乱发,戴着黑框眼镜。当他被赋予任务时,正在撰写其他维修案的进度报告,也遭遇了瓶颈。
吴瑞克一边想着手上的报告,一边站在湿式清洗机的化学槽前思考。他想着,这个维修案的时间实在拖得太久,可是又苦无头绪,他索性就直瞪着机器手臂看。他看着化学槽的一只机器手臂将芯片匣抓起,放进第三个清洗槽中,之后另一只手臂又将芯片匣拿起,再浸到第四个清洗槽中。机器手臂反复运转。吴瑞克的脑袋也开始空转,一转眼就过了一个小时。
突然间,吴瑞克感觉这两部机器手臂的移动速度似乎有点不太一样。他又瞪着机器手臂端详许久,突然发现这两只手臂居然有1至2秒的时间差。吴瑞克在会议上报告了这个新线索,各部门工程师一片哗然。这是属于设备面的问题,居然没有任何设备工程师发现。设备工程师多是进行单机例行性检验,很难发现机台间的差异。这只有制程工程师日复一日地跟着产品运转,才能发现传输速度上的细微差异。
方恒通佩服地称赞吴瑞克:“你真是厉害!连这么小的差异都看得到。”
吴瑞克怀疑可能是一只机器手臂移动得太快,来不及甩掉酸性溶液,就将晶圆卡夹带入下一个水槽中,导致晶圆的缺陷。不过,这个假设遭到其他工程师的质疑,因为水槽中有过滤器,纯水不断循环,会不断清洗芯片上的酸性溶液。就算水槽真的被污染,那么浸在水中的整批卡匣的晶圆应该都有缺陷,不可能只有特定位置的芯片才有问题。又过了一星期,虽然工程师们发现机器手臂的速度有差异,但是大家仍找不到问题的“元凶”,诊断又陷入了僵局。
第172天:机器手臂上有爪子
设备工程师对于吴瑞克能察觉出机器手臂的速度差觉得十分不可思议。同期进来的杨蔚德,也因此激发了斗志。
杨蔚德思考着,手臂速度不一致代表着机器手臂的构造有问题。机器手臂与晶圆卡匣接触最密切的就是机器手臂上的爪子。杨蔚德心想:“会不会是爪子有异常呢?”机器手臂上的爪子一共有四个,两个一对,用来抓住晶圆卡匣。杨蔚德推想,每周一、周五出现的瑕疵片数也是四片,所以这有可能是爪子的问题。他的推理引起制程与设备工程师们的热烈讨论。
杨蔚德带着陈汉宇、洪国真及张钧平等一行人,进厂检查机械手臂爪子。机器手臂上的爪子是一个金属支架,包覆在石英底下。他们发现爪子的金属烤漆已经被腐蚀了。若不是这次特别针对爪子进行检查,一般的设备例行查验难以发现这个问题。
张钧平立刻提出疑问:“若是因为爪子上的金属烤漆被腐蚀,那么应该两部湿式清洗机的芯片都有问题,而不会局限在单一卡匣。为什么只有手臂移动比较快的清洗槽有问题,而手臂移动比较慢的清洗槽没问题呢?这与之前吴瑞克发现的机器手臂速度差有关系吗?”杨蔚德边想边回答:“的确,两只机器手臂上的金属支架都被酸性溶液腐蚀,被腐蚀就会分离出金属离子。如果这些金属离子会使晶圆的金属层变得异常,照理说应该是两部湿式清洗机都有问题,为什么只有一台有问题呢?”
第175天:水落石出
机器手臂的事情像一块巨石压在杨蔚德的心里。只要一有空,他就与扩散组的工程师们讨论。这群“交大帮”的学长学弟集思广益,还是找不出问题根源。
一日,杨蔚德突然想到,当机器手臂由酸性溶液槽中捞起芯片匣时,会有许多酸性溶液随之滴落。如果机器手臂的速度比较慢,那么酸性溶液往芯片匣滴下的速度也慢。在金属离子还没破坏芯片的金属层前,芯片匣就进入了水槽,溶液就被洗干净了。但是,若手臂的移动速度快,酸性溶液往下滴的速度就快,溶液会被甩进芯片匣。这时,卡匣再进入水槽清洗时,晶圆已经被污染了。杨蔚德又发现,机器手臂有4个爪子,分别抓住卡匣的位置正好就是第3、9、16、22匣槽上的晶圆。
三天后,会议室响起热烈的掌声,杨蔚德的假设被证实了。大家苦恼许久的“凶嫌”确实是机器手臂上的爪子。在这次事件中,大家学到了宝贵的一课:同样是被腐蚀的爪子,若机器手臂的速度较快,金属离子会在进入水槽清洗前就滴入卡匣中,使晶圆受到污染。最后,扩散组请设备工程师更换零件,以石英包覆爪子上被腐蚀的金属支架。生产线终于恢复正常运作。
然而,这个维修案的侦查长达半年。事后,也没人记得维修过程,工程师只是急忙地写完结案报告,马上就加入下一场维修战役。
回家的路上,方恒通不禁想着:每次带新人,最少都要花上五六年才能上线,不辛苦磨个5年,这些新人到维修现场根本使不上力。而且,有的工程师待了10年还是和新人一样没经验。公司把维修基本方法都放到知识管理系统中了,虽然这些系统对定期维修设备有帮助,但是对现场维修没太大帮助。现场工程师磨了许多年,也用了系统,但是他们到现场时似乎还是缺乏敏锐度。
如何才能培养现场工程师解析问题的敏锐度?这个问题今天又跟着方恒通回家了。