|
|
AC In/Out OS Slow Response " E4 c# E9 |0 n m: m
- Phenomenon
/ D5 f4 h, q! V. c
( h* I' X# S, C5 Y4 v7 Y5 q/ {) i手上一个超薄NB的案子DQA报了这样一条bug:频繁的插拔AC,vista右下角的power icon有时反应很慢,AC插拔过后有时需要等几秒或十几秒才发现power icon有变化。Power icon指的是下图红色圆圈标出的部分:$ E* q; J* p" D2 ]5 f& U( K ^
- Why???
?/ y0 ^' e$ m5 D$ y! l( Q: X& Q
( Z5 [" }% L0 F- p) m# V) t" L1 C4 W$ Y
刚看到这条bug时,我有点不以为然,因为有些机种也有这样的状况,所以我以为这个有可能是不同的测试人员认知上差异。而且超薄NB为了解决好功耗、导热的问题都使用比较低的配置,我最初还觉得可能跟配置有关。但是他们找了个相同chipset的机器去试,反应很流畅没有这样的现象L!我的猜测站不住脚了,这时我觉得应该是FW有些地方没有处理好导致的了。随后我们开始debug,首先我们要理清AC in/out 过程中EC、BIOS、OS都做了哪些动作,我所知道的状况是这样:1. EC检测到AC in/out的中断,更新EC ram中的AC状态并引发SCI IRQ通知OS。2.OS收到SCI IRQ后调用BIOS中的_Q method并通过Notify function通知OS power source change。3.OS调用_PSR function获取AC的状态并据此更新power icon显示。上述過程sample code 如下述所示:' D7 ~+ s. Y2 D: G+ v
// AC Change event1 K+ N* X4 U- P( _
6 W6 W0 a4 Q2 U. I: H% }" z7 C- z
Method(_QXX)" O* A; j% p- M0 \0 l" [
( o; P9 {7 s. q" b' V. ?" r( E
{
5 ]0 R$ @4 a! D6 H5 G+ h$ \* X' T
- f4 P) B5 A* m# xStore(0x09, DBG8)/ Q# d& s0 G, n8 V) q! Y
4 Q) O9 M; a) O1 s# W; PNotify(\_SB. ADP,0x80)0 L3 _& H* z7 b0 P5 I' m
//Power Source status changed: T' {% b. H# u, ]
* T, J; w& \5 J$ e. M) E
Store(0x0A, DBG8)7 }9 ^! O: E+ N$ T
- y+ s4 ~5 ~1 {! I3 L
7 ~. L- F- h* N& L& T2 E$ m' l}# |9 |1 V3 M; v
4 g& V& h; Y' z7 v; u. X- e
/ w8 p& ^. ^$ G. f0 j/ Q* v: I& M7 I
6 W( h l) u7 n9 M8 m0 BMethod(_PSR,0)
5 q# Y' N/ {* J: G) k! j. m+ W* ^3 w0 b: Y g
- @0 y; ]) W0 D' m{5 [) c9 u! g9 Z7 s
' j6 N( g U9 x3 c1 u d
( c2 H; b; V1 yStore(0x0B, DBG8)# X" g8 g6 {* w0 V8 c$ ]8 J: Y
, f5 A. L* Z) P9 c8 w9 r8 }5 G. o5 g. `' k
If(ACST)
/ M# c; i3 r! r4 e4 X$ Q N, S//check AC status
! ]% M( e5 q4 g w' @, z5 H# _0 w" M+ r# Y" Q5 m) \7 [( S) v5 i. g
{
. E1 W' b4 x& l/ O
3 h5 W2 u3 s/ \4 K' _+ _/ Z4 ^. M' H: l, O. f7 J3 C
return(One)
& [- Q# c2 }' s// AC Present D4 ]: x1 S* O I) W
) o$ O; c, n: Z. j% y1 h# Q9 `( j
}
1 y. b# d \ [9 P* |; L
) R) y5 l7 n& N4 F1 uelse
% a f8 l2 M' R9 F" w8 w4 D8 ?1 e, c! t
{
8 X7 u: X! D) c* L/ k+ G& Y# S% J5 Y+ r" n* t3 R, t
return(Zero)+ s# p4 O( F: |' e: L' T" Z2 e
// AC Not Present
( @* W; p9 m$ k1 n& S$ b1 X
[) M, c' z% H/ }}# P$ w# e$ \* ^( ?7 P: Z/ C- V
6 n3 P- W( v8 |: l; w: q
Store(0x0C, DBG8)
# T+ v2 o4 Z" K1 S0 ^" L0 c8 P# T+ E- h9 j- z9 F& }, A- L5 q: L: i
}3 |/ y4 @6 Y4 i& _# g+ v- O4 `
, m" c" X9 c8 O$ ]& T& r
8 m, I: ~5 V, ?; K3 y# H. l5 D$ o8 d
我能猜到的大概的流程应该就是这样了。那我们就从头开始追,先在AC change qevent中抛点,可是发现AC change对应的_Q method反应很快,一旦AC in/out debug card马上就会有显示。那么说明什么呢?跟EC没有关系吗?接着抛,又发现有时停在’0x0A’比较久才会出现,有时’0x0C’比较久。8 l- c. }- y r( B3 ^* R( n
状况不太一致;没感觉就把网撒大点,在几乎所有的ACPI method中都抛上点然后再try,试了几个回合以后有感觉了,我们发现一旦现象出现在Device Battery _BST method中停的久的几率非常高,也就是说AC in/out OS还会更新battery的信息。这段代码最明显的特征就是它会从EC ram中获取非常多的电池信息,sample code如下所示:- z& f% u4 [, V" z% o
Method(_BST)
+ l9 F3 g' s. W, j: d{
6 D2 c& z2 G% m) P6 J' T( N8 F! x/ Z9 k) g! n, |
Store(BSTS,Local0)" A5 m. m6 `* E( y
7 f# E" b/ r9 i# @1 @
; _+ f4 ], d& P- R4 |If(LEqual(Local0,1)) //Check Battery Present Bit
6 `& [: L2 r9 A* v2 E4 z+ ?( ?9 `3 n3 ]2 m4 v. `
{; z% {1 f* K6 |" V/ r
1 L5 N. h. I% Z
, p. K" I z2 b3 l3 W, n# I& l1 @- N
* g% i, Q+ j; i M$ \+ ^
5 a8 i1 {# f: h) l# j
//Read Battery information from EC+ Z2 }) x8 u& u8 t j4 y5 p- j
. g: l" S k! w8 \, h& H
… …
7 K4 g& S8 i C+ ~! h" Z! A# D! E4 h6 w( H3 t3 {+ i
5 m) T/ f8 Z! U% J}9 G& v4 O9 ?+ Q8 `$ Q
3 S1 Z- [ e: m6 T0 ?4 c: b; C$ iStore(0x0D, DBG8)
* P# j! F5 }7 h C4 o} 4 m$ f% W+ i5 _8 l! N
那么问题好像是由读EC ram导致的,ACPI中读取EC内容的方式是发0x80 cmd到ox66 port,随后EC产生一个SCI通知OS,接着OS将EC ram index发给0x62 port,EC将数据送给0x62 port再产生一个SCI通知0S,接着OS读0x62 port就获得了EC ram指定位置的数据了。我在EC 端加入debug信息,发现出现状况时0x80 cmd EC很晚才收到,0x80 cmd是OS发的,所以貌似和EC也没什么关系吗?继续思考,EC产生一个SCI的目的应该是产生一个IRQ让ACPI driver获悉前面的指令已经完成,ACPI driver可以继续送指令下来了。如果某一条指令慢则有可能是前一个SCI IRQ通知 ACPI drive而 driver还没有处理好导致,也有可能ACPI driver已经处理好但是EC没有ready所致。
$ m% Z4 H% I. I# T! s u那么SCI中断机制是怎样的呢?EC SCICFG register通常将SCI IRQ配置成HLH的pulse trigger,而且L的时间通常设置成64us,如下图2所示:% R- f! ]! k3 U* K, ?2 c9 @ b( u% g
- B7 V6 i1 R. y
% N6 z5 q, F- F$ E/ q) i而BIOS对SB SCI pin通常配置成low edge trig, SCI的pulse trig有个优点就是它能够自动复位,产生一个中断后SCI pin会pull high。可是因为BIOS是下降沿触发,所以EC SCI保持64us低电平会不会太长呢?会不会导致ACPI driver收到IRQ后下命令给EC,而EC SCI pin还没有复位而太久才收到?又或者说EC SCI pin保持低会影响到ACPI driver IRQ latency?有了这个想法以后,我就开始放大它,修改EC SCICFG将SCI IRQ配置成128 us pulse trig,然后再做AC in/out的实验,嘿嘿病情加重了,fail率接近了80%之前只有10%;那我再将pulse width调整为16us再试,结果200次竟然没有一次出现症状J.
: E: g# m" S' j6 x5 G9 U 0 t0 ]+ i+ d0 `! n" w. Z; |4 b' g( L: `
3 w$ w! I; O0 z2 n
# E! ]- `9 @- A! a2 m
经过上面的分析,大概的原因已经清楚了。所以解决问题的方法应该是调整SCI IRQ pulse width,将保持低电平的时间调短,这样就可以有效的避免这条bug。通过这条bug我发现在分析问题的过程中需要理清问题的各个环节,并且对各个环节所涉及到的细节也要深入分析。不能够看到现象就轻易的下结论,更不能想当然,正确的态度是不放过任何蛛丝马迹,大胆假设多方求证!
& j7 K; _: ^9 }) E1 k! q$ F0 N% [ Z
9 m$ O4 W* n" l. h& N$ p/ f4 a- G+ L5 c' Q5 C" T5 ~7 o, _
/ d8 `+ H/ w1 {2 L6 w7 sThat’s all!. M0 ?& G* S& W$ w
+ {* \' l' d% ^$ G5 ]* _# Z0 k
Peter |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?加入计匠网
×
|