|
AC In/Out OS Slow Response
5 Y7 k+ N2 F! r9 d$ s6 ^$ Q0 h- Phenomenon
8 s4 X- f+ p) w& y& p3 Q
+ X" D$ c( Z- c8 u, }手上一个超薄NB的案子DQA报了这样一条bug:频繁的插拔AC,vista右下角的power icon有时反应很慢,AC插拔过后有时需要等几秒或十几秒才发现power icon有变化。Power icon指的是下图红色圆圈标出的部分:$ z. X* M5 g7 n v( G! h
- Why???
3 ]1 _; c& z/ s. A2 |, _
% w0 N5 W# Z o# x# d
; A$ v3 p8 k! X3 ^8 d4 R刚看到这条bug时,我有点不以为然,因为有些机种也有这样的状况,所以我以为这个有可能是不同的测试人员认知上差异。而且超薄NB为了解决好功耗、导热的问题都使用比较低的配置,我最初还觉得可能跟配置有关。但是他们找了个相同chipset的机器去试,反应很流畅没有这样的现象L!我的猜测站不住脚了,这时我觉得应该是FW有些地方没有处理好导致的了。随后我们开始debug,首先我们要理清AC in/out 过程中EC、BIOS、OS都做了哪些动作,我所知道的状况是这样:1. EC检测到AC in/out的中断,更新EC ram中的AC状态并引发SCI IRQ通知OS。2.OS收到SCI IRQ后调用BIOS中的_Q method并通过Notify function通知OS power source change。3.OS调用_PSR function获取AC的状态并据此更新power icon显示。上述過程sample code 如下述所示:
" i! P# W9 T* q1 s// AC Change event
; W2 a+ w4 ~( Z1 e
% N2 Q9 } i" Z% \1 _ v% B/ KMethod(_QXX)" N1 ^$ \1 c" w( B8 \7 n! |: i
f% S0 a5 m5 D' R7 x* P( J
{( d1 [1 y9 p" V, s( ^8 z5 @
. S! w# _, {0 T! Z; H
Store(0x09, DBG8) \/ h3 H' e( _
% D6 _; R0 W6 }( ]5 ^5 J
Notify(\_SB. ADP,0x80)
1 l! P7 y- m" O# u( v" c" g//Power Source status changed
) R9 w+ s Y0 ~: V" y# I0 i z( G% l' O$ ?! w
Store(0x0A, DBG8)
- @* G% \0 P8 m }1 O 6 y3 F. Z% u0 g2 H0 } i8 y/ M+ ?
- q9 W; Q5 Y, B* x, P+ M$ y, r* W' {* \}
1 Z9 v4 `1 n: r7 |# S% h2 o% g( W, R" W6 \1 n9 b/ N8 x* I, q" G
6 t. }+ g! a" ~, w2 v+ B3 a5 A! Q' K
Method(_PSR,0)8 w: R1 m) u8 c$ ]6 U. R
+ P5 F, L+ X3 r. ^! S( S' x# ?
+ H& x* n1 \" p( a! s- A$ s{* d1 e B( ?( {$ [: S
: g! L. b* b! y0 b
" E. H+ _! p) J* ^' nStore(0x0B, DBG8)
# T* |, U$ s1 S9 W) F: n7 `/ G( x2 i+ q% b6 B6 I' N
( W f7 e( Y; N0 Q" b, I B4 d' H( yIf(ACST)
% A0 p i# U$ }9 N//check AC status# Q: `+ X% s; _% P/ V
+ {* W! \' v$ K; l' H" s
{
; Y6 c7 q4 H, @9 V4 X5 J6 R7 p. f
1 X/ G0 B( i+ h8 ~- n9 W0 k$ R/ l$ Z
return(One)3 X; D7 r& V4 a
// AC Present
/ P$ A' ~' c7 Q2 l
- b$ N" I _. i0 I8 c}$ g" j5 a, ~9 U, X9 A
2 V% E# d4 @+ P' r5 l2 t: ~! kelse
4 ]! O2 l& W7 M) Z5 B5 K$ u1 P& a5 ^7 o; K( q7 n. P* \9 Q
{# z" v \/ u. ~" w7 [. {
4 ^' Y( y: n ^
return(Zero)
2 P8 c; y3 V, x. ]0 V// AC Not Present& ]" x! Y/ ~) M4 X- y
2 f! e# R6 P; s h}) o! J6 K8 }( J
( c# g+ S& m4 E5 g3 K4 s
Store(0x0C, DBG8)% ~+ Y* s! a6 i ?8 Y1 }
3 E( H* h) Y; k5 G0 M}3 D4 Q; M" N/ N1 A7 @$ S9 y/ s
3 q9 v- n7 U) S! |: I1 S
7 z: N+ ~5 w/ B0 i8 w+ l4 B1 F( [ `
我能猜到的大概的流程应该就是这样了。那我们就从头开始追,先在AC change qevent中抛点,可是发现AC change对应的_Q method反应很快,一旦AC in/out debug card马上就会有显示。那么说明什么呢?跟EC没有关系吗?接着抛,又发现有时停在’0x0A’比较久才会出现,有时’0x0C’比较久。+ m) P l) A$ d1 D
状况不太一致;没感觉就把网撒大点,在几乎所有的ACPI method中都抛上点然后再try,试了几个回合以后有感觉了,我们发现一旦现象出现在Device Battery _BST method中停的久的几率非常高,也就是说AC in/out OS还会更新battery的信息。这段代码最明显的特征就是它会从EC ram中获取非常多的电池信息,sample code如下所示:* y& x- S8 T$ I8 o# g
Method(_BST)5 V6 M# H( W- M! y. u
{
/ E; d( D! Z. b1 V, n) p
) n9 K0 B! N/ _0 T* `, `7 CStore(BSTS,Local0)2 y+ Z, s% Q' U2 ^5 x
" R* [( m2 ]; C! A( P1 B
2 v. ^0 Z- H' s( e8 S1 |; w
If(LEqual(Local0,1)) //Check Battery Present Bit8 P- p* f9 p" [- a g7 c
" Z- Y% }4 [ c8 h
{
; n7 j, [+ i7 ?5 H
6 z* j5 G3 u, K3 k+ g( I4 O B' C8 u k- R! g. L/ N2 U
# C, z3 E8 {1 ]( i1 ^
- w* l# Q9 S9 r( m& B1 @8 x6 i) ]/ h, [2 Y
//Read Battery information from EC
0 F. }! V: ? G- u2 B1 o" R4 o( T8 e& R+ C/ j& \! K# y
… …
+ c9 E% m+ l7 G0 c1 [4 u5 ]4 h: p% v
( s! g+ I. _& R w' \( r
}- |5 l9 L, w+ t# K9 A2 P
/ O0 c5 [0 h' M9 i+ p
Store(0x0D, DBG8)- O2 a0 Z- s0 H0 F) {
} O3 h* k6 [) ?4 G" {
那么问题好像是由读EC ram导致的,ACPI中读取EC内容的方式是发0x80 cmd到ox66 port,随后EC产生一个SCI通知OS,接着OS将EC ram index发给0x62 port,EC将数据送给0x62 port再产生一个SCI通知0S,接着OS读0x62 port就获得了EC ram指定位置的数据了。我在EC 端加入debug信息,发现出现状况时0x80 cmd EC很晚才收到,0x80 cmd是OS发的,所以貌似和EC也没什么关系吗?继续思考,EC产生一个SCI的目的应该是产生一个IRQ让ACPI driver获悉前面的指令已经完成,ACPI driver可以继续送指令下来了。如果某一条指令慢则有可能是前一个SCI IRQ通知 ACPI drive而 driver还没有处理好导致,也有可能ACPI driver已经处理好但是EC没有ready所致。
( h# x3 t" w4 m6 x6 R那么SCI中断机制是怎样的呢?EC SCICFG register通常将SCI IRQ配置成HLH的pulse trigger,而且L的时间通常设置成64us,如下图2所示:
& F5 ~$ ? v H2 y" @) ]) Y: [+ e7 y5 D. F! c' ]% d4 ?9 B& n+ K8 N
. d# K$ s% M& k4 A0 o5 ?
而BIOS对SB SCI pin通常配置成low edge trig, SCI的pulse trig有个优点就是它能够自动复位,产生一个中断后SCI pin会pull high。可是因为BIOS是下降沿触发,所以EC SCI保持64us低电平会不会太长呢?会不会导致ACPI driver收到IRQ后下命令给EC,而EC SCI pin还没有复位而太久才收到?又或者说EC SCI pin保持低会影响到ACPI driver IRQ latency?有了这个想法以后,我就开始放大它,修改EC SCICFG将SCI IRQ配置成128 us pulse trig,然后再做AC in/out的实验,嘿嘿病情加重了,fail率接近了80%之前只有10%;那我再将pulse width调整为16us再试,结果200次竟然没有一次出现症状J.9 i/ M" \5 t5 | M, T
p2 J) e6 q1 a
- _9 [4 n) F& c; f5 o5 v s4 y. f; Y8 n$ J- ?! U2 R( D( H/ K; d8 p1 S
经过上面的分析,大概的原因已经清楚了。所以解决问题的方法应该是调整SCI IRQ pulse width,将保持低电平的时间调短,这样就可以有效的避免这条bug。通过这条bug我发现在分析问题的过程中需要理清问题的各个环节,并且对各个环节所涉及到的细节也要深入分析。不能够看到现象就轻易的下结论,更不能想当然,正确的态度是不放过任何蛛丝马迹,大胆假设多方求证!! _" j$ }+ s' Q+ l' ?3 s+ a
7 O, g h% m4 y- }' ?. h1 y7 L7 y
, C, w# W. s; K3 s/ Z
4 D; L" K4 e- O2 N o2 m: U4 g
3 ?4 r) D. Y5 T7 a& X1 k( L
That’s all!
9 E; N' `- P6 |4 K) U
9 [( z* A5 e3 g7 m6 m) A" XPeter |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?加入计匠网
×
|