|
|
AC In/Out OS Slow Response
" a" u* C; T0 g& Y- Phenomenon: r: t9 U) i6 X" n2 r1 i+ d5 m
, a- _1 j% f: O. }0 E z* t
手上一个超薄NB的案子DQA报了这样一条bug:频繁的插拔AC,vista右下角的power icon有时反应很慢,AC插拔过后有时需要等几秒或十几秒才发现power icon有变化。Power icon指的是下图红色圆圈标出的部分:
. @7 B: r, ^; n; \0 t- Why???
# S9 I' ~2 i) u* I: w. ?, @
! d% Z/ l6 ?4 {: P2 ?2 n% \$ e( d6 b- ?2 h; |% W7 w9 a8 S
刚看到这条bug时,我有点不以为然,因为有些机种也有这样的状况,所以我以为这个有可能是不同的测试人员认知上差异。而且超薄NB为了解决好功耗、导热的问题都使用比较低的配置,我最初还觉得可能跟配置有关。但是他们找了个相同chipset的机器去试,反应很流畅没有这样的现象L!我的猜测站不住脚了,这时我觉得应该是FW有些地方没有处理好导致的了。随后我们开始debug,首先我们要理清AC in/out 过程中EC、BIOS、OS都做了哪些动作,我所知道的状况是这样:1. EC检测到AC in/out的中断,更新EC ram中的AC状态并引发SCI IRQ通知OS。2.OS收到SCI IRQ后调用BIOS中的_Q method并通过Notify function通知OS power source change。3.OS调用_PSR function获取AC的状态并据此更新power icon显示。上述過程sample code 如下述所示:
, {1 x+ s# c! o$ Y; `0 _// AC Change event
( R2 h6 B$ K% m/ s( s) e
! j% T% N! q5 @/ x/ }5 ZMethod(_QXX); \5 i0 x2 I7 @2 w/ J+ ?
4 m; F, u, `4 i& d2 t3 q/ Q
{
, ~1 s+ C3 I! n0 _: ?
) o% i. S' G7 } T C/ }Store(0x09, DBG8)3 ~2 q; g3 @& q$ L+ Q8 M8 u1 w3 |
6 D* e) h, c, n0 `4 I1 L: xNotify(\_SB. ADP,0x80)/ R$ U! O* R5 n3 L
//Power Source status changed
6 G- U- b$ {. C
# s5 J/ K( M) E: u5 I" TStore(0x0A, DBG8); n. ^" r% O3 i5 i
& M0 @$ A" j: W) F& I4 T, ^; u( K% o+ }6 M' v/ D# C! ~4 K1 ]/ Q
}* C) ?4 ]( v" ~6 E( Y7 a g) c
. y' v( H/ C$ n% H" a+ b
5 j5 i0 W& ^2 z6 h& G" N6 m6 r" m2 Y7 d* q* e
Method(_PSR,0)# R, d5 p& k) S( R
- w; \9 v# p1 y! z6 a* L
6 j5 C3 p$ ~/ ?/ l- K3 D& [- r3 k2 x{
$ b6 Q; ~3 i& f3 H. W6 B! {% y& Z; `$ }3 p6 J6 D- ?. W6 U
- l1 l" H( ?8 I5 mStore(0x0B, DBG8)
, _1 D3 A- m( Y/ p! v$ k$ _
9 K/ B( s9 }: c5 R# ]( |/ A0 K# R# x" ~! e
If(ACST)
& U" a. u+ s" p& J5 F5 \0 Q//check AC status
# d0 ~/ K6 d; v2 {" [; u
3 A5 E. o9 G5 m+ o1 a# v/ c3 E4 _1 @{
# A" A# P& b) S6 N! z" u/ |4 o8 C5 P/ q( F! Y8 a, `
8 Y; M5 E+ M7 D2 vreturn(One)9 P- D/ k4 }' a3 b; W
// AC Present
1 M+ [+ p1 e3 ?: J+ r% o
; @4 K$ e7 ~ O9 ?) m; a1 ~}
0 v2 Y$ E1 x1 E' p+ M3 p* C7 x2 d/ ?' a- d/ |, i! D6 e+ `
else
: ^" P( ^7 ~$ f/ p( m( h: |0 v$ h X" \4 L
{
; E+ a5 Q; L/ o9 ?# h8 @$ S6 ?% t2 p& w" J. l% q+ _
return(Zero)5 ]/ Q, c4 Z8 n3 ~
// AC Not Present
6 [, W- b O6 N- {6 \
( o' R7 u0 R/ C2 [+ u. C}, o8 J. E7 b7 A$ p! X2 H1 }
# S0 O" r1 [! Q5 P- |1 \3 uStore(0x0C, DBG8)
" P; J z0 _! F+ R/ Y
# c; [* E% l, F. P6 n% `}
5 `; |8 @# \5 D- M" J9 F4 ]; l# j/ Q, Y4 k: ?2 ]
0 v# L# k& f$ z
我能猜到的大概的流程应该就是这样了。那我们就从头开始追,先在AC change qevent中抛点,可是发现AC change对应的_Q method反应很快,一旦AC in/out debug card马上就会有显示。那么说明什么呢?跟EC没有关系吗?接着抛,又发现有时停在’0x0A’比较久才会出现,有时’0x0C’比较久。
$ O' C, H8 m4 g- l! u }状况不太一致;没感觉就把网撒大点,在几乎所有的ACPI method中都抛上点然后再try,试了几个回合以后有感觉了,我们发现一旦现象出现在Device Battery _BST method中停的久的几率非常高,也就是说AC in/out OS还会更新battery的信息。这段代码最明显的特征就是它会从EC ram中获取非常多的电池信息,sample code如下所示:+ y0 u) X N2 Y) N( ~: E t
Method(_BST)
: U4 ]2 s$ H- I$ j4 o{/ R" p- p: c% W+ r/ ~: Y& I
- f3 Z* I, Q: B" g, b
Store(BSTS,Local0)
# g/ m8 C2 R7 j" h; Q' M- Q, X
/ S t% t9 _8 [' G$ I1 T/ X; E( I1 s6 O" T
If(LEqual(Local0,1)) //Check Battery Present Bit" x2 @7 {5 G3 R9 a R7 [* Z/ U+ i
0 S( }0 N9 e/ t/ W% |, k% w{
, O- a: n/ }: I T4 a6 o! A# E# x$ ? ^
0 {8 p; _+ U, t# i1 z0 C- M8 k8 z+ N: D8 t( J0 v
, q% j5 G0 J ?0 w1 \, M
/ u. Q+ }0 H1 P- z; Y( }//Read Battery information from EC
' }* Y$ b: o8 \) K" j6 m9 O6 E3 x, T1 @- \; t- h; r
… …
7 y3 p2 |( i( L
5 `8 S# F+ C# }5 y. @1 g e2 u. e8 X' ]- {% l$ B
}
" j: B5 q) l- K/ {( J( i" X8 n" X6 p3 [; D6 y1 P2 K
Store(0x0D, DBG8)$ M7 |1 g2 Y% l: l' T1 Y7 i! M
} 3 q' i" d, ]5 T3 E- d, Y ^; {
那么问题好像是由读EC ram导致的,ACPI中读取EC内容的方式是发0x80 cmd到ox66 port,随后EC产生一个SCI通知OS,接着OS将EC ram index发给0x62 port,EC将数据送给0x62 port再产生一个SCI通知0S,接着OS读0x62 port就获得了EC ram指定位置的数据了。我在EC 端加入debug信息,发现出现状况时0x80 cmd EC很晚才收到,0x80 cmd是OS发的,所以貌似和EC也没什么关系吗?继续思考,EC产生一个SCI的目的应该是产生一个IRQ让ACPI driver获悉前面的指令已经完成,ACPI driver可以继续送指令下来了。如果某一条指令慢则有可能是前一个SCI IRQ通知 ACPI drive而 driver还没有处理好导致,也有可能ACPI driver已经处理好但是EC没有ready所致。2 r b& j+ c* Q0 [ y2 U7 e
那么SCI中断机制是怎样的呢?EC SCICFG register通常将SCI IRQ配置成HLH的pulse trigger,而且L的时间通常设置成64us,如下图2所示:
; V5 e# X# v. Y/ ~" y% h- H+ x& N) y8 g( W4 }
( A$ B. I! R" R5 j& p3 X* @: l
而BIOS对SB SCI pin通常配置成low edge trig, SCI的pulse trig有个优点就是它能够自动复位,产生一个中断后SCI pin会pull high。可是因为BIOS是下降沿触发,所以EC SCI保持64us低电平会不会太长呢?会不会导致ACPI driver收到IRQ后下命令给EC,而EC SCI pin还没有复位而太久才收到?又或者说EC SCI pin保持低会影响到ACPI driver IRQ latency?有了这个想法以后,我就开始放大它,修改EC SCICFG将SCI IRQ配置成128 us pulse trig,然后再做AC in/out的实验,嘿嘿病情加重了,fail率接近了80%之前只有10%;那我再将pulse width调整为16us再试,结果200次竟然没有一次出现症状J.
g: y+ y3 F9 P8 }( h
5 r* Q. c2 h% ?5 v' r8 K
. f& N* w1 D* C8 W% ~; j2 z+ Q
* d. W E" n6 @ X2 N经过上面的分析,大概的原因已经清楚了。所以解决问题的方法应该是调整SCI IRQ pulse width,将保持低电平的时间调短,这样就可以有效的避免这条bug。通过这条bug我发现在分析问题的过程中需要理清问题的各个环节,并且对各个环节所涉及到的细节也要深入分析。不能够看到现象就轻易的下结论,更不能想当然,正确的态度是不放过任何蛛丝马迹,大胆假设多方求证!1 M& ^% P1 l) R+ B6 I7 i' Z
! n# K( C6 F9 w
" c; i) f, f0 p
2 [/ u% _2 S4 H: M' x* s. u
& T2 Z' y* o' p: bThat’s all!9 {5 V; Y% ~) {7 L
8 ^5 Z% b8 {9 H& W: L$ S) S
Peter |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?加入计匠网
×
|