|
AC In/Out OS Slow Response
: ?$ Z5 X# d I/ f) N$ U- Phenomenon4 O: E H9 L) U% A! M6 v
7 a* O! Z3 D- B, H' A" M* N手上一个超薄NB的案子DQA报了这样一条bug:频繁的插拔AC,vista右下角的power icon有时反应很慢,AC插拔过后有时需要等几秒或十几秒才发现power icon有变化。Power icon指的是下图红色圆圈标出的部分:' I7 G, S0 x/ i0 W* \" M
- Why???1 B% r# o- a+ ~4 z: a/ Q
9 r# X4 G) D0 Q+ f y" z
2 G8 P5 r) q e0 Q/ y" D# ^$ V刚看到这条bug时,我有点不以为然,因为有些机种也有这样的状况,所以我以为这个有可能是不同的测试人员认知上差异。而且超薄NB为了解决好功耗、导热的问题都使用比较低的配置,我最初还觉得可能跟配置有关。但是他们找了个相同chipset的机器去试,反应很流畅没有这样的现象L!我的猜测站不住脚了,这时我觉得应该是FW有些地方没有处理好导致的了。随后我们开始debug,首先我们要理清AC in/out 过程中EC、BIOS、OS都做了哪些动作,我所知道的状况是这样:1. EC检测到AC in/out的中断,更新EC ram中的AC状态并引发SCI IRQ通知OS。2.OS收到SCI IRQ后调用BIOS中的_Q method并通过Notify function通知OS power source change。3.OS调用_PSR function获取AC的状态并据此更新power icon显示。上述過程sample code 如下述所示:
6 B( k) B% g+ q, X3 [: K. g; I// AC Change event
; X* h; F. J/ M( P
$ C) B4 u: a* I! `" rMethod(_QXX)2 c5 w$ f% s6 d8 F, v9 g
5 R/ [% D1 g) l( ~. b* _8 ^
{
. L: J3 ]$ n# P6 t; E* C2 M4 ~7 N/ t3 a7 S9 J' b" T
Store(0x09, DBG8)& g- [1 r$ a( O( l! ~' V0 W" I9 C
) N) U, D( a; m' h- |Notify(\_SB. ADP,0x80)0 \5 U a" u* y# u9 S8 M
//Power Source status changed% [ n( z2 f$ [+ H% }! d5 B
# j5 b7 x- ]9 u
Store(0x0A, DBG8)7 g$ ^$ C% W3 {
2 j, F& c& X1 i* A/ Y
5 m& ^! r8 V- \7 f8 r* n}
7 [! `8 r! J$ h2 T- X; Q8 V, z( ^( F6 o" a; o" f
7 Q+ r# }) ]& J* D: \2 S" e
, Y y6 b4 s/ {* _! O5 g
Method(_PSR,0)
I5 j& r! ]& X6 c; _5 n) N
( _% e; {; M o% V- P$ N1 ]0 @6 A
0 H/ | p4 u; H6 \+ y{/ M/ F& b; U, }/ b; O7 \
9 B: w9 s4 D. g h: M/ ]
$ Z. Y# U* x) K$ B0 b% D. cStore(0x0B, DBG8)% S' q0 o" i! |1 r* o5 X. b( K5 u( l8 W
% A7 @1 k7 V( B2 w$ ]) R& w
$ g, i2 y0 Q+ y E' n+ k5 eIf(ACST)3 S6 H: c& Y6 s" V* V J6 e5 j2 f
//check AC status; T ^2 l( L! F" {1 ]3 Z
: p. m. m# X/ \
{
. s3 }4 t, R/ B' n: f9 C# }0 q2 T" A) I" u \ a% ~( J
1 K% L6 v; h: U( T9 `( Sreturn(One)
7 i6 x; M0 Q `" G5 S% g9 r// AC Present
+ Z$ z4 o& W, L% ?) _. N4 ?1 S( }5 g% r) A- w
}: h$ u% z" m+ A4 f: ^1 L3 K
( R6 L w2 C& G! @' p% ^
else
6 g3 J- A2 t7 {/ E I) G* a# E2 m( U
{
5 G9 G1 w5 V- o9 j M7 j$ C
' s$ S5 ~4 w5 j4 O- s& [* i& [return(Zero)6 ?$ E) [1 F6 b( b4 Y. G+ y' Z6 @
// AC Not Present, ^' a" y. t8 b: n4 H1 n
2 S6 k0 c, f, m
}$ G' i. u( A6 q% Q5 |2 W
7 S2 |5 i4 J" C2 H
Store(0x0C, DBG8)
5 s% |3 r) H8 e' g! Q% ~: Q& X2 ]% V x
}! M/ J7 ^. U8 A' Y1 ?8 c# f
1 [* c% N) _* p" ^
+ v& |, @ n# Q) ? o' V我能猜到的大概的流程应该就是这样了。那我们就从头开始追,先在AC change qevent中抛点,可是发现AC change对应的_Q method反应很快,一旦AC in/out debug card马上就会有显示。那么说明什么呢?跟EC没有关系吗?接着抛,又发现有时停在’0x0A’比较久才会出现,有时’0x0C’比较久。3 u) u) a2 M7 H1 v2 B. b
状况不太一致;没感觉就把网撒大点,在几乎所有的ACPI method中都抛上点然后再try,试了几个回合以后有感觉了,我们发现一旦现象出现在Device Battery _BST method中停的久的几率非常高,也就是说AC in/out OS还会更新battery的信息。这段代码最明显的特征就是它会从EC ram中获取非常多的电池信息,sample code如下所示:2 u9 o. _& e3 r6 ~: S! K
Method(_BST)
) t* I% p8 y$ D! r{
" [0 w5 L# E5 z( M
( B# `+ a2 @& n/ I r4 H7 w% RStore(BSTS,Local0)6 k7 e( k! j2 l' M
" D" f1 {; N6 z6 U' S* w# L
3 }9 K0 k* s# [) G/ SIf(LEqual(Local0,1)) //Check Battery Present Bit+ x8 A8 U1 w: r0 f% G$ Y$ W0 B
3 f, v/ e. ~5 M; Q- q. Y$ O
{
" j) B2 h1 k, [: a2 [ T
3 S- Z3 `/ {5 i/ p' @. m* Y
7 x" w9 Z. W( k3 J
, y3 v J2 l, Z' ^% n# Y7 R. B; J
. x5 U% E! g7 _" q3 G5 o# Y( }
! ^: I d y1 l4 Q) y//Read Battery information from EC
: O* Z ^% J3 o" f7 j) x
" M, e- k' ~$ z1 `. E. E9 T… …
' e4 q9 r7 y+ ]$ r- S6 D+ P3 b
% e7 u- l6 U* J( Z, A" ^, m9 W1 x0 \2 ^% v
}
/ v) _* g& x5 [) o& [2 Y! T8 \
* v$ i, d/ }, Z( E' s2 \Store(0x0D, DBG8)
: ]4 _- e6 [' ~% }# c) \6 k# ]}
$ {3 A) o6 F4 j4 _那么问题好像是由读EC ram导致的,ACPI中读取EC内容的方式是发0x80 cmd到ox66 port,随后EC产生一个SCI通知OS,接着OS将EC ram index发给0x62 port,EC将数据送给0x62 port再产生一个SCI通知0S,接着OS读0x62 port就获得了EC ram指定位置的数据了。我在EC 端加入debug信息,发现出现状况时0x80 cmd EC很晚才收到,0x80 cmd是OS发的,所以貌似和EC也没什么关系吗?继续思考,EC产生一个SCI的目的应该是产生一个IRQ让ACPI driver获悉前面的指令已经完成,ACPI driver可以继续送指令下来了。如果某一条指令慢则有可能是前一个SCI IRQ通知 ACPI drive而 driver还没有处理好导致,也有可能ACPI driver已经处理好但是EC没有ready所致。4 ^9 I% D5 {6 q( n: c
那么SCI中断机制是怎样的呢?EC SCICFG register通常将SCI IRQ配置成HLH的pulse trigger,而且L的时间通常设置成64us,如下图2所示:& B# I* p- `# |- k4 E/ d: W
" [3 l% x$ z# r& B; b; p2 z ]
" B- I2 {) O. P1 }& n: k- @2 s
而BIOS对SB SCI pin通常配置成low edge trig, SCI的pulse trig有个优点就是它能够自动复位,产生一个中断后SCI pin会pull high。可是因为BIOS是下降沿触发,所以EC SCI保持64us低电平会不会太长呢?会不会导致ACPI driver收到IRQ后下命令给EC,而EC SCI pin还没有复位而太久才收到?又或者说EC SCI pin保持低会影响到ACPI driver IRQ latency?有了这个想法以后,我就开始放大它,修改EC SCICFG将SCI IRQ配置成128 us pulse trig,然后再做AC in/out的实验,嘿嘿病情加重了,fail率接近了80%之前只有10%;那我再将pulse width调整为16us再试,结果200次竟然没有一次出现症状J.
/ D l0 P4 h7 u1 ^0 W: T u; y- e3 B6 L# c! E
- p6 X) b- E- m
+ Q# a* u1 }$ q; g6 y7 r
经过上面的分析,大概的原因已经清楚了。所以解决问题的方法应该是调整SCI IRQ pulse width,将保持低电平的时间调短,这样就可以有效的避免这条bug。通过这条bug我发现在分析问题的过程中需要理清问题的各个环节,并且对各个环节所涉及到的细节也要深入分析。不能够看到现象就轻易的下结论,更不能想当然,正确的态度是不放过任何蛛丝马迹,大胆假设多方求证!
$ t- @' i' B& z e% a) z3 v0 z9 o0 k6 g) N
7 _% i! m- j k9 K( Q4 v0 z
. s0 x/ v0 T& Y% V# X 1 M# b$ J5 q+ Z, x+ e4 A
That’s all!) M6 c3 i4 b9 r6 j$ ~! H0 X3 t
0 n( ?/ `5 I0 ~, APeter |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?加入计匠网
×
|