|
|
AC In/Out OS Slow Response
4 i+ s4 t0 N$ K$ q+ G3 I- Phenomenon( Q% I% n3 \5 g9 G. `( y; b
9 }! x7 z) p$ h: I& ]6 ?手上一个超薄NB的案子DQA报了这样一条bug:频繁的插拔AC,vista右下角的power icon有时反应很慢,AC插拔过后有时需要等几秒或十几秒才发现power icon有变化。Power icon指的是下图红色圆圈标出的部分:
! G" X8 l9 j6 @ k. ^- Why???% U: l$ w1 ~& ~* Z" B
e1 e0 f9 f/ c l- D
- C# z% K) b8 {$ R* ^
刚看到这条bug时,我有点不以为然,因为有些机种也有这样的状况,所以我以为这个有可能是不同的测试人员认知上差异。而且超薄NB为了解决好功耗、导热的问题都使用比较低的配置,我最初还觉得可能跟配置有关。但是他们找了个相同chipset的机器去试,反应很流畅没有这样的现象L!我的猜测站不住脚了,这时我觉得应该是FW有些地方没有处理好导致的了。随后我们开始debug,首先我们要理清AC in/out 过程中EC、BIOS、OS都做了哪些动作,我所知道的状况是这样:1. EC检测到AC in/out的中断,更新EC ram中的AC状态并引发SCI IRQ通知OS。2.OS收到SCI IRQ后调用BIOS中的_Q method并通过Notify function通知OS power source change。3.OS调用_PSR function获取AC的状态并据此更新power icon显示。上述過程sample code 如下述所示:, {% D) Y# n( P A8 X7 S3 u
// AC Change event u5 M; j5 P5 k: H2 E1 G: @, X: o
8 k( ~ Y, _3 L: ]. sMethod(_QXX)
" }8 b) r$ M# Q5 w$ R" E; g8 z2 y- l2 w% w/ i+ b0 y
{
5 p0 w- e6 r# u0 B
' f: H3 s) S) oStore(0x09, DBG8)$ K- ~3 q, s0 |. E" T
0 N6 b: o3 z& W, Q- d+ W$ VNotify(\_SB. ADP,0x80)
, Z3 h8 }0 [# `* p- t/ E) t# O//Power Source status changed: K2 Z- z' Y' n* g: V
b+ }! v0 d' M( w- @
Store(0x0A, DBG8)+ Q! F, M2 |" \/ M2 c. _, \7 K
- a( ]" ]( H5 ^. D% C; [
; ?4 z z7 \9 e" J& |}' u, E1 W D2 w3 c. x$ k
6 U# I6 `8 S& V8 t+ O7 v
$ ~" M ?+ O" n# t( h" d2 K8 G! J# w) o1 D. ]3 w
Method(_PSR,0)2 [/ Q4 X5 d2 ~3 f J$ }
, i0 z) t( P$ q* A
% M# d& D$ F% D' w{# M2 ^0 w* z1 y% R$ W8 [
- n: ]) G2 i1 A: h! ~# u/ q5 Q% R* o* y
3 v( c& f( M) OStore(0x0B, DBG8)- o( ]7 Z; C& n4 f c
/ D/ I/ v P0 e3 d/ z* k0 A
- l+ P' I2 N# k1 u" CIf(ACST)4 a$ ?. W& k8 K3 B. r* A
//check AC status4 ^7 q) u, t k& v1 _) Q" ~! R
! |- T7 i* ~7 D: f{
. d. @+ S" e6 }" `/ j9 u& b+ W9 C0 Z1 d& E, v7 `9 }, G
1 A, G8 s- x0 f0 Qreturn(One)
\) [6 \: v9 ^- g( K' k// AC Present
( G0 X6 w& d. v; u6 S
) x3 _3 k1 ~. t) a g}# t8 U" |& H* c* _: V" V
$ F* H) @( Z h/ g! I9 H" Y0 Xelse
3 J; s# X, t% M& q1 N
( d9 Q5 Z j. n& A' S" N8 I{
, w i: z7 T) U7 j! O
! R4 P- p2 y, freturn(Zero)
i! E: d- `/ c// AC Not Present" _# [3 m# C9 q' [7 H
- \) _! X; Y2 c! ^$ H
}+ g" s: D0 v6 Y5 o: u! Y
* S: U2 ^/ X+ h' VStore(0x0C, DBG8)5 J4 }5 f( }1 c/ Y) A
0 [& d. k, _% R5 m( P9 [ d}2 {; ^# \$ D4 a0 T, n* C( I
. v. ]. W5 {- y& ^( i$ w7 e
" v0 {9 Z: C' Y我能猜到的大概的流程应该就是这样了。那我们就从头开始追,先在AC change qevent中抛点,可是发现AC change对应的_Q method反应很快,一旦AC in/out debug card马上就会有显示。那么说明什么呢?跟EC没有关系吗?接着抛,又发现有时停在’0x0A’比较久才会出现,有时’0x0C’比较久。
7 N- G; h3 \ w4 d# q状况不太一致;没感觉就把网撒大点,在几乎所有的ACPI method中都抛上点然后再try,试了几个回合以后有感觉了,我们发现一旦现象出现在Device Battery _BST method中停的久的几率非常高,也就是说AC in/out OS还会更新battery的信息。这段代码最明显的特征就是它会从EC ram中获取非常多的电池信息,sample code如下所示:( Q+ Z4 i6 H" h7 A' ?( E
Method(_BST)/ E! v: p# u" P9 P
{1 K# T, C5 G' t8 }, {- B1 d! O
9 }# e4 x$ {0 F. A( i# ?Store(BSTS,Local0)
7 H m3 R; J( v# B# u3 }4 O0 r1 n7 E1 k! m
) l3 L* Z' j' o" a5 x' F
If(LEqual(Local0,1)) //Check Battery Present Bit
% V+ D8 d1 _9 Y- e4 [2 @) {5 [
8 o$ I* h9 @9 ?; s: z- D{
3 g: C! G3 s5 u9 P) c
0 S$ f" @7 W( k6 x6 _$ c y+ D5 @. |1 H6 U% I+ a
5 K# L. g6 j: I' w( C
! H! j* g6 L' f& Q1 Q& E' }! q% z* g0 J$ T/ n& e6 q
//Read Battery information from EC, ?2 O1 P7 \# G& c# M$ d! K
2 Z8 y3 ]' l+ G# d4 @
… …
! v: `. P9 p8 C7 w$ ]: y) A9 t# `: i
& C* U: x9 c2 ^9 z
}
5 z3 z" ^2 p1 o M; j4 ~7 J
( T/ Z9 a5 E4 z& m; }+ _ H, `Store(0x0D, DBG8)
2 \. s" ~0 K6 M6 Z% M7 ?2 N} / l# V% O9 I, z6 D
那么问题好像是由读EC ram导致的,ACPI中读取EC内容的方式是发0x80 cmd到ox66 port,随后EC产生一个SCI通知OS,接着OS将EC ram index发给0x62 port,EC将数据送给0x62 port再产生一个SCI通知0S,接着OS读0x62 port就获得了EC ram指定位置的数据了。我在EC 端加入debug信息,发现出现状况时0x80 cmd EC很晚才收到,0x80 cmd是OS发的,所以貌似和EC也没什么关系吗?继续思考,EC产生一个SCI的目的应该是产生一个IRQ让ACPI driver获悉前面的指令已经完成,ACPI driver可以继续送指令下来了。如果某一条指令慢则有可能是前一个SCI IRQ通知 ACPI drive而 driver还没有处理好导致,也有可能ACPI driver已经处理好但是EC没有ready所致。
" ~% D& H9 Q. ~, P# S那么SCI中断机制是怎样的呢?EC SCICFG register通常将SCI IRQ配置成HLH的pulse trigger,而且L的时间通常设置成64us,如下图2所示:" ?3 f% v. D7 j e, a; D3 k
" C2 [; \, a# h# X- N3 {& M. I3 P) ^# S- g
而BIOS对SB SCI pin通常配置成low edge trig, SCI的pulse trig有个优点就是它能够自动复位,产生一个中断后SCI pin会pull high。可是因为BIOS是下降沿触发,所以EC SCI保持64us低电平会不会太长呢?会不会导致ACPI driver收到IRQ后下命令给EC,而EC SCI pin还没有复位而太久才收到?又或者说EC SCI pin保持低会影响到ACPI driver IRQ latency?有了这个想法以后,我就开始放大它,修改EC SCICFG将SCI IRQ配置成128 us pulse trig,然后再做AC in/out的实验,嘿嘿病情加重了,fail率接近了80%之前只有10%;那我再将pulse width调整为16us再试,结果200次竟然没有一次出现症状J.
! B" d+ l% k ^& d $ ?" n6 ^5 P7 D0 s1 O$ o
* P, X; [1 H) L8 X6 o) N$ M
' N( ^; S" d* n5 B }- y经过上面的分析,大概的原因已经清楚了。所以解决问题的方法应该是调整SCI IRQ pulse width,将保持低电平的时间调短,这样就可以有效的避免这条bug。通过这条bug我发现在分析问题的过程中需要理清问题的各个环节,并且对各个环节所涉及到的细节也要深入分析。不能够看到现象就轻易的下结论,更不能想当然,正确的态度是不放过任何蛛丝马迹,大胆假设多方求证!
. E$ ~# O( I/ A/ w5 y
: z; i2 _, }# W7 n" {
2 H1 {2 u( D1 ~$ p- i$ M E3 q( z$ @4 Z( d4 F
8 i/ ]: O O- h" G1 AThat’s all!) h7 n% s, l* G# H. \; R+ T( d
* O, a& X/ T QPeter |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?加入计匠网
×
|