<div dir="ltr"><br><div class="gmail_extra"><br><div class="gmail_quote">On Mon, Jun 12, 2017 at 11:55 PM, Michael Gottesman <span dir="ltr">&lt;<a href="mailto:mgottesman@apple.com" target="_blank">mgottesman@apple.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div style="word-wrap:break-word"><div><div><div class="gmail-h5"><div><br></div></div></div><div>The current design assumes that in such cases, the workload will be increased so that is not an issue.</div></div></div></blockquote><div><br></div><div>I understand. But clearly some part of our process is failing, because there are multiple benchmarks in 10ms range in the tree for months without fixing this.</div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div style="word-wrap:break-word"><div><div></div><div>The reason why we use the min is that statistically we are not interesting in estimated the &quot;mean&quot; or &quot;center&quot; of the distribution. Rather, we are actually interested in the &quot;speed of light&quot; of the computation implying that we are looking for the min.</div></div></div></blockquote><div><br></div><div>I understand that. But all measurements have a certain degree of error associated with them. Our issue is two-fold: we need to differentiate between normal variation between measured samples under &quot;perfect&quot; conditions and samples that are worse because of interference from other background processes.</div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div style="word-wrap:break-word"><div>What do you mean by anomalous results?</div></div></blockquote><div><br></div><div>I mean results that significantly stand out from the measured sample population.</div><div><br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div style="word-wrap:break-word"><div><span class="gmail-"><blockquote type="cite"><div><div dir="ltr"><div class="gmail_extra"><div class="gmail_quote"><div></div><div>Currently I&#39;m working on improved sample filtering algorithm. Stay tuned for demonstration in Benchmark_Driver (Python), if it pans out, it might be time to change adaptive sampling in DriverUtil.swift.</div></div></div></div></div></blockquote><div><br></div></span><div>Have you looked at using the Mann-Whitney U algorithm? (I am not sure if we are using it or not)</div></div></div></blockquote></div><div class="gmail_extra"><br></div>I don&#39;t know what that is. Here&#39;s what I&#39;ve been doing:</div><div class="gmail_extra"><br></div><div class="gmail_extra"><span style="font-size:12.8px">Depending on the &quot;weather&quot; on the test machine, you sometimes measure anomalies. So I&#39;m tracking the coefficient of variance from the sample population and purging anomalous results (1 sigma from max) when it exceeds 5%. This results in quite solid sample population where standard deviation is a meaningful value, that can be use in judging the significance of change between master and branch.</span><br></div><div class="gmail_extra"><br></div><div class="gmail_extra">--Pavol</div></div>