<div dir="ltr"><div class="gmail_extra"><br><div class="gmail_quote">On Thu, May 5, 2016 at 2:30 PM, Toke Høiland-Jørgensen <span dir="ltr"><<a href="mailto:toke@toke.dk" target="_blank">toke@toke.dk</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex"><span class="">Dave Taht <<a href="mailto:dave.taht@gmail.com">dave.taht@gmail.com</a>> writes:<br>
<br>
> On Thu, May 5, 2016 at 10:05 AM, Aaron Wood <<a href="mailto:woody77@gmail.com">woody77@gmail.com</a>> wrote:<br>
>> I think you might be mis-reading the box-plots as error-bars (since their<br>
>> quartile plots).  I'll need to crunch the numbers, but I'm pretty sure that<br>
>> the fq results are going to show a higher median throughput (and lower<br>
>> median latency), with a fair bit of significance.  I'll see if I can figure<br>
>> out how to calculate the SD of the mean (and other quartiles) from the flent<br>
>> output (I have scripts that can do this for iperf3's json output).<br>
><br>
> Thanks in advance!!!<br>
><br>
> I hate box plots honestly. They often lie. I'd rather look at a<br>
> detailed time series first, and the box plot *only* after I verified<br>
> that that was sane. And I'm not good at reading box plots right!<br>
<br>
</span>Also note that a box plot of a single test will show you "error bars"<br>
which are really computed from the samples of the single flow; so they<br>
are not independent samples, and so care should be taken when<br>
interpreting them.<br></blockquote><div><br></div><div>Not "error-bars", which imply the Standard Error (of the mean), but a box-and-whisker which shows the 5-number summary (quartiles), which is quite different (SEM should be much narrower than the inter-quartile range).</div><div><br></div><div>For instance, in the data that Dave has here, I computed:</div><div><br></div><div>run         mean bw    Std Err Mean</div><div>CT_10_1   95.3   1.06</div><div>CT_10_1   91.0   1.14</div><div>CT_10_1   102.0   1.21</div><div>CT_10_1_fq   109.0   0.78</div><div><br></div><div>OTOH, these runs are picking enough "other" noise that it's clear that the computed SEM isn't true (given that three runs of the same setup each have means that are way too far apart).</div><div><br></div><div>And further, using tools built around gaussian distributions on something that most definitely is not doesn't help make it any clearer.</div><div><br></div><div>-Aaron</div></div></div></div>