<div dir="ltr"><blockquote style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex" class="gmail_quote">Sergey - I wasn't assuming anything about <a href="http://fast.com/" target="_blank">fast.com</a>. The document you shared wasn't clear about the methodology's details here. Others sadly, have actually used ICMP pings in the way I described. I was making a generic comment of concern.<br> <br>That said, it sounds like what you are doing is really helpful (esp. given that your measure is aimed at end user experiential qualities).</blockquote><div>David - my apologies, I incorrectly interpreted your statement as being said in context of <a href="http://fast.com">fast.com</a> measurements. The blog post linked indeed doesn't provide the latency measurement details - was written before we added the extra metrics. We'll see if we can publish an update. </div><div><br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><span style="font-family:arial;font-size:16px">1) a clear definition of lag under load that is from end-to-end in latency, and involves, ideally, independent traffic from multiple sources through the bottleneck.</span></blockquote><div> Curious if by multiple sources you mean multiple clients (devices) or multiple connections sending data? </div><div> <br></div><div><div dir="ltr" class="gmail_signature"><div dir="ltr"><div><div dir="ltr"><font size="1"><p dir="ltr" style="line-height:1.38;margin-top:0pt;margin-bottom:0pt"><span style="font-family:Arial;color:rgb(67,67,67);vertical-align:baseline;white-space:pre-wrap">SERGEY FEDOROV</span></p><p dir="ltr" style="line-height:1.38;margin-top:0pt;margin-bottom:0pt"><span style="font-family:Arial;color:rgb(102,102,102);vertical-align:baseline;white-space:pre-wrap">Director of Engineering</span></p><p style="line-height:1.38;margin-top:0pt;margin-bottom:0pt"><span style="font-family:Arial;color:rgb(102,102,102);vertical-align:baseline;white-space:pre-wrap"><a href="mailto:sfedorov@netflix.com" target="_blank">sfedorov@netflix.com</a></span></p><p style="line-height:1.38;margin-top:0pt;margin-bottom:0pt"><span style="font-family:Arial;color:rgb(102,102,102);vertical-align:baseline;white-space:pre-wrap">121 Albright Way  |  Los Gatos, CA 95032</span></p><span style="font-family:Arial;color:rgb(136,136,136);vertical-align:baseline;white-space:pre-wrap"><img src="https://lh6.googleusercontent.com/sXyXTYq5vF1C3sJhRzJIQ0iYROwE8E1e0R6RY9hhgBZDVe6fLjmy_Y0F6RsQskALepS5t1zXm9JcQg-HXYQDbLZ6NS0YBjA3oh7IlhrUnR38ttr667EWpXydNk6U1I7FLO3civYI" width="73" height="44" style="border: none;"></span></font></div></div></div></div></div><div><div dir="ltr" class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><div dir="ltr"><span><font size="1"><p dir="ltr" style="line-height:1.38;margin-top:0pt;margin-bottom:0pt"><br></p></font></span></div></div></div></div><br></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Sun, May 3, 2020 at 8:07 AM David P. Reed <<a href="mailto:dpreed@deepplum.com">dpreed@deepplum.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><font face="arial" size="3"><p style="margin:0px;padding:0px;font-family:arial;font-size:12pt">Thanks Sebastian. I do agree that in many cases, reflecting the ICMP off the entry device that has the external IP address for the NAT gets most of the RTT measure, and if there's no queueing built up in the NAT device, that's a reasonable measure. But...</p>
<p style="margin:0px;padding:0px;font-family:arial;font-size:12pt"> </p>
<p style="margin:0px;padding:0px;font-family:arial;font-size:12pt">However, if the router has "taken up the queueing delay" by rate limiting its uplink traffic to slightly less than the capacity (as with Cake and other TC shaping that isn't as good as cake), then there is a queue in the TC layer itself. This is what concerns me as a distortion in the measurement that can fool one into thinking the TC shaper is doing a good job, when in fact, lag under load may be quite high from inside the routed domain (the home).</p>
<p style="margin:0px;padding:0px;font-family:arial;font-size:12pt"> </p>
<p style="margin:0px;padding:0px;font-family:arial;font-size:12pt">As you point out this unmeasured queueing delay can also be a problem with WiFi inside the home. But it isn't limited to that.</p>
<p style="margin:0px;padding:0px;font-family:arial;font-size:12pt"> </p>
<p style="margin:0px;padding:0px;font-family:arial;font-size:12pt">A badly set up shaping/congestion management subsystem inside the NAT can look "very good" in its echo of ICMP packets, but be terrible in response time to trivial HTTP requests from inside, or equally terrible in twitch games and video conferencing.</p>
<p style="margin:0px;padding:0px;font-family:arial;font-size:12pt"> </p>
<p style="margin:0px;padding:0px;font-family:arial;font-size:12pt">So, for example, for tuning settings with "Cake" it is useless.</p>
<p style="margin:0px;padding:0px;font-family:arial;font-size:12pt"> </p>
<p style="margin:0px;padding:0px;font-family:arial;font-size:12pt">To be fair, usually the Access Provider has no control of what is done after the cable is terminated at the home, so as a way to decide if the provider is badly engineering its side, a ping from a server is a reasonable quality measure of the provider. </p>
<p style="margin:0px;padding:0px;font-family:arial;font-size:12pt"> </p>
<p style="margin:0px;padding:0px;font-family:arial;font-size:12pt">But not a good measure of the user experience, and if the provider provides the NAT box, even if it has a good shaper in it, like Cake or fq_codel, it will just confuse the user and create the opportunity for a "finger pointing" argument where neither side understands what is going on.</p>
<p style="margin:0px;padding:0px;font-family:arial;font-size:12pt"> </p>
<p style="margin:0px;padding:0px;font-family:arial;font-size:12pt">This is why we need </p>
<p style="margin:0px;padding:0px;font-family:arial;font-size:12pt"> </p>
<p style="margin:0px;padding:0px;font-family:arial;font-size:12pt">1) a clear definition of lag under load that is from end-to-end in latency, and involves, ideally, independent traffic from multiple sources through the bottleneck.</p>
<p style="margin:0px;padding:0px;font-family:arial;font-size:12pt"> </p>
<p style="margin:0px;padding:0px;font-family:arial;font-size:12pt">2) ideally, a better way to localize where the queues are building up and present that to users and access providers.  The flent graphs are not interpretable by most non-experts. What we need is a simple visualization of a sketch-map of the path (like traceroute might provide) with queueing delay measures  shown at key points that the user can understand.</p>
<p style="margin:0px;padding:0px;font-family:arial;font-size:12pt">On Saturday, May 2, 2020 4:19pm, "Sebastian Moeller" <<a href="mailto:moeller0@gmx.de" target="_blank">moeller0@gmx.de</a>> said:<br><br></p>
<div id="gmail-m_-6489686847968774554SafeStyles1588461883">
<p style="margin:0px;padding:0px;font-family:arial;font-size:12pt">> Hi David,<br>> <br>> in principle I agree, a NATed IPv4 ICMP probe will be at best reflected at the NAT<br>> router (CPE) (some commercial home gateways do not respond to ICMP echo requests<br>> in the name of security theatre). So it is pretty hard to measure the full end to<br>> end path in that configuration. I believe that IPv6 should make that<br>> easier/simpler in that NAT hopefully will be out of the path (but let's see what<br>> ingenuity ISPs will come up with).<br>> Then again, traditionally the relevant bottlenecks often are a) the internet<br>> access link itself and there the CPE is in a reasonable position as a reflector on<br>> the other side of the bottleneck as seen from an internet server, b) the home<br>> network between CPE and end-host, often with variable rate wifi, here I agree<br>> reflecting echos at the CPE hides part of the issue.<br>> <br>> <br>> <br>> > On May 2, 2020, at 19:38, David P. Reed <<a href="mailto:dpreed@deepplum.com" target="_blank">dpreed@deepplum.com</a>> wrote:<br>> ><br>> > I am still a bit worried about properly defining "latency under load" for a<br>> NAT routed situation. If the test is based on ICMP Ping packets *from the server*,<br>> it will NOT be measuring the full path latency, and if the potential congestion<br>> is in the uplink path from the access provider's residential box to the access<br>> provider's router/switch, it will NOT measure congestion caused by bufferbloat<br>> reliably on either side, since the bufferbloat will be outside the ICMP Ping<br>> path.<br>> <br>> Puzzled, as i believe it is going to be the residential box that will respond<br>> here, or will it be the AFTRs for CG-NAT that reflect the ICMP echo requests?<br>> <br>> ><br>> > I realize that a browser based speed test has to be basically run from the<br>> "server" end, because browsers are not that good at time measurement on a packet<br>> basis. However, there are ways to solve this and avoid the ICMP Ping issue, with a<br>> cooperative server.<br>> ><br>> > I once built a test that fixed this issue reasonably well. It carefully<br>> created a TCP based RTT measurement channel (over HTTP) that made the echo have to<br>> traverse the whole end-to-end path, which is the best and only way to accurately<br>> define lag under load from the user's perspective. The client end of an unloaded<br>> TCP connection can depend on TCP (properly prepared by getting it past slowstart)<br>> to generate a single packet response.<br>> ><br>> > This "TCP ping" is thus compatible with getting the end-to-end measurement on<br>> the server end of a true RTT.<br>> ><br>> > It's like tcp-traceroute tool, in that it tricks anyone in the middle boxes<br>> into thinking this is a real, serious packet, not an optional low priority<br>> packet.<br>> ><br>> > The same issue comes up with non-browser-based techniques for measuring true<br>> lag-under-load.<br>> ><br>> > Now as we move HTTP to QUIC, this actually gets easier to do.<br>> ><br>> > One other opportunity I haven't explored, but which is pregnant with<br>> potential is the use of WebRTC, which runs over UDP internally. Since JavaScript<br>> has direct access to create WebRTC connections (multiple ones), this makes<br>> detailed testing in the browser quite reasonable.<br>> ><br>> > And the time measurements can resolve well below 100 microseconds, if the JS<br>> is based on modern JIT compilation (Chrome, Firefox, Edge all compile to machine<br>> code speed if the code is restricted and in a loop). Then again, there is Web<br>> Assembly if you want to write C code that runs in the brower fast. WebAssembly is<br>> a low level language that compiles to machine code in the browser execution, and<br>> still has access to all the browser networking facilities.<br>> <br>> Mmmh, according to <a href="https://github.com/w3c/hr-time/issues/56" target="_blank">https://github.com/w3c/hr-time/issues/56</a> due to spectre<br>> side-channel vulnerabilities many browsers seemed to have lowered the timer<br>> resolution, but even the ~1ms resolution should be fine for typical RTTs.<br>> <br>> Best Regards<br>> Sebastian<br>> <br>> P.S.: I assume that I simply do not see/understand the full scope of the issue at<br>> hand yet.<br>> <br>> <br>> ><br>> > On Saturday, May 2, 2020 12:52pm, "Dave Taht" <<a href="mailto:dave.taht@gmail.com" target="_blank">dave.taht@gmail.com</a>><br>> said:<br>> ><br>> > > On Sat, May 2, 2020 at 9:37 AM Benjamin Cronce <<a href="mailto:bcronce@gmail.com" target="_blank">bcronce@gmail.com</a>><br>> wrote:<br>> > > ><br>> > > > > Fast.com reports my unloaded latency as 4ms, my loaded latency<br>> as ~7ms<br>> > ><br>> > > I guess one of my questions is that with a switch to BBR netflix is<br>> > > going to do pretty well. If <a href="http://fast.com" target="_blank">fast.com</a> is using bbr, well... that<br>> > > excludes much of the current side of the internet.<br>> > ><br>> > > > For download, I show 6ms unloaded and 6-7 loaded. But for upload<br>> the loaded<br>> > > shows as 7-8 and I see it blip upwards of 12ms. But I am no longer using<br>> any<br>> > > traffic shaping. Any anti-bufferbloat is from my ISP. A graph of the<br>> bloat would<br>> > > be nice.<br>> > ><br>> > > The tests do need to last a fairly long time.<br>> > ><br>> > > > On Sat, May 2, 2020 at 9:51 AM Jannie Hanekom<br>> <<a href="mailto:jannie@hanekom.net" target="_blank">jannie@hanekom.net</a>><br>> > > wrote:<br>> > > >><br>> > > >> Michael Richardson <<a href="mailto:mcr@sandelman.ca" target="_blank">mcr@sandelman.ca</a>>:<br>> > > >> > Does it find/use my nearest Netflix cache?<br>> > > >><br>> > > >> Thankfully, it appears so. The DSLReports bloat test was<br>> interesting,<br>> > > but<br>> > > >> the jitter on the ~240ms base latency from South Africa (and<br>> other parts<br>> > > of<br>> > > >> the world) was significant enough that the figures returned<br>> were often<br>> > > >> unreliable and largely unusable - at least in my experience.<br>> > > >><br>> > > >> Fast.com reports my unloaded latency as 4ms, my loaded latency<br>> as ~7ms<br>> > > and<br>> > > >> mentions servers located in local cities. I finally have a test<br>> I can<br>> > > share<br>> > > >> with local non-technical people!<br>> > > >><br>> > > >> (Agreed, upload test would be nice, but this is a huge step<br>> forward from<br>> > > >> what I had access to before.)<br>> > > >><br>> > > >> Jannie Hanekom<br>> > > >><br>> > > >> _______________________________________________<br>> > > >> Cake mailing list<br>> > > >> <a href="mailto:Cake@lists.bufferbloat.net" target="_blank">Cake@lists.bufferbloat.net</a><br>> > > >> <a href="https://lists.bufferbloat.net/listinfo/cake" target="_blank">https://lists.bufferbloat.net/listinfo/cake</a><br>> > > ><br>> > > > _______________________________________________<br>> > > > Cake mailing list<br>> > > > <a href="mailto:Cake@lists.bufferbloat.net" target="_blank">Cake@lists.bufferbloat.net</a><br>> > > > <a href="https://lists.bufferbloat.net/listinfo/cake" target="_blank">https://lists.bufferbloat.net/listinfo/cake</a><br>> > ><br>> > ><br>> > ><br>> > > --<br>> > > Make Music, Not War<br>> > ><br>> > > Dave Täht<br>> > > CTO, TekLibre, LLC<br>> > > <a href="http://www.teklibre.com" target="_blank">http://www.teklibre.com</a><br>> > > Tel: 1-831-435-0729<br>> > > _______________________________________________<br>> > > Cake mailing list<br>> > > <a href="mailto:Cake@lists.bufferbloat.net" target="_blank">Cake@lists.bufferbloat.net</a><br>> > > <a href="https://lists.bufferbloat.net/listinfo/cake" target="_blank">https://lists.bufferbloat.net/listinfo/cake</a><br>> > ><br>> > _______________________________________________<br>> > Cake mailing list<br>> > <a href="mailto:Cake@lists.bufferbloat.net" target="_blank">Cake@lists.bufferbloat.net</a><br>> > <a href="https://lists.bufferbloat.net/listinfo/cake" target="_blank">https://lists.bufferbloat.net/listinfo/cake</a><br>> <br>></p>
</div>
<p style="margin:0px;padding:0px;font-family:arial;font-size:12pt"> </p></font></blockquote></div>