<div dir="ltr">Internally, we have telemetry as packets move through the end/end logic subsystems.  A python controller receives all the telemetry from separate netlink sockets.  It also maps all the time domains, e.g., TSF, into the GPS time domain.  Then one can see exactly where packets are at any moment in time.  We also produce stacked bar plots for each packet latency after it moves from end.  Then produce clusters from there as there are millions of packets.  Typically our main goal is to show our customers we're not the problem and show that it's either their os/stack or air time, things we don't control. (I argue we have more control over EDCA then we'd admit, late bindings, e.g. MCS rate selection, etc., and per packet adaptive EDCAs seem interesting)<br><br>This type of WiFi network telemetry isn't supported outside of internal tools.  There is some movement towards inserting network telemetry inside TCP headers but not much. I believe SDN guys use it inside of data centers.  If it's useful, adding it to open source tooling might be doable though I'd need to do some thinking about the technical details a bit.  A first obstacle is figuring out a common time domain or how to provide sufficient information without one.<br><br>Something like this could help drive ECN type features - not sure.  The network engineering teams are so silo'd both within orgs and across companies it's hard to truly optimize end/end problems.  The OSI layering model tends to get in the way too, at least from an eng silo'ing perspective. <div><br>Bob</div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Wed, Feb 12, 2020 at 5:56 PM David P. Reed <<a href="mailto:dpreed@deepplum.com">dpreed@deepplum.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">I know this is hard to measure, in general. Especially to isolate the issue because it combines packet scheduling, the AP's own activity, and the insertion of excess buffering in each device's hardware and driver software. <br>
<br>
However, what I'm looking for is evidence that helps locate the problem, which of course is a "distributed scheduling and buffering" problem, unlike the simple bufferbloat we all saw in the CMTS's of DOCSIS 2.0,, ALU's LTE deployments in the early days of 4G (at ATT Wireless), or the overbuffering in Arista Networks's switches, which were quite simple to measure and diagnose.<br>
<br>
On Wednesday, February 12, 2020 7:36pm, "Bob McMahon" <<a href="mailto:bob.mcmahon@broadcom.com" target="_blank">bob.mcmahon@broadcom.com</a>> said:<br>
<br>
> hmm, not sure if this helps but "excess queueing" can be hard to define.<br>
> <br>
> Do you know the operating systems for the WiFi devices and if tooling can<br>
> be loaded upon them?  iperf clients samples RTT and CWND for linux<br>
> machines. Iperf 2.0.14 (in development) has a lot of latency related<br>
> features<br>
> <br>
> Also, if there is control over the AIFS one can set that for the high rates<br>
> devices such that they always win and the lower rate ones always lose.  If<br>
> that solves things it does suggest WiFi tx queues developing per the TXOP<br>
> arbitration and air transmission as an issue.  Standard cwmin/cwmax isn't<br>
> as effective though it won't allow high rates to starve low rates devices<br>
> as AIFS might (depending upon the values)<br>
> <br>
> I use latency to measure the performance and define bounds that way and<br>
> it's very specific to use cases.  IT does require clock sync. My devices<br>
> have GPS disciplined oscillators which aren't common.<br>
> <br>
> As an aside, the HULL approach of phantom queues looks interesting.<br>
> <a href="https://people.csail.mit.edu/alizadeh/papers/hull-nsdi12.pdf" rel="noreferrer" target="_blank">https://people.csail.mit.edu/alizadeh/papers/hull-nsdi12.pdf</a><br>
> <br>
> Bob<br>
> <br>
> On Wed, Feb 12, 2020 at 4:08 PM David P. Reed <<a href="mailto:dpreed@deepplum.com" target="_blank">dpreed@deepplum.com</a>> wrote:<br>
> <br>
>> A friend of mine (not a network expert, but a gadget freak), has been<br>
>> deploying wireless security cameras at his home and vacation home. He uses<br>
>> a single WiFi AP in each place, serving the security cameras etc.<br>
>><br>
>> What he observes is this:<br>
>><br>
>> Whenever anyone on a laptop in one of the homes uploads a modest sized<br>
>> file (over the same WiFi) the security systems all lose data.<br>
>><br>
>> Now I can't go to his home to diagnose this, but I've asked him to check<br>
>> out his cable bufferbloat using dslreports, and he gets no bufferbloat<br>
>> there. But it sure looks like *severe* lag under load is affecting the<br>
>> security camera feed to the cloud servers that the company that sells the<br>
>> security cameras provides.<br>
>><br>
>> So, is there a way to simply *diagnose* the WiFi air link for excess<br>
>> queueing in all the high rate WiFi devices? Something a non-net-head could<br>
>> do?<br>
>><br>
>> The situation around congestion control in the industry continues to<br>
>> royally suck, in my opinion. The vendors don't care, the ISPs don't care<br>
>> (they can sell a higher speed connection than is actually needed and<br>
>> super-fabulous MIMO gadgets that still don't quite solve the problem).<br>
>><br>
>> I'm an old guy, basically retired. I'm sad because the young folks remain<br>
>> clueless.<br>
>><br>
>> And it's been decades since bufferbloat was discuvered, and the basic<br>
>> issue of congestion signalling being needed. I'm sure 5G (whatever it<br>
>> really is) is not paying attention to this network level congestion issue...<br>
>><br>
>> _______________________________________________<br>
>> Make-wifi-fast mailing list<br>
>> <a href="mailto:Make-wifi-fast@lists.bufferbloat.net" target="_blank">Make-wifi-fast@lists.bufferbloat.net</a><br>
>> <a href="https://lists.bufferbloat.net/listinfo/make-wifi-fast" rel="noreferrer" target="_blank">https://lists.bufferbloat.net/listinfo/make-wifi-fast</a><br>
> <br>
<br>
<br>
</blockquote></div>