<font face="arial" size="2"><p style="margin:0;padding:0;">Simulate what you think is going on, or create a closed-form model.   If the phenomenon appears in the simulation, it will help you experiment with how to eliminate it.  If it does not, you need to understand why what you *think* is going on is not what is actually going on.</p>
<p style="margin:0;padding:0;"> </p>
<p style="margin:0;padding:0;">As I noted, 70 packet queues should not appear due to a simple overload.  What TCP does, from the 75,000 foot perspective, is try to aggressively move any queues that would build up inside the network back to the source buffer, by managing the window down whenever it sees a queue building.</p>
<p style="margin:0;padding:0;"> </p>
<p style="margin:0;padding:0;">That's why bufferbloat is so evil - it masks any signal about the buildup of queues until all the queues are full, and large queues take a *long* time to drain down to "empty".</p>
<p style="margin:0;padding:0;"> </p>
<p style="margin:0;padding:0;">The steady state of a low-latency network under *any* load (even overload) should be one where there are at most one packet queued on each outgoing link internal to the network.</p>
<p style="margin:0;padding:0;"> </p>
<p style="margin:0;padding:0;">[if you need to know why, imagine the opposite were true - then the internal queues make all the control loops very, very long, which makes the network oscillate unstably, with very large variance of latency.]</p>
<p style="margin:0;padding:0;"> </p>
<p style="margin:0;padding:0;">The purpose of queues is *only* to smooth short random bursts, such as might happen on a shared internal link due to occasional "collisions" of traffic from uncorrelated sources.</p>
<p style="margin:0;padding:0;"> </p>
<p style="margin:0;padding:0;">Unfortunately, a vast percentage of designers don't understand that.  Hence, we get bufferbloat - making the queues bigger and bigger, and eliminating any queue buildup signalling back to the source that is overloading the network.</p>
<p style="margin:0;padding:0;"> </p>
<p style="margin:0;padding:0;">I assume codel is supposed to fix that.  If it is letting queues internal to the net fill up, it is doing the wrong thing.</p>
<p style="margin:0;padding:0;"> </p>
<p style="margin:0;padding:0;">-----Original Message-----<br />From: "Jim Gettys" <jg@freedesktop.org><br />Sent: Wednesday, June 20, 2012 11:52am<br />To: "Jonathan Morton" <chromatix99@gmail.com><br />Cc: "codel@lists.bufferbloat.net" <codel@lists.bufferbloat.net>, "cerowrt-devel@lists.bufferbloat.net" <cerowrt-devel@lists.bufferbloat.net><br />Subject: Re: [Cerowrt-devel] [Codel] codel "oversteer"<br /><br /></p>
<div id="SafeStyles1340218351">
<p style="margin:0;padding:0;">On 06/20/2012 06:08 AM, Jonathan Morton wrote:<br />> Is the cwnd also oscillating wildly or is it just an artefact of the visible part of the queue only being a fraction of the real queue?<br />><br />> Are ACK packets being aggregated by wireless? That would be a good explanation for large bursts that flood the buffer, if the rwnd opens a lot suddenly. This would also be an argument that 2*n is too small for the ECN drop threshold. <br /><br />Yeah, I've been worrying about ack compression...  Not sure exactly what<br />we should be doing about it, as I don't fully understand it.<br /> - Jim<br /><br />><br />> The key to knowledge is not to rely on others to teach you it. <br />><br />> On 20 Jun 2012, at 04:32, Dave Taht <dave.taht@gmail.com> wrote:<br />><br />>> I've been forming a theory regarding codel behavior in some<br />>> pathological conditions. For the sake of developing the theory I'm<br />>> going to return to the original car analogy published here, and add a<br />>> new one - "oversteer".<br />>><br />>> Briefly:<br />>><br />>> If the underlying interface device driver is overbuffered, when the<br />>> packet backlog finally makes it into the qdisc layer, that bursts up<br />>> rapidly and codel rapidly ramps up it's drop strategy, which corrects<br />>> the problem, but we are back in a state where we are, as in the case<br />>> of an auto on ice, or a very loose connection to the steering wheel,<br />>> "oversteering" because codel is actually not measuring the entire<br />>> time-width of the queue and unable to control it well, even if it<br />>> could.<br />>><br />>> What I observe on wireless now with fq_codel under heavy load is<br />>> oscillation in the qdisc layer between 0 length queue and 70 or more<br />>> packets backlogged, a burst of drops when that happens, and far more<br />>> drops than ecn marks that I expected  (with the new (arbitrary) drop<br />>> ecn packets if > 2 * target idea I was fiddling with illustrating the<br />>> point better, now). It's difficult to gain further direct insight<br />>> without time and packet traces, and maybe exporting more data to<br />>> userspace, but this kind of explains a report I got privately on x86<br />>> (no ecn drop enabled), and the behavior of fq_codel on wireless on the<br />>> present version of cerowrt.<br />>><br />>> (I could always have inserted a bug, too, if it wasn't for the private<br />>> report and having to get on a plane shortly I wouldn't be posting this<br />>> now)<br />>><br />>> Further testing ideas (others!) could try would be:<br />>><br />>> Increase BQL's setting to over-large values on a BQL enabled interface<br />>> and see what happens<br />>> Test with an overbuffered ethernet interface in the first place<br />>> Improve the ns3 model to have an emulated network interface with<br />>> user-settable buffering<br />>><br />>> Assuming I'm right and others can reproduce this, this implies that<br />>> focusing much harder on BQL and overbuffering related issues on the<br />>> dozens? hundreds? of non-BQL enabled ethernet drivers is needed at<br />>> this point. And we already know that much more hard work on fixing<br />>> wifi is needed.<br />>><br />>> Despite this I'm generally pleased with the fq_codel results over<br />>> wireless I'm currently getting from today's build of cerowrt, and<br />>> certainly the BQL-enabled ethernet drivers I've worked with (ar71xx,<br />>> e1000) don't display this behavior, neither does soft rate limiting<br />>> using htb - instead achieving a steady state for the packet backlog,<br />>> accepting bursts, and otherwise being "nice".<br />>><br />>> -- <br />>> Dave Täht<br />>> SKYPE: davetaht<br />>> http://ronsravings.blogspot.com/<br />>> _______________________________________________<br />>> Codel mailing list<br />>> Codel@lists.bufferbloat.net<br />>> https://lists.bufferbloat.net/listinfo/codel<br />> _______________________________________________<br />> Codel mailing list<br />> Codel@lists.bufferbloat.net<br />> https://lists.bufferbloat.net/listinfo/codel<br /><br />_______________________________________________<br />Cerowrt-devel mailing list<br />Cerowrt-devel@lists.bufferbloat.net<br />https://lists.bufferbloat.net/listinfo/cerowrt-devel</p>
</div></font>