話がだいぶ錯綜しているのでどう手をつけていいのか難しいんですが、
とりあえず鴻池さんの以下の疑問に答える形で書いていきます。

In <c7i1pf$1hq$1@caraway.media.kyoto-u.ac.jp> kounoike@mbh.nifty.com wrote:
> 微分の定義を
> dy=y'dx 
> とした時,d(dx)=d^2x=(dx)'dxより
> d^2y=d(y'dx)dx=(y''dx+y'(dx)')dx=y''(dx)^2+y'd^2x
> となるのは,なんとなく分かるのですが,
> d^2x=d(Δx)=0 というのが,xに関係なくdx=Δxとなるからだと言われれば
> そうかなという気もしますが。さらに(dx)'もイメージし難いので,余計ピン
> とはきません。数式を追えばそうなんですが,分かった気にならないというか。

これ、きちんと説明しようとすると結構やっかいですね。
それに『解析概論』の説明の仕方が必ずしもいいとも思わない。

まず整理かたがた、少し準備を。
p.36-37 の導出では Δx や dy = f'(x)Δx が使われていますが、いったん:
  dy = f'(x) dx
が確立されたなら、改めてこれらに言及する必要はありません。
いわば工事の足場や鋳型のようなもので、完成の上は取り払われるものです。
別に言及してもかまわないのですが、直接 dy = f'(x)dx の上で話を
していってかまいません。実際、p.51 もそういうスタイルです。
 # と言いたいところなんですが、dx = Δx がチラッと出てきたりはします。

次に、(2変数関数の)全微分などは必要に応じて適宜参照します。
これは導出の一部に使うというのではなく、広い視点に立ったほうが
全体の見通しがよくなる、といったことによります。
例えば「積の微分公式」は、Leibniz 流に書けば
  d(uv) = vdu + udv
ですが、これは f(u,v) = uv に対する全微分と全く同じで、全微分の特別な場合と
考えることができます。さらに u = u(x), v = v(x) のように両者を x の
関数とすれば、両辺を dx で割ることにより、通常の積の公式:
  (u(x) v(x))' = v(x) u'(x) + u(x) v'(x)
が得られます。
 # この「dx で割る」というのが微分の代数的操作の一例です。
 # これについては後で(別便で)触れます。

特に2変数関数 f(x,y) において:
 ・f を x で偏微分する
 ・全微分 df = fx dx + fy dy で dy=0 とする
 ・y を定数と思って(y の値を固定して)x で(常)微分する
はいずれも結果としては同じ意味であること、「f を x で微分する」
というのは、あえて解釈すればその意味に解されることに注意しておきます。

======
さて。
示すべき目標は何かと言えば、
  d^2 y = f''(x) dx^2
ひいては:
  d^2 y/dx^2 = d(dy)/(dx)^2 = f''(x)
といった記法を合理化することにあります。
ここで「合理化する」というのは「先験的事実として証明する」とは違って、
ある条件・前提のもとで成り立つこと(意味を持つこと)を示すことです。
もっともその条件が天与のものとすれば「証明」と同じことで、
その境界は案外不分明です。

さて、dy = f'(x) dx は接線の方程式です。
正確に言えば、(x, f(x)) を原点とする dx-dy 座標系においての方程式です。
したがって x の変位 dx に対し、dy は接線の y (dy) 方向の変位です。
ここで dy は x, dx を独立変数とする関数と考えることができます。
つまり dy は x を変えれば(f'(x) の変化によって)変わりますし、
同じ x に対しても、dx の値を変えれば(正比例的に)変化します。

ここで d^2 y = d(dy) の導出は、『解析概論』と Y.N. さんらが書かれている
ものとは若干違っています。
 # ただし Y.N. 流も Δx ではなく、dx を使った書き方に直します。
『解析概論』ではまず、
  dy = f'(x) dx
の両辺の微分をとって:
  d(dy) = d(f'(x) dx)
とします。
 # 以前に M_SHIRAISHI さんは「A = B なら dA = dB」を無反省に使っていましたが、
 # それは微分の意味、特に独立変数 x に対する dx の意味が確立する前だからで、
 # 確立した上では自由に使えます。必要なら証明しておけばいいでしょう。
ここで右辺に(Leibniz 流の)積の公式を適用して:
  d(f'(x) dx) = d(f'(x)) dx + f'(x) d(dx)
とします。ここまでは機械的な変形です。その上で:
  d(f'(x)) = f''(x) dx
を代入することで:
  d(dy) = f''(x) (dx)^2 + f'(x) d(dx)
を得ています(式 (1))。
 # うるさいことを言うと、y = f(x) に対する df と dy とは意味合いが
 # 違っています。が、これについては別便で取り上げます。

一方 Y.N. 流は dy = f'(x) dx を直接微分するもので:
  d(dy) = (f'(x)dx)' dx = (f''(x) dx + f'(x) (dx)') dx
     = f''(x) (dx)^2 + f'(x) (dx)' dx
としています。
見かけは違っていますが、
  d(dx) = (dx)' dx
ですから、両者は同じことです(ただし考える視点が若干違います)。

ここで d^2 x = d(dx) = 0、同じことですが (dx)' = 0 とおけば
求める d^2 y = f''(x) dx^2 が得られます。
なぜそうおくのか(あるいはおけるのか)というのが鴻池さんの疑問ですよね?

それに対する最もドライな答えは「それが定義だから」というものです。
あるいは「x で微分するのだから、そのとき dx は固定して考えるのは当然」
というのもありえます。(上記の「言い換え」も参照)。
しかしこれだと禅問答めいていて、これで納得できちゃうならいいのですが、
これでは鴻池さんの疑問に答えたことにはならないと思います。
つまり「なぜ dx を固定するのか(してよいのか)」の理由が必要でしょう。
 # なお dx を固定するなら、(Y.N. さんも書かれていたと思いますが)
 # 積の公式を使うよりは、直接に:
 #   d(dy) = d(f'(x) dx) = d(f'(x))・dx = f''(x) (dx)^2
 # としたほうが簡単でしょう。

上の d^2y の導出を見ると奇妙な点に気づきます。
『解析概論』でも Y.N. 流でも同じですが、煎じ詰めて言えば:
  d(f(x)) = f'(x) dx
  d(f'(x)) = f''(x) dx
の2式において、右辺の dx が同じものである必然性はありません。
(同じとしているからこそ (dx)^2 という項が出てくるわけですが。)
なまじ同じ dx という記号を使っているだけに、両者が等しいものと
無条件に考えてしまいがちです。
 # これのもっと初歩的な間違いを M_SHIRAISHI さんが犯していました。
 # y = f(x) と y = x の2つの y を同じにとってしまう、というものです。

これは次のように言えばはっきりするでしょう。
y = f(x) に対して:
  (a)   dy = f'(x) dx
という微分式が成り立つわけですが、これとは別個に:
  (b)   k = f'(x) h
という関係を考えます。ここで h の値を固定すれば k は x の関数で、微分すると:
  (c)   dk = f''(x) h dx
が得られます。
このままでは h と dx は無関係ですが、ここで h = dx とおけば、
(b) 式の h に dx を代入したものと (a) 式を見比べて、k = dy になる、
したがって (c) 式は
  d(dy) = f''(x) (dx)^2
となります。
言い換えると、(c) 式の左辺の dk が d(dy) となるのは、h = dx とおいた場合です。

なお、ではこれが d^2y = f''(x) dx^2 の「証明」になっているかと言えば、
なっていません。「h を固定して」のところに問題点を移し変えているだけだからです。
ただ、これでその問題点がはっきりしてきました。

つまり「どの dx も同じものである」というのは、必然的に成り立つあるいは
導かれる結果ではなく、そうであることを我々が要請しているのです。
『解析概論』のここのところの言い回しは少し微妙です (p.51):
 「さて x が独立変数ならば、dx = Δx は x に関係なく自由に取れるのだから、
  d^2 x = d(Δx) = 0 として」
最後の「として」がクセモノです。これは「dx は x と独立だから、自動的に
d(dx) = 0 が成り立つ」と言っているのではなく、自由に取れるのだから
取り方は無数にある(M_SHIRAISHI 流だってそれに含まれる)、しかしここでは
d(dx) = 0 の場合を考える、と言っていると考えるべきでしょう。

改めて言えば、dy = f'(x) dx が与えられた文脈で、d^2 y(さらには d^3 y, ...)を
考えるに当たっては、共通の dx を使っていく、ということです。
だからこそ、その文脈内では dx は固定される、したがって d(dx) = 0 になります。
 # その点、(dx)^2 の項を先に取り出してしまってから d(dx)=0 を言うのは
 # 手順前後に思えます。

ではなぜ dx を共通にとりたいかと言えば、その背景には「近似」の観点があります。
つまり f(x+dx) を(x は所与として)dx の関数としてどう表されるかを考える、
ということです。
第0近似として定数近似 f(x+dx)〜f(x)、第1近似は接線: f(x+dx)〜f(x) + f'(x)dx
があり、以下同様にしてテーラー展開:
 f(x+dx) = f(x) + f'(x) dx + f''(x)/2! (dx)^2 + ... + f^(n)(x)/n! (dx)^n + ...
が生じます。これを:
 f(x+dx) = f(x) + d(f(x)) + d^2(f(x))/2! + ... + d^n(f(x))/n! + ...
という形式に結びつけたい、というのが根底の意図です。
 # この式は(2変数の場合について)p.65 に出てますね。

まとめると、d(dx)=0 というのは「高階の微分は共通の dx の文脈で考える」という
要請から得られます(最初にも言ったように、これを人為的な要請と考えるか、
天与の条件と考えるかは単なる立場の違いにすぎません)。

そして M_SHIRAISHI さんの Δx = x1 - x はそれを全く無視している点で
ナンセンスなのです。

=====
あと、Bourbaki と「再建」問題があるんだよね。これもちょっと手間だなあ。