20000917

雨雲が迫ってきているので速攻で脱出． 10:24 の武蔵野快速で東京，例の券売機で 12:16 のあさひ 319 の切符を買い，そのまま途中下車，食事をしたあと秋葉原まで行き途中下車，本(固くない)を買って上野から乗車．東北新幹線への雨の影響にひきずられて 5分遅れで発車したが，浦佐までに回復していた．家には 14:30 頃着．

Sの氏が意図的に控え目に書いているようなので私は身も盖もない書き方をすると，f をロスレス(つまり100%復元できるタイプの)圧縮函数だとして，高々 n ビットで表現できるデータ全体 (全部で 2^n 種類ですね)のうち，k 種類のデータ x_1,...,x_k が f で 1 ビットでも縮むとすれば，k は全体の半分 2^{n-1} を越えられません： 100%復元ですから，f(x_1),...,f(x_k) は互いに異なりますが，どれも 1 ビットはちぢんでいると仮定するとこれらのどれもが高々 n-1 ビットで表現されて，個数は高々 2^{n-1} 個です．圧縮率と圧縮される範囲とにはこのようにトレードオフがあります．ウラを返していえば極端な話，固定のサンプルデータ1個に対して圧倒的な性能を誇りたければ，それを 1 ビットの 0 に符号化し，他のデータは 1 ビットの 1 の後ろに元データをくっつければ良いともいえる... まあ，記事のアルゴリズムは多分もっとリーズナブルなもので，圧縮率約 60% だという話は標準画像かなんかを実際やってみたのではないかと思います． (でもトレーニングデータにその画像入ってるかも，笑) それにしても 2^n 通りのデータのうちそこまでちぢむのは頑張っても 2^{0.6n} くらいで，一様ランダムにもってきたデータが 60%以上ちぢむ確率は 2^{-0.4n} を越えず，n を大きくしていくとどんどんゼロに近付きます(笑)．もっとも，われわれが普段エンカウントするデータは一様ランダムからは程遠いので，compress でも gzip でもだいたいちぢむわけですが...

科学技術関連の新聞記事で正確な内容を伝えることは，書き手が100%事情を理解していたとしても紙数(情報量か，笑) や表現手段(いきなり式を書いても読者にうけいれられない)の制約から難しいものがありますが，この話(元記事を読んでないけど)鵜呑み疑惑があるなあ(笑)．もしかして素因数分解と等価な暗号が発表される度に「解読不能な暗号開発」とか書いてるとか(←憶測)．そうだとしたら，せめて◯スポみたいに小さく「か？」を付けるのが良心かと(爆)

Sの氏の3番目のパラグラフの問題は難し過ぎで，私的には時間空間が量子化されているか否かは「どっちもありうる」ぐらいしか思えない．

http://www.st.rim.or.jp/~donogo/2000/09/17.html