20000917


雨雲が迫ってきているので速攻で脱出. 10:24 の武蔵野快速で東京,例の券売機で 12:16 のあさひ 319 の切符を 買い,そのまま途中下車,食事をしたあと秋葉原まで行き途中下車, 本(固くない)を買って上野から乗車.東北新幹線への雨の影響にひきずられて 5分遅れで発車したが,浦佐までに回復していた.家には 14:30 頃着.

Sの氏が意図的に控え目に書いている ようなので私は身も盖もない書き方をすると,f をロスレス(つまり100%復元 できるタイプの)圧縮函数だとして,高々 n ビットで表現できるデータ全体 (全部で 2^n 種類ですね)のうち,k 種類のデータ x_1,...,x_k が f で 1 ビットでも縮むとすれば,k は 全体の半分 2^{n-1} を越えられません: 100%復元 ですから,f(x_1),...,f(x_k) は互いに異なりますが, どれも 1 ビットはちぢんでいると仮定するとこれらのどれもが 高々 n-1 ビット で表現されて,個数は高々 2^{n-1} 個です. 圧縮率と圧縮される範囲とにはこのようにトレードオフがあります. ウラを返していえば極端な話, 固定のサンプルデータ1個に対して圧倒的な性能を誇りたければ, それを 1 ビットの 0 に符号化し,他のデータは 1 ビットの 1 の後ろに元データを くっつければ良いともいえる... まあ,記事のアルゴリズムは多分もっとリーズナブルなもので, 圧縮率約 60% だという話は 標準画像かなんかを実際やってみたのではないかと思います. (でもトレーニングデータにその画像入ってるかも,笑) それにしても 2^n 通りのデータのうちそこまでちぢむのは頑張っても 2^{0.6n} くらいで,一様ランダムにもってきたデータが 60%以上 ちぢむ 確率は 2^{-0.4n} を越えず,n を大きくしていくとどんどんゼロに 近付きます(笑).もっとも,われわれが普段エンカウントするデータは 一様ランダムからは程遠いので,compress でも gzip でもだいたい ちぢむわけですが...

科学技術関連の新聞記事で正確な内容を伝えることは, 書き手が100%事情を理解していたとしても紙数(情報量か,笑) や表現手段(いきなり式を書いても読者にうけいれられない)の制約から 難しいものがありますが,この話(元記事を読んでないけど)鵜呑み疑惑が あるなあ(笑).もしかして素因数分解と等価な暗号が発表される度に 「解読不能な暗号開発」とか書いてるとか(←憶測).そうだとしたら, せめて◯スポみたいに小さく「か?」を付けるのが良心かと(爆)

Sの氏の3番目のパラグラフの問題は難し過ぎで,私的には時間空間が 量子化されているか否かは「どっちもありうる」ぐらいしか思えない.


http://www.st.rim.or.jp/~donogo/2000/09/17.html