雪降った昨日と変わって今日は晴れ
条件を変えて実験を行い, 異なる結果が得られたとする. 平均値は確かに違うんだけど, データにバラツキが多いから差があるのかどうかの判断が微妙だなぁ, というときの検定をしてみたい
使うのは 前回 と同じ t.test
. 例えば rnorm()
で発生させた 2 組の正規分布の乱数について検定するなら, こんなふうにする
> t.test(rnorm(10, 0, 1), rnorm(10, 0, 1), alternative="two.sided")
Welch Two Sample t-test
data: rnorm(10, 0, 1) and rnorm(10, 0, 1)
t = -0.3423, df = 16.874, p-value = 0.7363
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-1.1010737 0.7938147sample estimates:
mean of x mean of y
-0.02713629 0.12649316
これは, 帰無仮説 ; 2 つの母集団の平均値が等しい, 対立仮説 ; 2 つの母集団の平均値が等しくない, についての検定である. p 値が 0.7363 で, 有意水準 1% で有意なので, 帰無仮説は棄却できない. つまり 2 つの母集団の平均値は等しいと考えてよさそうだ, となる
さて, 今度は標準偏差は 1 で等しいが平均値が 0 と 1 で異なる 2 組の正規分布の乱数について, 同じことをしてみる
> res = t.test(rnorm(10, 0, 1), rnorm(10, 1, 1), alternative="two.sided")
> res$p.value
[1] 0.02576583
p 値が 0.0258 と, 微妙な結果が得られた (微妙な結果をわざと示したのだが). 有意水準 5% なら帰無仮説は棄却され, 平均値は違いそうだということになる. しかし有意水準 1% なら帰無仮説は棄却できず, 平均値が等しいようにも判断できる. これは平均値の差に比べて標準偏差が小さくなく, またデータ数 (今は 10) が十分ではないことに起因する. これを回避するには, 標準偏差 (=データのばらつき) の割に平均値差が小さいデータにおいては, データ数を増やさなければならないということになるだろう
では具体的にどれだけのデータ数があれば良いのか, 実験してみた (ソース)
検定に使う 1 つ目の正規分布の乱数は, 平均が 0, 標準偏差が 1 とした. そして 2 つ目は, 標準偏差は 1 で同じだが, 平均を 0.1 から 10 まで変えた. これがグラフに描かれた各ラインに対応する. そして横軸はデータ数であり, 縦軸は 100 回検定を行って p 値が 5% を下回った (= つまり平均値が異なると判断された) 割合である. 例えば紫色の上向き三角で描かれた「平均 = 5 」のラインでは, データ数 = 5 で 1 に達している. このことから, 平均値差が分散の 5 倍くらいある母集団であれば, 有意水準を 5% で考えるならデータ数 = 5 の実験をすれば良かろうということになる. 同様に平均値差と分散が同程度 (青ライン) なら, データ数は 50 程度でないと危険となる
ただ現実問題としてデータ数が少ない場合, 有意水準が 5% というのはちょっと厳しいような気もする. もし有意水準を 10% とするなら, 結果はこんな感じになる
平均値差が標準偏差の 2 倍のとき (水色) で, 十分なデータ数が 10. これくらいで実験をやりたいですねぇ (いいのか?)
ところで, グラフもようやく凡例を出せるようになったのだが, グラフ中で黄色でプロットされているラインの凡例がなぜか黒色で出ている. 今後の課題だ
私のケータイは三菱製の J-D04 という機種で, J-Phone 時代から使い続けている代物. カラー液晶だけとカメラが付いてない, ストレートタイプ. 当時, 500 円くらいで買ったのではないか?
今日, 電気屋でケータイを見ていたら, Softbank のケータイって 1 回払いで購入すると 4 万円以上もすることを知った. 毎日持ち歩いて, 胸ポケットに入れるからしょっちゅう落としたり, 夏なんかは汗が付いたりする代物が, 4 万円以上もするなんて. Softbank の場合は, それを 24 回ローンにして, さらに料金コースによっては割引を組み合わせることによって, 本体価格が目立たないようにしているわけなのだが, 普段持ち歩くものが 4 万円というと少し身構えてしまう
今朝の日経新聞に, SIM ロックフリーなケータイに関する記事が出ていた. せっかく高いお金を出して買ったケータイでも, 通信会社を買えるときにはケータイごと買い替えないといけないのは, だいぶもったいない. それに SIM ロックフリーになれば海外の安いケータイも選択肢に入ってくるわけで, 私のような人間は歓迎だ
運動不足解消を狙って, 朝起きてから, 少し走ってみた. 途中に休憩を挟んで, トータルで 20 分くらい. 汗をかくまえに息が上がってしまい, さらには夜くらいには内股に筋肉痛の兆候が (;_;) これまでの運動不足を実感
仕事より移動が長い出張日
ソニーの社員 (元社員) の証言を通じて, ソニーの気質を浮かびあがらせようとした本. 発売された時期 (90 年代後半) を意識しないと読み違えてしまうので要注意だが, 小型のラジオやテレビ, ウォークマンを作った当事者の証言であり, 含蓄ある言葉が多く, ためになった
ただ気になったのは, 大賀さんの考え. CD のフォーマットを考え, その先に MD を開発したのだが, 「MD は CD より音質がある程度悪くなければならない」と言っている. これは, 自分が携わった CD のフォーマットとレコード会社の CBS・ソニーのことが頭にあっての考えだと思うが, こういう「発想の縛り」が, Apple に iTunes Music Store と iPod のような旧来とは異なるビジネスの独走を許してしまったのではないかと, ふと思った. 一方で違う人は, 「新しい技術は, 必ず次の技術によって置き換わる宿命を持っている. それをまた, 自分の手でやってこそ, 技術者冥利に尽きる」と言っているのだが…
本書全体の欠点として, 内容がソニーの社員 (元社員) の言いっ放しであって, 批判的な視点が欠けている点がある. 筆者にその役を担って欲しかったと思うが, 筆者は黒子に徹していて, 前書以外には自分の意見がない. 読者が頭を使うチャンスと考えて読むと, 良いと思った
<%=bk1 "4094161112" %>
気合い入れて見るつもりは無かったのだが, テレビを点けて明日の準備などをしていたら, 結局全部見てしまった. 実はアメリカには多数の宇宙人が住んでいるのだが, 質の悪い宇宙人が, 別の宇宙人が持つ「ギャラクシー」を探して暴れ回るが, それを阻止するために MIB という組織の人間が活躍するという話
見ていて割と面白かったのだが, 分からなかったのが「ギャラクシー」なるもの. 日本語の吹替えでは素直に「銀河」と翻訳されていたそれは, 他人の目を欺くために猫の首にぶら下げられるくらいの小ささなのだが, それが一体何なのかがさっぱり分からず, 不満
最近の缶コーヒー BOSS の CM は, MIB をベースにしたものですな
本日は休みを取って 4 連休
2/12 (月, 祝) に, 会社で卓球をしてきた. いつもと同じようなコメントだが, 2 か月ぶりの割には, 調子が良かった感じがした
印象深かったのは, 明らかに私より強い相手との 7 セットマッチの 4 セット目. セットカウント 0-3 で迎えた 4 セット目だったのだが, ちょっと調子が良く, 10-10 のジュースになった. 滅多なことでは 1 セットも取れない相手だったので, これはチャンスと思い, とても試合に集中できた. 結局は 17-19 で負けてしまったのだが, この集中力を試合の最初から出していれば全体としてはもう少し良い試合ができたかもしれない
相手との勝ち負けという相対的な結果で自分のレベルが決まる場合, 適切な相手がいないと自分のレベルが分からない. 仮にもの凄く強い人がいたとしても, 相手が素人しかいなければ, その人の真のレベルというのは分からないのだ
今回, 私がたまたま強い人と競ることができたことで, 自分が最大限頑張ればここまで行けそうという目標レベルを幸いにも上げることができた. そこに実際に到達するためには, やはり地道に練習を重ねるしかないのだろうけど, 次の試合もほとんど練習なしで臨んでしまうんだろうなぁ… (--;
夫が古い石の器を拾って来てから, 夫の様子が変わっていった. 不審に思った妻が夫の後をつけてみると, 夫の体から巨大な虫が出てくるところを目撃してしまう. 妻は夫に住みついた虫を退治するために「虫送り」をしようとするが, 自分にも虫が住みついていて, 自身に火が放たれてしまう
昔と今を行き来する, 坂東眞砂子らしい作品と言えるが, 体から虫が出てくるなどビジュアル的に凝り過ぎているような気がして, かえって恐さが減じてしまったような気がする. ただ, 恐いというよりも不思議な感じを受けたのは, 最後に書かれていた夫の視点. 夫は夫で, 自分自身は普通であり, 妻が変わってしまったと捉えている. 夫と妻の思いのギャップに, いい意味で不思議な感じを抱いた
<%=bk1 "4041932017" %>
「リング」, 「らせん」, 「ループ」の完結編となる 3 作の中篇が納められている. 「ループ」後の話である「ハッピー・バースデイ」が特に印象に残った
二見馨が「ループ」へと消えていった後, 杉浦礼子は「ループ」での馨の働きに勇気付けられつつ, 最後に馨の子を出産する. ただ「ループ」へと入り込んだ馨のことを説明する研究者の天野は, 馨の全情報を「ループ」内で再現しているので, 馨はこちらの世界の記憶を「ループ」に持っていっていると説明していた. ある一瞬の全情報を確定できれば, それの過去は全て一意に定まるのか? 物語の設定とはいえ, 興味津々な指摘である
私は一連の「リング」シリーズのうち, 「リング」と「らせん」は映画で観, 「ループ」は本で読んだ. 例えば高山竜司は, 映画では数学者だったはずだが, 本ではどうやら論理学者のようだ. 微妙に本と映画が違っているようなので, 「リング」や「らせん」も本で復習しておきたい
<%=bk1 "4041880076" %>
夫の視点から, 妻や子がいる状況で起こる, 一般人に取っては理不尽な出来事を描いた短篇を納めた本. 例えそれが理不尽であっても, 逃げずに立ち向かって行く夫の姿勢は, 多分, 鈴木の思考回路を反映したものなのだろう
この本の方向性を端的に示しているのは, 鈴木があとがきにも記している通り「紙おむつとレーサーレプリカ」だが, 一番面白かったのは「闇のむこう」か. 突然始まったイタズラ電話が, 引越先の新しい電話にもかかってくる. 夫はその原因を探り, 自らの手でそれに対処するが, その対処法に正義のヒーロー的な要素はない. そのあたりに, かえってリアルさを感じた
<%=bk1 "4877285806" %>
3 日前の土曜日, 夕食を食べに出かけたら, メニューに「クジラのハリハリ鍋」というのがあったので注文してみた. 鍋に入っていた肉は 2 種類で, 普通の肉とレバーだと思う. どちらも鶏肉を少しこってりさせた感じの肉で, おいしゅうございました
私はまだ給食にクジラの竜田揚げが出ていた世代なのだが, それでもクジラを食べたのは小学生以来かも
ちなみに隣のテーブルでも, 向こうのテーブルでも, クジラのハリハリ鍋を注文してました
本日も走ってきました海のほう
グラフにすると, 何となく直線関係になるデータというのは多い. ただ, 本当に直線関係か否かということを考えるとき, 相関係数だけで判断することが良くある. でも, それで良いのか? ということで単回帰の検定をやってみる
直線関係っぽいデータの例として, 身長と体重を考えてみた. 一般的に身長が高い人ほど体重が重いと思うのだが, 太り過ぎの人もいれば痩せ過ぎもいる. なので, 身長と体重は直線関係といって良いのか考えてみる
データは, 吉本興業 のページに記載されている芸人さんの身長と体重を適当に選んで作成した (ソース, データ)
ソース の前半では, データ とその近似直線がプロットされる
何となく直線っぽく見える. ちなみに上の方に大きく外れているのが三瓶, 左下にある 3 点は岡村隆史とカラテカのお 2 人
2 つ目の画像は, 直線への当てはめ状況を表す 4 つのグラフである
左上は, 残差 (実際の値 - 予測値, residuals) と予測値 (fitted values) のプロット. 残差は標準偏差 10.93 (この値は後述) の正規分布に従うはずで, 中心から離れ過ぎの値 (No.7, 8, 16) が示されている. またこのプロットが弧を描いているようにも見えるので, 線形近似できるという前提が間違っている可能性もある
右上は残差の正規 Q-Q プロット. 一直線に乗っていれば, 残差は正規分布に従っていると判断できる. ここでも, 正規分布から外れていそうな No.7, 8, 16 が表示されている
左下は, 標準化された残差の平方根と予測値の関係をプロットしたもの
右下は Cook の距離という, 1 つのデータの影響度をプロットしたもの. No.7, 8 で値が大きくなっているようだ
最後に出力の一部を示す
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -88.6646 63.0593 -1.406 0.182
height 0.8918 0.3692 2.415 0.030 *
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 10.93 on 14 degrees of freedom
Multiple R-Squared: 0.2941, Adjusted R-squared: 0.2437
F-statistic: 5.834 on 1 and 14 DF, p-value: 0.02998
最初の係数 (Coefficients) のところでは, y 切片 (Intercept) と傾き (Height) がそれぞれ 0 であるという帰無仮説に対する検定をしたときの p 値を調べている. y 切片の p 値は 0.182 と大きいが, 傾きの p 値は 0.030 であり 5% 有意である
次に Residual standard error: 10.93 とあるが, これが残差の標準偏差である
その次に相関係数 R^2 があるが, この値は 0.2941 と小さい. 傾きの p 値からすると身長と体重には関係がありそうなのだが, 先ほどの残差 vs 予測値のグラフの傾向をみると, 線形で近似することに問題があるのかもしれない (もちろん, データが恣意的であることも影響していると思うが)
よく使う 1 次式への当てはめも, その「当てはまり具合」の確かめ方を知らないと判断を誤る恐れがある. きちんとしていきたいものである
そういえば VineLinux 4.0 に上げてから 1 度も cdrecord を使ったことがなかったのだが, 今日使ってみたら何となく様子が違う. いろいろ調べてみたら, カーネル 2.4 までは必要だった IDE の SCSI エミュレーションが, 2.6 では不要になっていた
Grub の起動オプションの ide-scsi
を消し, 再起動. cdrecord のオプションで dev=ATAPI:0,0,0
などとすれば OK
ちなみに様子が違ったのはメディアが悪かったみたいで, -force blank=all
したら復活したみたい
雨が降り会社を休み家に居り
昨晩, 偶然 VineLinux が 4.1 へ version up したことを知ったので, その日のうちに upgrade してしまった. ミーハー?
$ cat /etc/vine-release
Vine Linux 4.1 (Cos d'Estournel)
Emacs などの version が上がったようだが, 再起動しても外見は特に何の変化もない
近所に梅の有名なところがあり, ちょっと見てきた
入場料 500 円なのだが, 外からでも十分
毎週金曜日に NHK 教育で放送している おでんくん, 冬休みに 2 時間スペシャルみたいなのを見てから気になって, 今日はリアルタイムで見てみた. 7 分だと, 少し物足りない
これは, 最近 UFO キャッチャで取ったおでんくん. 投資金額 300 円也
近所の洋菓子店へ行った. その店へ行くのは初めてだったのだが, 店へ入ると, サービスということで, 試食用に小さく切った数種類のお菓子と紅茶を出された. 買おうと思っていたのは広告で見かけたシュークリーム 100 円× 2 個だったのだが, こんだけサービスしてもらったのに 210 円しか払わないのは悪いかなぁと思いつつも, 210 円だけ払って店を出た
最初に相手に良いことをしてもらうと, それに恩を感じ, こちらも何かしなければならないような気にさせられてしまう. 今回は初めから買う物を決めて行ったので余計なものは買わなかったが, 例えば贈答用とかで大まかな予算しか決めていないような場合, ひょっとしたら奮発してしまったかもしれない
そんな打算的なことを考えなくても, 相手に何かしてもらおうと思ったら自分から相手に何かする, というのが基本かもしれない
思い立ち車を飛ばして伊勢参り
ふと思い立ち, 伊勢神宮へ行ってきた. 伊勢自動車道を南下し, 伊勢西インターで下り, 通常とは逆だが内宮→外宮の順番で参拝. 普通の土日だが, 河川敷の駐車場が一杯になってしまうあたり, さすが伊勢神宮といったところか
土産物屋で, 独楽を買ってきた. 左上のは, 横にして回すといつの間にかに立って回るようになる独楽. 右上のは, 回すと逆立ちする独楽. 中央下は普通の独楽だが, 赤カブっぽい形状が面白い. 物理学を使って真面目に計算すれば, 立ち上がったり逆立ちしたりする運動を予測できるのかもしれない. でも初めて作った人は, 物理とかは知らずに, たまたまできてしまったのだろうか?
おたより, お待ちしています