bored_jd(暇な女子大生)のビッグデータ分析

bored_jd(暇な女子大生)のビッグデータ分析



 忙しい研究職員*


 *謝辞: 分析、また原稿作りを手伝ってくれた暇な(一部はこれから社会人生活が始まる)大学生(男子諸君)に感謝をしたい(最初に少し研究を手伝ってほしいと頼んだら消極的な反応だったが、テーマを教えたら男子学生たちみんな率先してやってくれた)。


1 序論
本研究では、twitterアカウント@bored_jdについての考察を行う。主にこれまでにツイートをしたもののテキスト分析が中心であり、特に我々はbored_jdがこれまでに削除した過去のツイートに注目をしてみることにした。その数は我々の予想を上回り、およそ現存するツイートと同数のツイートが削除されていることが分かった。それを元に我々は解読をし、ツイートパターンまたは、ユーザーの複数の可能性にせまった。


 2 先行研究
我々は、以下のリサーチの分析手法に倣った。まずその先行研究の概要を述べる。利用した実証方法は、King et al. (2013)での中国の検閲の実態を調べた文献と同様のものである。(さきほど検索かけてみたら、その研究について日経ビジネスのHPで紹介されていたのを知った。)





中国では、国家統制に関して多くのメディアが規制されており、検閲中国の検閲部隊(何十万人いるとされている)が日々ウェブブラウザでのサイト等の書き込みを検閲している。その実態は、公開されることはもちろんなく、謎に包まれたことが多いが、King教授の研究チームは上記の論文で中国のメディア検閲の実態として、どのような書き込みが消されているのかを把握することに成功した(これは私も上記の日経ビジネスを読んで知ったのだが最初から、意図してこの研究をしていたようではなかったようだ。)。


つまり中国の市民が書き込みが消されるのは、何かしらの基準があるのか、それとも行き当たりばったりに中国共産党にとって都合の悪いものは即座に消されるのか。King教授たちの研究結果では中国での検閲の対象となりやすいのではと思われる、共産党批判から各州市の単位での役人のへの罵倒など(posts with negative、 even vitriolic、 criticism of the state)は、なんとそのままになっていた。ではどのような発言が消されるのかというと、大規模なデモを催すような発言、街角の少人数の集会等、どのような規模であれ人民を1つの場所に集約させる発言(curtailing collective action by silencing comments that represent、 reinforce、 or spur social mobilization、 regardless of content)は検閲の対象となることが判明した。


この基準はある意味、中国検閲での明確な基準を示している。つまり民衆の政府批判のはけ口としては書き込みは許し民衆のストレスを発散させている一方で、人民を煽り、collective actionを連想させる書き込みは消される。確かに歴史を振り返れば、様々な大きなクーデターや革命の発端の一部の理由は、ごく小さい集会からでも起こりえるため(現在ではSNSでの拡散がさらなる助長を促すのは明らかであるし)、どんな些細なことであってもこれらの火種を消すことは中国共産党存続のためにも必須となる。


それらの比較を可能にした分析手段であるが、大雑把にいうと1つのテキスト分析で中国検閲が検閲前のウェブ情報と中国検閲が検閲したウェブ情報を比べ、何が消されているかという比較を行った。つまり中国検閲部隊より先に掲示板などの書き込みを抽出することによって可能になる。例えば◯をnot expected cencer(単なる共産党批判) として ☓をexpected cencerなコメント(たとえば集会を催すとするようなコメント)とすると、掲示板で

◯◯◯◯◯◯☓◯◯◯ (検閲前)
◯◯◯◯◯◯  ◯◯◯ (検閲後)

☓がある一定の時間が経ち消されていたら、中国検閲があったとし、その消された内容のグルーピングを行い、どのような内容が消されたかを可能にした。そのようなグルーピングなどの分析手法はこちらを参照(Hopkins et al. (2010)Hopkins & King (2010) 、また私個人は経済学を主にやっており、政治学の専攻ではないが、改めて米国のQuantitative Politicsをされている方は、もう統計屋さんだと感じた。ただ日本だとこういう分析をされているのは民間のデータアナリストという印象。)ちなみに下記の本論文のFig.4がそのHighest and Lowest Censorship Magnitudeととなる。





我々研究チームも分析対象は違うがこれを応用させてみた。つまり、bored_jdが自分の正体がわかってしまうのは、自分がbored_jdに書き込もうとしたのにリア垢(この人物の実際のアカウント←ちなみに当方はこのリア垢という言葉を最近知った…)に誤爆をした時ぐらいではないかとつぶやいているが、我々は考えたのは逆に、何かをこのアカウントから消すときではないかと。そこで、このbored_jdのアカウントを少し様子をみて、bored_jdがそれまでの自身の発言さらに誰かにreplyされた時や、何かしらのヒントになる内容が含まれたことによって過去のツイートをdeleteしないか等を検討することにした。



3 データ 
我々の分析では不完全な部分もあったが、bored_jdの人物像ついてにいくつかの発見があった。我々もこのようなテキスト分析は初めてであり、htmlごと取れるのかと思ったがtextしか抽出できなかったことと、またこのtwitterアカウントに最初から気づいていたわけではないのではなかったのでタイミングとして初期の方のデータの一部をロスしている制約はあるがいくつかの興味深い発見があった。 

データ出典 
・Twitter account @bored_jd 

・Twitter User ID: 803229123585810433  

・分析期間は2016/12/15(上記のようにアカウントを途中から知ったため)から2017/03/22(データの抽出自体は現在も進行中)

・bored_jdでの現在のツイート数は現在(2017年03月22日)約430個(+返信数は下記で別途カウント)と表示されている。ここにあるデータと消されたデータを用いることになる。

・Twitter登録日は2016/11/28/ 22:28 

・Twitter初投稿は2016/12/12/ 13:12 (現存するツイートの中で) 比較的、登録日から初投稿日までが空いているのが気になるが、我々もここのデータについてはアカウントを把握してしていなかったため抽出できなかった。 


4 結果 
上記の通りKing et al. (2013)にそって、これまでのツイートを抽出し、現在あるツイート、既に消えているツイートに分類。 


我々のassumptionとして10個ぐらい消えていて、それらが何か手がかりになると考えていたが、結果はおおよそ現存するツイートと同等の数で、最低でも405個のツイートが消されていることが分かった。さらには観察期間の12月にそれが固まっており、およそそれまでの90%以上のの12月のツイートが削除されていた(注:上記のように我々研究チームがアカウントに気づいていてからタイムラグもあったため、これ以上消されている可能性もある。また(設定ミスでなのか)我々が抜き出せたのはtext情報だけでありながらも(imageもあった所はとれた)、ここまで多くのツイートが消されているとは予想していなかった(仮定していたものが、まずい(またはcriticalな)ツイートだけが10個ぐらいが消されていると仮定をたてていたため)。 


しかしながら、その情報がテキスト情報だけあり、proofするのにキャッシュを探ってみたが、残念ながらgoogle等でもキャッシュすら残っていなかったものもあった。なお消されている12月の大半のものはtweezで確認できる。(下記も記載させていただいているが、1月以降については我々がまだ解読できていないところもありまだストックさせていただいている。) 


4.1 個別ツイートの比較 
様々な考察が考えられるが、分析から言えることのみ、中立なポジションで考えていきたい。本来なら参考文献のようにグルーピングして何かしらのキーワードなりを掘りだすのが良いのだろうが、その分析手法を取得しておらず時間がかかってしまうので、データ数も数百個と少ないということで、以下、1つずつ確認して、我々が分析できた消されたツイートから現存するツイートととの矛盾する点を考えていきたい(我々はtext情報しか抜き取れなかったので、極力、リンク先があるツイートを添えている。)。 


1つ目: 普通にイケメン重視 
かなりストライクが広そうに見えるが、消されたツイートからは普通にイケメンを重視していた。 
【存在するツイート】

【なくなったツイート】

2016年12月16日なくなったツイートリンク(キャッシュも現在はきえているが)
2016年12月20日なくなったツイートリンク
2016年12月20日なくなったツイートリンク

2016年12月20日なくなったツイートリンク


2つ目: 橋本マナミさんを本当は尊敬していない

ハイスペ女を目指している趣があるため、偏差値45の高卒で大学をでていない橋本マナミさんを本当は尊敬していない可能性がある。
【存在するツイート】
【なくなったツイート】
 2016年12月19日 なくなったツイートリンク




3つ目: 高卒にも寛容(イケメンなら)
高卒には厳しそうだったが、普通にポジティブなコメントが消されていた。(というか、現役大学生でもその身分だと高卒というカテゴリーだが、日本の場合は入学できれば、卒業も容易なのでそこは保留。(海外は本当に卒業が難しい))
【なくなったツイート】
2016年12月31日 なくなったツイートリンクこちらにあった
ちなみに、分析途中で同じ日に同様の経緯が発見された。(少し被害にもあったようだ)

4つ目: 世界進出している

既にアイビーリーグに進出していた。
【存在するツイート】
【なくなったツイート】
 2017年01月02日 ツイートリンク(これはキャッシュで、でてきた)

2017年01月02日 ツイートリンク(これは別リンクで、でてきた)



5つ目: 本当は普通の食べログもしようとしていた?

我々はimage画像も抽出できたが初期には普通に料理、お店の写真をあげていた。
【存在するツイート】

【なくなったツイート】
2016年12月22日 なくなったツイートリンク

2017年01月06日 ツイートリンク(これはキャッシュで、でてきた)

最初は(ここに載せている以外にも)普通にいくつかの食べたものの画像をあげていたが、あとからは食事の画像はなくなっていった。我々はこれらのimage画像(他にストックしたものも)をこちらの研究結果にあげたいが、今後の研究に利用が可能ではないかと思い保管中である。ちなみに上記の消された1つ目の写真には肉寿司の写真、また2つ目のツイートには普通に俺のフレンチの内装も写っている。(ここの分析を担当してくれた暇な大学生の一人がこちらの店舗は特定できたとのことで、ここでバイトして、bored_jdが訪れた日の情報を精査してさらなる分析をと言っている...)


番外編: 

これまで齟齬するツイートの多数を確認できたが、唯一現存するツイートと削除されたツイートでも共通するものがあった。
【存在するツイート】
既に我々はデータを抜き出していたが、返信者アカウントmiyamiya109 が非公開になったため画像で(キャッシュはこちら)

【なくなったツイート】

2016年12月25日 なくなったツイートリンク
青山学院大学に対しては(下記に記載する)我々がいう最初のbored_jdの投稿者(消されたツイート)と現在の投稿者(主に1月6日以降の)一貫してとにかく厳しい評価となっている。


4.2 削除されたツイートのトレンド
次に全体像を確認する。全ツイート消去の流れのtableはAppendix1で確認できる。こちらも俯瞰的な視点でも何点か興味深い発見があった。1つ目は、前述したとおり、12月(我々の観測期間が始まったのは12月15日から)はツイート数がかなりの数であった。しかしながら12月の観測期間のみでいうと、もともとあったツイート数が318個あったのに対して、現存するのは28個。91.1%のこの期間のツイートが消されたことになり、それが上記でのような残っているツイートと何かしらの齟齬があるツイートである。逆に言うと、現存するツイートと一貫性があったものだけが残していると言える。


2つ目に気になった所は、1月上旬(1月6日辺りから)の消去されているツイートである。この辺りからは、比較的ツイート数も少なくなってきたこともあるが、自身がツイートしたことは一切消去されなくなった。また、総じてこの時期あたりから、これまで使ってきた絵文字(特殊記号)は全く使われなくなる。またこれ以降も少々のツイートは消去されているが、それは全てリプライのみになった。この消されたリプライツイートと残っているツイートの比較でも、消されたものは絵文字(特殊記号)が含まれているものであり、その中には現存するツイートと矛盾するものもあったが、中には関連しない絵文字だけが使われているツイートというだけでも削除の対象になった。こちらはもう少し精査が必要になるが、ある程度の共通項を掴んで次回以降の分析にまわしたい。


また独特の言い回しで、例えば優勝という言葉で言うと、最初に使われたのは1月10日となる。それまでは同様の意味である言葉がそのまま使われていた。他の言い回しにおいても同様で1月6日以降である。


5 考察、今後の展望、(少々の所感) 
5.1 考察 
我々の分析では何かしらの統計的有意性を示せるものではなく、ラフな分析になってしまったが、いくつか考えられる要点のみ述べたい。ついでながらに言うと、我々は同時にTinderで接触も図っていたが存在は確認することができなかった。ただしTinderで、暇な女子大生を見たことがないから存在しないというのは、黒鳥(Black Swan)を見たことがない人間が今まで白鳥(Swan)しか見たことがないので、Black swanはいないと言っているものなので我々も存在を否定をしない。(Talebがいうところの"Black swan" is a catch-all phrase for "outliers" or wildly unexpected events and processesに属するようなレアな存在なのは一理ある。)


ちなみに我々は直接アプリ上から探してコンタクトも図ろうとした。bored_jdの設定上、"私がライクした人にしかプロフィールが表示されない"という設定がキーとなるがそこから他の女子大生と区分けする選抜する方法としては、アプリを始めて(暇な大学生男子達に頼んだのだが、)設定上、18-22歳、慶應大学とでても、すでにbored_jdが先に見ていいねをしていないと現れないので、それがbored_jdであるならば、その場で瞬時にmatchにならなければその時点で違うこととなる(こちらが先に右スワイプして、タイミングがあいて、その後にその子とマッチしても設定上違うことになる、つまりこちらが先に見ているというのはbored_jdの設定上ありえない)。そこからかなり絞ったわけだが(我々は学歴が無記入も含めた)、接触には至らなかった。(おそらく調査に携わってくれた暇な大学生男子達がそこまでイケメンではなかったのかとも思う...(学歴はカバーしている))→この件については、今後の戦略を、どなかかに研究の引き継ぎをしていただきたい。


考えられる結論に移るが我々が数回のミーティングで可能性としてあることを議論しあった。それで多くの意見がでた結論はこちらのツイートにもあるように、おそらく暇な女子大生はいるであろうと分析から推測するに至った。
しかしながら、 消去ツイートの比較、また使われる用語がドラスティックに変わり始めた1月6日辺りからは、ツイートしているのはそれまでの暇な女子大生ではなく、他ではと考えられる可能性があるという結論に至った(しかしながら女子目線のツイートに関してはそれまでの暇な女子大生の発言をという共同作業)。おそらく、それまでの暇な女子大生は、実働部隊的な感じでアプリでやり取りした男性と直接会っているが、現ツイートで出てくる大学名もフェイクで、そのあたりは実際との隔たりがありそうである。今後商業展開ないきさつになったらそれが分かるかもしれない。ただこれらも我々の一分析からでた答えて、他の解釈もあるかと思う。しかしながら、リサーチデザインとしての我々は応用できたことはデータを提供していただいたbored_jdの方には感謝したい。



また結果から、初期の暇な女子大生は、普通にイケメン重視であり、学歴の許容範囲も現在つぶやいているものより広めであることということの理解もできた。だが、ある程度学歴にひかれるところは、現代の事情を考えると自然なことだと考えられる。昨今の日本では同類婚、つまり所得、教育水準、職業といった階層内での結婚が増大いているという指摘があるが、それはデータからも結婚する夫婦は経済力、教育水準、職業などの点で似通っていることも明らかである(中嶋、2015)との通り、似たりよったりする学歴水準を求める傾向は続いている。



テクニカルな話だが推計モデルとしても、例えば男女はできるだけ学歴の高い相手を好むこと(高学歴嗜好)と自身との学歴が近い相手(同学歴嗜好)の効用関数を定型化できるが(ちなみに、ここに男性(女性)のよくある、自身の学歴は超えない(超えて)でほしいという関数もいれられる)暇な女子大生は典型的なその例ではないかと思う。Sapiophileの言葉もだからこそある。ちなみに海外での実証研究はHitsch et al.(2010)Fisman et al.(2006)などを参照(特にFisman et al.(2006)ではデータはアメリカのものになるが、女性がintelligenceがある人に嗜好あるという結果が検証されている。)。また、以下がFisman et al.(2006)の推計結果である。






5.2  今後の展望 
我々の考察も今回はラフなものになってしまったが、今後はもう少ししっかりとしたリサーチデザインを考えて推量をする必要がある。 上記でも俺のフレンチの件、実際にTinderでの戦略の他もあるが他にもいくつかあるが、何よりリサーチデザインの重要性を知る機会になったことは喜ばしいと思う。たまたま先週届いた日本の誇る政治学者のPrincetonのImai教授の数量社会科学の教科書を開いてみたが(これはいい教科書になりそうである)、次につながりそうな5章にテキスト分析の例があった。その例にあったのがFederlist essaysで、85編の連作論文でFederlist essaysの筆者にはアレクサンダー・ハミルトンジェームズ・マディソンジョン・ジェイであったとされているが、当時は筆者の名は伏せられていたため誰が筆者なのか、論争があった。のちに85編のうちハミルトンか、マディソン可筆者か分からない編が11つあったのだが使っている単語の頻度などを手がかりに、誰が筆者なのかの統計的推測を行った(結果、残りはほとんどがハミルトンが筆者である現代の見解になっている)。ちなみにハミルトンとマディソンではハミルトンがthereやuponを好んで使い、マディソンはconsequently やwhilstを使っていたという。我々も例えば1月6日を境に前期、後期としてそれぞれのツイートの単語から2人筆者がいるという仮定のモデルとどれだけ統計的に言えるかが直近の展望である。 また、リサーチを手伝ってくれた暇な大学生がbored_jdがフォローしている50数名にも既にデータを抽出している作業をしているが、これも何かに応用したいらしい。 


5.3 少々の所感 
ここからはただの感想になるのでお時間のない方は読み飛ばしていただきたい。


我々はソーシャルメディアのtwitter上のデータを用いて所謂ビッグデータ分析を行ったわけだが、この
ビッグデータという言葉が独り歩きしている感がある。もちろん我々が用いたデータは1つのアカウントのみで"big" dataではないと言われるかもしれないが、ビッグデータ自体、データのことではない(Big Data is not about the Data!) とKing教授がよく言っていたのを思い出す。


データの入手はこれまで以上に簡単になったことがあり、その量は増えたことはあるが、結局は分析者がそれをどう用いて、何をゴールとしてどのように分析するか。それにかかっていると。そのような方向性から今回出来たのは良かったと思う(ちなみに個人的なKing教授との思い出だが、Havard時に、一コマ彼の授業を取っていたとき、イントロダクションの一回目の授業だったと思う。自己紹介されていた時、オフィスアワー(大学で、教員が学生の質問や相談を受けられるように研究室などにいる時間)について「私のオフィスアワーはありません」とかおっしゃっていて、まぁ忙しい先生だし、どうしてもならby appointmentであるのだろうな、とか思っていたが、続けて「オフィスアワーって諸君何だと思う? 先生が生徒とコミュニケーションをとるためのオープンな機会だと思うかい?違う、逆を言えばそこの時間以外は教授室に訪ねてくるなっていっているのだ、だから私はオフィスアワーを作らない。なぜならそのような制限を作りたくないから。いつでも何かあったら私の教授室に来なさい」とかおっしゃっていて、本当に人格者だと思った。)。



また、個人的に興味深かったのはこのような意見だった。

学部時もそのようなこと考えたことなかったし、海外での大学院での生活になったら、各国から来る大学の友人の出身大学なんて全く気にしていなかったので、ここまで学部での卒業が話題なるものなのかと改めて思った。



また上記の意見に対してはというのは、そのように決まるべきというのは、それが望ましいとする規範的なものであり、実証としても学歴だけでは年収はあがるということはデータからは確認できないし、それに偏差値的な計測でいえば、大学入ってからでも偏差値を10ぐらいなら上げられることはあるかと思う (ただ偏差値的な話は、大学入学にしろ、司法試験にしろそれらは既に答案があるものに対して回答をしていく処理能力の話だけであるけど)。単に処理能力の話で良いと言っても、それは長期雇用が前提での安定を求める会社における便利屋になるためのツールであり、大学で何を学んだかということが考慮されず、偏差値が高い大学卒よりそこに行くための入学のための学力が重視されてしまう1つの日本社会の均衡に他ならず、この均衡も決して続くものではないから、俺さんも言うように強い自分を目指すことが大切だと思う。

いずれにしても、変えられるものは(コントロールできるのは)、これからの与えられた時間のみだと思う。なんでもそうだと思う、先日50歳でゴールを決めた三浦知良選手も 
過去の実績なんてものはどこかへしまって、今を歩む。150点以上ゴールしたのは昔の話、今の僕にはどうでもいいんだ。仮にFW経験がない監督が僕にシュートに関して指示をしたとする。「シュートでは教わることはない」と考えるようでは、伸びない。耳を傾け、プラスとなる何かを探すことだ。 
と言っている。私自身もそうだ。次から次に新しい研究がでている中で、過去に研究したもの、論文にした足跡だけみても仕方ない。これからどれだけまた進めるかが大切かと思う。また卒業式シーズンということもあり、ふと昔のJobsのcommencementのスピーチを聞いてみた(訳はこちらを参照)。人間が死に直面した時、学歴などどのくらい価値として最後考えているかなと思う。
自分はもうすぐ死ぬのだと意識しておくことは、私が人生の重大な選択をする際に役立つツールとして偶然に手にしたものの中でも、最も重要です。なぜなら、ほとんとすべてのこと──いろいろな外部からの期待や、自分のあらゆるプライド、混乱や失敗に対するさまざまな恐れ──こういったものは、死に直面すると消えてなくなり、真に重要なことだけが残されるからです。
Remembering that I'll be dead soon is the most important tool I've ever encountered to help me make the big choices in life. Because almost everything ― all external expectations, all pride, all fear of embarrassment or failure ― these things just fall away in the face of death, leaving only what is truly important. 
 皆さんの時間は限られていますから、他人の人生を生きて時間を無駄にしてはいけません。ドグマにとらわれないでください。それでは、他の人たちの思考の結果に従って生きることになります。他人の意見という雑音によって自分の内なる声がかき消されてしまわないようにしてください。そして、最も重要なことですが、自分の心と直感に従う勇気を持ってください。あなたの心と直感は、あなたが本当は何になりたいのかを、どうしてだかすでに知っているのです。他のことはすべて二の次です。
Your time is limited, so don't waste it living someone else's life. Don't be trapped by dogma, which is living with the results of other people's thinking. Don't let the noise of others' opinions drown out your own inner voice. And most important, have the courage to follow your heart and intuition. They somehow already know what you truly want to become. Everything else is secondary. 


最後に個人的なマッチングアプリに対する感想。
また今回の機会のついでに、少しマッチング系の論文も読んでみたが、様々な問題点も垣間見れたのも良かった。誰かいい人いたらスパッと辞めたいけれど、またこれ以上の人がでてくるかもしれないという期待効用的なもの、女性視点だと男性が彼女持ち、既婚者男性は最初から排除してもらいたいなど、その他記入欄が学校と会社名だけではまだまだ情報の非対称性がありすぎてしまい、その人の情報をもう少し欲しい(身長、年収、性格等々)。


さらにスーパーライクも送ろうと思えば全員におくることができるチープトークのようなものであるし、その上の制限ある数しかおくれないライクも作ってもいいかも知れない。また、これだけ参加者の理由が多様化していて人数も増え、参加者の階層ができると、スペックが高い人が、スペックが低い人が混雑しているアプリ上を避けアプリから退出(期待値として、いい人を見つけられる確率が実社会の方があるとウェイト)する場合、アプリは徐々にレモン市場にアプリがなることも考えられなくもない。


これまでマッチング理論はゲーム理論家がその枠での望ましいとする制度設計を行うこととしてきたが、実証的な分析はまだまだ萌芽的な位置づけである。アプリ1つにしてもどのような状況下がマッチング結果に影響を与えるなどシミュレートすることが可能である今、今後の実証的な分析は欠かせないものだと思う。そしてそのような不備のあるところを改善していく配管屋さんのように研究職員としての私もやれることをやっていきたいと思う。


もう少しで、新年度。上記でも述べたが、変えられることはこれからのみ。また新たな気持ちで、4月をむかえたい。自分も新しいこと初めてみたくなったので、マッチング系アプリの会社にそれぞれのアプリの改善点もお送りしようと思う。

このブログの人気の投稿

Appendix 2 就活事情 - bored_jd(暇な女子大生)のデータ分析

Appendix 3 早稲田事情 - bored_jd(暇な女子大生)のデータ分析