StatModeling Memorandum

StatModeling Memorandum

StanとRとPythonでベイズ統計モデリングします. たまに書評.

データ解析で割安賃貸物件を探せ!(山手線沿線編)

@housecat442さんのプレゼンにインスパイアされて、某S社様のサイトからスクレイピングさせていただき家賃予測を行いました。目的は広さ・最寄駅・築年や各種設備の割にお得な割安物件を探すことです。首都圏の賃貸物件を全て扱うのは大変なので、まずは山手線の各駅から徒歩15分以内の物件(32945件)について解析を行いました。およそ10分の1ぐらいの物件数です。

解析に使うデータは最終的には、応答変数が「費用.2年間」で説明変数が226個になりました。ここで予測したい「費用.2年間」は (賃料+管理費)*24 + 礼金 + 敷金 + 仲介手数料 + その他初期費用 - フリーレント.price で求めています。また今回は駐車場の費用に関しては考慮にいれませんでした。さらにデータを十分に可視化した上で説明変数に関していくつか前処理を追加しました。例えば「間取り」は「専有面積」と相関が高すぎるので削除しました。その他にも「2沿線利用可」と「2駅利用可」や「上階無し」と「最上階」など相関がある程度高くて意味も似ていると判断できるものはORをとって0/1のフラグにしました。また「駅からXメートルにスーパー有」などの情報は、exp(-X/400)で価値が表せるとして[0,1]に変換しています(400mは徒歩5分の距離; 経験的に設定)。部屋階も同様に経験から[0,1]に値を変換しています(1F:0.0, 2F:0.5, 3F-9F:0.7 10F~:1.0)。

モデルですが、切片・駅の項・部屋の向きの項・各種設備の項からなるシンプルな回帰です。駅と部屋の向きの項に関しては空間構造があるだろうということでCAR modelを使いました。CAR modelについてはこの記事を読んでください。特に新しいことはありません。まあ正直に言うと切片・駅の項・専有面積だけでもそこそこ説明できるのですが、やっぱり各種設備の結果を見ると盛り上がりますので、今回はそちらの結果を紹介したいと思います。

計算時間はStanを使ってiter=3000で約24hほどかかりました。結果は以下になります。 まずは駅の影響から。

f:id:StatModeling:20201114120312p:plain

青の実線は予測の中央値、グレーの帯は同95%信用区間です。今回はlog(費用.2年間)に対して回帰を行っていますので、縦軸はその駅になると「費用.2年間」が何倍になりそうかを表しています。恵比寿~原宿、有楽町(銀座の近く)あたりが高そうです。田端~鶯谷あたりが安いのも納得の結果です。

次に部屋の向きの影響について。

f:id:StatModeling:20201114120308p:plain

可視化の時点でうすうす気づいていましたが、これが驚くほど影響が少ないという結果が出ました。この結果が首都圏or賃貸物件に特有の結果なのかどうかはさらなる解析を待たねばなりません。一戸建てのマイホームでは「南道路」とか結構大切なファクターに思いますが…。

次に専有面積(x1.2倍あたり)・築年(+10年あたり)・徒歩(+5分あたり)とその他の各種設備・条件の有無の影響について。回帰係数の大きなトップ20を掲載しました。

f:id:StatModeling:20201114120317p:plain

まず、これも驚くことに徒歩(+5分あたり)の影響は少なかったです(30番目ぐらい)。ある程度駅に近ければ他の条件の方が大切ということでしょうか。あとは食器洗乾燥機や家電・家具などが目につきます。キレイ好きだけど設置などの面倒が嫌いな人が金払いがよいということでしょうか。なかなか面白いです。また「防犯強化地域」は価値を下げています。何も特筆すべきことがなくて無理にこれを付け加えているのか、犯罪頻発地域の裏返しなのかは分かりませんが。そのほか、「女性限定」など真の価値に関係なさそうな説明変数の影響を除いて最後の割安物件探しを行いました。

割安物件Top100を以下に掲載します。並びは価値との差額ではなくて、価値からの割引%にしました(割算値使ってしまいました…)。また、やや狭い物件(15m2以下)と高すぎる物件(家賃20万以上)は除いてTop100にしました。物件の情報を取ってきたのは1か月以上前なので、すでに存在しない物件もあると思います。中身を見てみるとなるほどと思うものがあります。お金のところの単位は全て[万円]です。

link費用.
2年間
費用.
2年間.
価値
割引.
差額
割引.
off
(%)
最寄駅徒歩
(分)
賃料管理費礼金敷金仲介
手数料
その他
初期
費用
フリー
レント
専有
面積
築年部屋階向き
link235439-204-46.4秋葉原99.800000066.84244
link156283-127-44.9目白14606600042404南東
link71128-57-44.7巣鴨82.70.250000016492
link89156-68-43.3池袋143.30.2503.500019.87352南東
link102179-78-43.2池袋103.80.133.83.800024402
link74127-53-41.8巣鴨82.70.250300016502
link74127-53-41.8巣鴨82.70.250300016502
link156267-111-41.6目白13606600045414
link245418-173-41.3秋葉原89.80009.80066.84244
link77130-54-41.1駒込1030.20000018.15462
link156263-107-40.7目白11606600042404
link83138-56-40.2駒込1230.23300017.82352
link83138-56-40.2駒込1230.23300017.82352
link83138-56-40.2駒込1230.23300017.82352
link156257-101-39.3新宿95.5100000243110
link261417-156-37.5駒込79.30.759.39.300.8103874
link156248-92-37.2目白14606600040.27404
link83132-49-37.2巣鴨83.20.250000016.75492
link123196-72-37池袋154.80.20003.24026262
link105167-62-37代々木24.2004.200018.16541南東
link289458-169-36.8日暮里710.3010.320.611.1240080302西
link123194-71-36.5池袋154.80.20003026262
link172272-99-36.5池袋66.9006.900040.12382
link299470-171-36.3恵比寿912.70.3000012.745.99221北西
link114179-65-36.2目白54.404.44.400021.87432
link86135-49-36駒込103.50.10000020592西
link86135-49-36駒込103.50.10000020592西
link401626-225-35.9駒込714.21.314.214.200.81067.2376
link205320-115-35.8恵比寿87.90015.800033313北西
link156242-86-35.5新宿95.5100000243110南西
link156242-86-35.5新宿95.5100000243110南西
link158243-85-35.2目白11606601.5040404
link321495-173-35.1駒込2120.301212.961.05068.25194南東
link141217-76-34.9大塚45.5900700023.49143南西
link86131-45-34.5巣鴨83.20.250300016.75502
link86131-45-34.5巣鴨83.20.250300016.75502
link336513-177-34.5駒込112004800093.2292
link388590-202-34.3上野815.50015.500051.141011西
link228343-115-33.6大塚68.50.208.59.181.05052252
link100150-50-33.4五反田53.703.73.73.70018441南東
link164245-82-33.3目白66.306.36.300036.1311
link89134-44-33.1駒込43.5003.51.890017462南東
link299447-148-33.1目白1511.3011.311.305.3063.5211
link187280-92-32.9高田馬場77.5007.500032325南西
link182268-86-32巣鴨4707700038.02414南東
link105155-49-31.9五反田53.903.93.93.90018442北東
link312455-143-31.4田端15120121200098.32461
link515749-235-31.3巣鴨1519.8019.819.800078.57825南西
link408592-184-31.1日暮里615.11.254015.100073.89133
link86125-39-31.1駒込103.50.10000018592西
link86125-39-31.1駒込103.50.10000018592西
link169245-76-30.9大塚86.506.56.500039.06344
link532767-236-30.7大塚619.7019.719.719.70091.7961南西
link532767-236-30.7大塚619.7019.719.719.70091.7961南西
link339489-150-30.6日暮里512.80.8012.800068.41176南東
link169243-74-30.6上野136.506.56.500045512南西
link375540-165-30.6上野815001500046.82103西
link127183-55-30.4池袋75.20.1000.00010019.05293
link511734-223-30.4御徒町1019.81.5039.60039.667.68142
link195280-85-30.3御徒町107.8007.800041.1394
link312447-135-30.2田端15120121200098.32461
link101145-44-30.1日暮里153.80.13.83.800022372北東
link101145-44-30.1日暮里153.80.13.83.800022372北東
link205294-88-30.1駒込57.90.3008.5320038.65204南西
link233333-100-30目黒68.10.68.18.18.10034.02304南東
link234334-100-30目黒10909900030.4372北東
link153219-65-29.9駒込45.80.25.83.500030.64433西
link153219-65-29.9駒込45.80.25.83.500030.64433西
link216307-92-29.8田端1380.3088.40048.65273
link194276-82-29.6目黒1170.57700035405南東
link192273-81-29.5新宿117.407.47.400022.262710
link177251-74-29.5渋谷46.806.86.800021.14364
link172245-72-29.5池袋96.9006.900040.12392
link270382-112-29.4神田4100102000052.56395南西
link172244-72-29.3池袋96.9006.900040.12382
link156219-64-29.1駒込45.80.25.85.800031.05443南西
link167236-68-29恵比寿66.40.306.400022272
link366516-149-29高田馬場1013.661.60000068.37189
link195274-79-29御徒町127.8007.800041.1404
link156219-63-28.9恵比寿760.430001.5015.4842南西
link163229-66-28.8五反田86.800000024.3323
link305428-123-28.7恵比寿1212.70.3000612.745.99221
link263368-106-28.7高田馬場1291.201800037.67169
link112156-45-28.6駒込54.304.34.300019353南西
link112156-45-28.6駒込54.304.34.300019353南西
link112156-45-28.6駒込54.304.34.300019353南西
link195273-78-28.5御徒町107.8007.800041.1404
link110154-44-28.4高田馬場940.254400015.8222北東
link163227-64-28.3池袋155.40.65.45.45.8322.1033.81231
link96134-38-28.3駒込113.60.13.63.600017352西
link220306-86-28.2五反田128.50.308.500034.33211
link163227-64-28.2五反田86.800000024.3323
link189263-74-28.1巣鴨270.37700036.36403南東
link230319-90-28.1池袋68.10.78.18.102.1037.44134
link260362-102-28.1神田510002000052.56395
link169235-66-28.1上野136.506.56.500045512
link536745-209-28新宿1219.71.8019.700055.1678
link287399-112-28池袋15110.501100059267
link217302-85-28池袋137.90.57.97.900030.96133西
link164228-64-28目白76.306.36.300036.1321

そのうちこの解析を首都圏の全物件に拡張するつもりです。その時は駅のCAR modelのところで路線図を使おう思っていましたが、@smrmktさんの解析結果を見ると「路線のブランド」が重要だったり、このツイートを見ると路線という物理的な位置関係よりも時間的な距離の方が重要かもしれないと思ったりしています。まあやってみてのお楽しみです。

今後の目標としては、パラメータの推定は月1ぐらいのペースで行い、物件のランキングの方は毎日更新されるような情報サイトが作れればと思っています。でも毎日スクレイピングするのもよくないと思いますし、diffを取るのも面倒ですし、諦め気味です。いい案がありましたら教えてください。

なお、ドワンゴさんで行われた「データ解析のための統計モデリング入門」読書会 最終回にてこの内容を話しました。資料を一応リンクしておきます。