| 年度 |
2026年度 |
開講部局 |
人間社会科学研究科博士課程前期人文社会科学専攻ソーシャルデータサイエンスプログラム |
| 講義コード |
WMK00600 |
科目区分 |
専門的教育科目 |
| 授業科目名 |
データ収集・活用・公開 |
授業科目名 (フリガナ) |
データシュウシュウ・カツヨウ・コウカイ |
| 英文授業科目名 |
Data Collection, Utilization, and Publication |
| 担当教員名 |
湧田 雄基,原田 裕輔 |
担当教員名 (フリガナ) |
ワクダ ユウキ,ハラダ ユウスケ |
| 開講キャンパス |
東千田 |
開設期 |
1年次生 後期 セメスター(後期) |
| 曜日・時限・講義室 |
(後) 水13-14 |
| 授業の方法 |
講義 |
授業の方法 【詳細情報】 |
オンライン(同時双方向型), オンライン(オンデマンド型) |
| 講義中心、演習中心、ディスカッション、学生の発表 |
| 単位 |
2.0 |
週時間 |
2 |
使用言語 |
J
:
日本語 |
| 学習の段階 |
5
:
大学院基礎的レベル
|
| 学問分野(分野) |
24
:
社会科学 |
| 学問分野(分科) |
05
:
社会学 |
| 対象学生 |
ソーシャルデータサイエンスプログラム博士前期課程 |
| 授業のキーワード |
計算社会科学、Open Data、OSS、EBPM、データ倫理、ライセンス |
| 教職専門科目 |
|
教科専門科目 |
|
プログラムの中での この授業科目の位置づけ (学部生対象科目のみ) | |
|---|
到達度評価 の評価項目 (学部生対象科目のみ) | |
| 授業の目標・概要等 |
授業の概要: 計算社会科学における研究データの収集・活用・公開について、実例に基づきながら体系的に学ぶ。データの入手方法から匿名化・倫理的配慮、ライセンスの選択や公開手段の選択まで、データライフサイクル全体を扱う。
授業の目標: ・データの収集・活用・公開それぞれの段階で必要な知識と判断力を身につける ・研究データを適切に扱うための倫理的・法的な基礎を理解する ・オープンサイエンスの潮流を踏まえ、データを公開・共有するための実践的な手順を習得する |
| 授業計画 |
第1回:ガイダンス:データ収集・活用・公開とは何か 計算社会科学におけるデータの収集・活用・公開についての意義に触れる。 ・データ収集・活用・公開の定義と相互関係、研究データの種類 ・エビデンスの品質問題と、データの質が研究・政策に与える影響 第2回:【第1部:収集】データ収集の設計思想とサンプリング 何のために、誰から、どれだけ集めるのかを考える。目的が曖昧なままデータを集めることの危うさを理解する。 ・利用目的に応じたデータ量と質の設計 ・サンプリング手法と選択バイアスの考え方 ・探索的分析と確証的分析の区別 第3回:【第1部:収集】実験デザインと自然実験 因果関係を明らかにするための設計の考え方を学ぶ。経済学・社会科学の現場で実際に使われる手法を中心に扱う。 ・RCTの設計原則と現実的な制約 ・準実験手法の考え方(差の差法・回帰不連続デザイン) ・実験で集めたデータの品質問題 第4回:【第1部:収集】調査票設計・データ取得手段・SNSデータの収集 データの入手経路は多様であることを理解し、それぞれの特性と限界を知る。 ・調査票設計の原則と失敗パターン ・データの取得手段(購入・共同研究・開示請求・オープンデータの活用) ・SNS・Webデータの収集と法的境界 ・SNS・Webデータ収集の事例 第5回:【第1部:収集】データクオリティとエビデンスの品質 収集したデータの品質を見極める目を養う。EBPMの観点から「なんでもエビデンス」ではないことを理解する。 ・欠測・外れ値への対処と感度分析 ・EBPMにおけるエビデンスの品質とレベルの考え方 ・メタデータの重要性とデータの限界を判断する力 第6回:【第2部:活用】個人情報とデータの匿名化 データに人が紐づくとき何が許され何が許されないかを理解し、匿名化の技術と限界を学ぶ。 ・個人情報保護法の段階的構造(個人情報・仮名加工・匿名加工) ・匿名化技術の考え方と再識別リスク ・本物データが使えないときの代替手段(合成データの考え方) 第7回:【第2部:活用】SNSデータの活用:可能性と限界 計算社会科学の中核であるSNSデータの可能性と本質的な限界の両面を考える。 ・SNSデータの本質的な限界(代表性の欠如・アルゴリズムによる偏り) ・倫理的グレーゾーン ・SNSデータ活用の事例 第8回:【第2部:活用】生成AIとデータ活用 LLMの普及によるデータ活用の新たな可能性と倫理的・法的問題を多角的に理解する。 ・LLMへのデータ入力のリスクと判断基準 ・生成AIによる合成データ・ダミーデータの活用 ・AI生成物の著作権と信頼性の問題 ・AI生成物をめぐる問題の事例 第9回:【第2部:活用】研究倫理・倫理委員会(IRB)・研究不正 データを研究として活用するときに求められる倫理的判断を、手続きの理解とグレーゾーンの思考の両面から学ぶ。 ・倫理審査(IRB)の仕組みと手続き ・インフォームドコンセントの設計と計算社会科学における同意の難しさ ・研究倫理違反・不正の事例 第10回:【第3部:公開】データ公開の動機・目的・戦略 データ公開は戦略的な意思決定であることを理解し、公開する理由・しない理由を多角的に考える。 ・研究者・企業・行政それぞれの公開動機 ・公開方法のタイプ(オープン型・登録型・承認型・契約型) ・公開のリスク・コストと非公開の判断 ・行政オープンデータ公開の事例 第11回:【第3部:公開】ライセンスの理解と選択 データ公開とコード公開という2種類の公開を整理し、それぞれに適したライセンスの選び方を理解する。 ・データ公開とコード公開(OSS)の目的と手段の違い ・データ向けライセンス(CC系)とコード向けライセンス(MIT・Apache等)の使い分け ・AI時代のライセンスの新論点 第12回:【第3部:公開】安全に公開するための手順 公開前のチェックプロセスとメタデータの整備を実践的に学ぶ。 ・公開前の再識別リスクチェック ・メタデータとドキュメントの整備(FAIR原則) ・データフォーマットの機械可読性と永続的識別子(DOI) 第13回:【第3部:公開】公開の手段と場所 「取る側」と「公開する側」、「研究者」と「行政・自治体」という軸で公開手段を整理する。 ・研究者向けリポジトリ(Zenodo・GitHub・分野別アーカイブ)の特徴と使い分け ・行政・自治体向け基盤(CKAN・data.go.jp等)の役割 ・コード公開とデータ公開の手段の違い 第14回:【第3部:公開】データとコードをセットで公開する:再現性の確保 再現性パッケージの考え方を理解し、データ・コード・ドキュメントを一式にまとめて公開可能な状態とは何かを学ぶ。 ・再現性パッケージの構成要素(データ・コード・README・環境情報) ・トップジャーナルが公開を義務付ける背景(再現性の危機) ・研究データ公開の事例 第15回:総括:データ計画書の作成 全体を振り返り、データライフサイクルの各フェーズの判断ポイントを整理する。 ・データライフサイクル全体の振り返り ・「データ計画書」の作成(収集設計・活用方法・公開計画・倫理的配慮)
レポートを提出すること。 |
| 教科書・参考書等 |
授業内で紹介する。 |
授業で使用する メディア・機器等 |
テキスト, 配付資料, 映像資料, Zoom, moodle |
| 【詳細情報】 |
Ovice |
授業で取り入れる 学習手法 |
ディスカッション, 授業後レポート |
予習・復習への アドバイス |
予習: ・次の回の授業項目を事前に確認し、これらの内容について自分なりの考えや疑問を整理した上で授業に臨むこと。 ・前回の授業で提示された課題の残りや、次回までの宿題がある場合には、次回までに進めておくこと。 復習: ・前回までの授業内容で、授業時間内に完了しなかったものについて、手を動かし、進める。 ・進め方がわからなかったことは、不明確のまま放置せず、記録し、次回授業に臨むこと。 ・授業後レポートを通じて、当日の内容への理解を自分の言葉で整理すること。 |
履修上の注意 受講条件等 |
|
| 成績評価の基準等 |
授業の参加姿勢,課題レポート |
| 実務経験 |
|
実務経験の概要と それに基づく授業内容 |
|
| メッセージ |
|
| その他 |
|
すべての授業科目において,授業改善アンケートを実施していますので,回答に協力してください。 回答に対しては教員からコメントを入力しており,今後の改善につなげていきます。 |