年度 |
2024年度 |
開講部局 |
情報科学部 |
講義コード |
KA215001 |
科目区分 |
専門教育科目 |
授業科目名 |
データマイニング |
授業科目名 (フリガナ) |
データマイニング |
英文授業科目名 |
Data Mining |
担当教員名 |
森本 康彦 |
担当教員名 (フリガナ) |
モリモト ヤスヒコ |
開講キャンパス |
東広島 |
開設期 |
3年次生 前期 1ターム |
曜日・時限・講義室 |
(1T) 木1-4:工103 |
授業の方法 |
講義 |
授業の方法 【詳細情報】 |
|
講義とそれに関する演習をセットで行い,知識と応用力の涵養に努めます. 具体的には授業計画にあるデータマイニングに関する各テーマに関し,まず,(各日の前半90分の)講義で解説します.続けて(後半の90分で)座学で学んだデータマイニング手法を使い,実データに対して自分のパソコンで分析する演習を行います.演習を講義直後におこなうことで理解したことの定着と深化が期待できます.尚,各演習は可能な限りPBL形式で行います. |
単位 |
2.0 |
週時間 |
|
使用言語 |
B
:
日本語・英語 |
学習の段階 |
2
:
初級レベル
|
学問分野(分野) |
25
:
理工学 |
学問分野(分科) |
02
:
情報科学 |
対象学生 |
学部3年次生以上が対象 |
授業のキーワード |
知識発掘,情報検索,発見科学,大規模情報処理,ビッグデータ,地域経済分析システム(RESAS:リーサス) |
教職専門科目 |
|
教科専門科目 |
|
プログラムの中での この授業科目の位置づけ (学部生対象科目のみ) | アルゴリズム,線形代数,データベースなどの基礎知識を必要としますが,授業の中でも必要不可欠な部分は復習します. |
---|
到達度評価 の評価項目 (学部生対象科目のみ) | 総合科学プログラム (知識・理解) ・当該の個別学問体系の重要性と特性、基本となる理論的枠組みへの知識・理解 (能力・技能) ・個別学問体系に関する多様な情報源から必要な文献資料やデータを収集・解析する能力・技能 ・課題の考察のために必要な理論・方法を特定する能力・技能
計算機科学プログラム (能力・技能) ・A. 情報基盤の開発技術,情報処理技術,データを分析して新しい付加価値を生む技術.
データ科学プログラム (知識・理解) ・D1. 統計とデータ解析の理論体系を理解し,ビッグデータの質的/量的情報を的確かつ効率的に分析するための知識と能力. (能力・技能) ・A. 情報基盤の開発技術,情報処理技術,データを分析して新しい付加価値を生む技術.
知能科学プログラム (知識・理解) ・D1. 人間が持つ高度な知能とその計算機による実現についての体系的な深い理解. (能力・技能) ・A. 情報基盤の開発技術,情報処理技術,データを分析して新しい付加価値を生む技術. |
授業の目標・概要等 |
目標 ・記録されたデータを効率的に取り出すための技術を理解し実践できるようになる ・価値のある情報が何か,および,それを発見する手法を理解する ・大規模なデータを扱う際の問題点を理解し,その対処法を適宜利用できるようになる 概要 蓄積される膨大なデータの中には価値のある情報がたくさん埋もれている.ここでは,データに含まれる価値のある情報を定義し,データから知りたい情報や,有用な知識などを効率的に取り出すための技術を学ぶ. |
授業計画 |
1-2:ガイダンスと近年のデータイノベーション データマイニング技術の概要と近年の研究成果および事例の紹介 3-4:データベース管理システム データベース管理システムの基本(関係代数,SQL問い合わせ言語,一貫性制約,トランザクション,排他制御など) 5-6:多次元分析 データベースを様々な方向から集計し,その傾向を分析することで理解可能となる事実も多い.ここでは多次元分析で必要となる集計操作を,身近な実データを使って学習・演習する. 7-8:演習用データおよびデータマイニングツール 演習では経済産業省と内閣官房デジタル田園都市国家構想実現会議事務局が提供している地域経済分析システム(RESAS:リーサス)のデータを使用し,地方創生のための様々知見を先進データ分析をとおして発掘してゆく.分析ツールとしてはデータマイニングツールとして知られるWEKAを使用する 9-10:相関ルール 相関ルールの定義と相関ルール発掘アルゴリズム(アプリオリアルゴリズム,FP-Tree,FP-Growthなど) 11-12:予測モデル 判別ルールの定義とそれらの最適化手法および決定木・回帰木 13-14:クラスタリング データの類似度を定義し,類似度に基づいてデータをグループ分けする 15:データマイニング応用 CRM,リコメンデーションシステム,検索エンジンなどの身近な応用事例,キーバリューストアなどのNoSQLデータベース,マップリデュース計算基盤など関連するトピックを15回目および,講義内のすき間時間等で紹介する.
演習レポートの提出を求めます.理解度の確認のための簡単なペーパーテストを実施するかもしれませんが,基本的には演習課題のレポートが中心.
各回の内容や順番はあくまで目安です.その年のカレンダーや理解度に応じて,順番や内容の変更はあります.(13-15は大学院レベルで扱われることも多いので学部授業での解説は入門レベルにとどめ,一部を代わりに5-12の発展的内容に置き換えることもあります) |
教科書・参考書等 |
参考書 ・福田剛志,森本康彦,徳山豪共著「データマイニング」(共立出版) ・Jiawei Han, Micheline Kamber共著「Data Mininig: Concepts and Technologies」(Morgan Kaufmann) |
授業で使用する メディア・機器等 |
|
【詳細情報】 |
パワーポイントスライドやPCの画面をプロジェクタに投影して解説します.また,各日でその日の内容に関するプリントを配布します. |
授業で取り入れる 学習手法 |
|
予習・復習への アドバイス |
予習の目安: 各回の教科書,参考書の関連項目に目を通しておく程度の予習をしておくと良い. 復習の目安: 1-2: モチベーションを高められればOK.演習用のソフトのインストール作業は確実に行ってっください. 3-4: データ分析の基本です.他講義で既習の人もいると思いますが,このあとの授業や卒研では必須なので改めて学んでおきましょう.小規模のデータで結果を確認することは有効です. 5-6: いわゆるビッグデータの元祖となる技術です.理屈を理解するだけ手なく,ソフトを使って実際に分析に応用できるところまでを目指してください. 7-8: 領域ルールはやや複雑ですが,講義プリントの例題を参考に実例を使って手計算してみること. 9-10: 古典的なデータ分析手法ですが,応用範囲が大きく役に立つので,実データでの実践までやってみてください. 11-12: 他が(機械学習において)教師あり学習と呼ばれるのに対し,クラスタリングは教師なし学習です.この両者の違いにも意識して学習してください. 13-14: 近年のビッグデータ分析の基本技術です.この範囲の内容は座学中心で行います.学部の段階では,気楽に聞いて大雑把に仕組みを理解できる程度でよいでしょう. 15: PBL形式の課題を出す予定です.結果を出す過程で,いろいろなデータ加工が必要になることを実践を通りて感じられたらよいです. |
履修上の注意 受講条件等 |
情報科学部データサイエンスコースの必修科目 |
成績評価の基準等 |
期末試験は行わず,授業中に課す(演習)課題を中心に以下の比重で評価します. (演習)課題70% 授業中に課す課題への取り組み状況などの平常点30% |
実務経験 |
有り
|
実務経験の概要と それに基づく授業内容 |
講師は,企業の研究所にてデータマイニングの研究開発及び製品開発を長年担当しており,その技術を証券会社,病院などに導入した実績を持つ. |
メッセージ |
|
その他 |
必携PCにWindowsを指定している情報科学部生を対象とした講義のため,演習資料はWindowsを想定して作っています.必携PCがMacの人は,事前にMac上でWindowsを動かせるようにしておくことを推奨します.(演習内容はMacでも動作します.ただしMac独自の対応をするためには高いPC知識が必要です.TA数も少ないため,Macへの対応を自力でできる自信がない人はMac上でWindowsが動かせるようにしておいてください) |
すべての授業科目において,授業改善アンケートを実施していますので,回答に協力してください。 回答に対しては教員からコメントを入力しており,今後の改善につなげていきます。 |