課程背景:
我們正生活在一個信息爆炸的時代。全球主干通信網每天傳輸數萬兆兆字節數據。醫療保健業由醫療記錄、病人監護和醫學圖像產生大量數據。搜索引擎支持的數十億次Web搜索每天處理數萬兆兆字節數據。社團和社會化媒體已經成為日趨重要的數據源,產生數字圖像、視頻、網絡博客、網絡社區和形形色色的社會網絡。產生海量數據的數據源不勝枚舉。
數據的爆炸式增長、廣泛可用和巨大數量使得我們的時代成為真正的數據時代。急需功能強大和通用的工具,以便從這些海量數據中發現有價值的信息,把這些數據轉化成有組織的知識。這種需求導致了數據挖掘的誕生。這個領域是年青的、動態變化的、生機勃勃的。數據挖掘已經并且將繼續在我們從數據時代大步跨入信息時代的歷程中做出貢獻。
在本課程中,您將學習如何用R編程,以及如何使用R進行有效的數據分析。您將學習如何安裝和配置統計編程環境所需的軟件,并描述通用編程語言概念,因為它們在高級統計語言中實現。該課程涵蓋了統計計算中的實際問題,其中包括用R編程,將數據讀入R,訪問R包,編寫R函數,調試,剖析R代碼,以及組織和注釋R代碼。統計數據分析的主題將提供工作實例。
課程大綱
一: 為什么我們需要數據挖掘?
1、 什么是數據挖掘?——海量數據中尋找有價值的信息
2、 數據挖掘如何改變我們的生活?——推薦系統及精準營銷
3、 數據挖掘對企業的意義——用戶是業務的中心,用戶數據是關鍵資產
二、使用R編程的介紹
1、 基本編程概念:函數,變量,數據類型和向量
2、 將數據加載到R中
3、 概括您的數據
4、 圖形化數據并保存圖表
三、使用Tidyverse操作數據
1、 使用管道(%>%)創建無縫工作流程
2、 使用select()選擇一列或多列
3、 使用filter()選擇一行或多行
4、 使用mutate()添加新變量
5、 使用arrange()更改行的順序
6、 使用summarize()將變量轉換為單個值
7、 使用group_by()對觀察集進行分組
四、使用ggplot2可視化數據
1、 GGplot2語法
2、 散點圖
3、 barplots
4、 線圖
五、課堂實操任務
1、 將數據讀入內核
2、 使用直方圖繪制數值變量
3、 進行t檢驗
4、 使用條形圖顯示分類數據
5、 使用卡方檢驗