live casino online

甚麼是资料勘探?

资料勘探是一种能让公司利用一些技巧和工具来从长期蒐集的资料中截取有用资讯的方法,这些资讯包括对资料的分析叙述,或是对未来的预测。

资料勘探

资料勘探是在數據集內尋找資料的程序,亦被稱為數據庫知識探索(KDD)。透過资料勘探,用戶可得到兩種數據,包括敘述式數據或可用於預測未來的數據。

资料勘探的第一步,也是最困難的一步,就是要設定業務目標,這亦是最關鍵的。如果您不知道自己在尋找甚麼,您會很難選擇合適的机器学习类型、演算法及模型来取得所需资讯。

资料勘探可用於營銷及市務推廣,讓商業機構更了解其客戶及市場情況。學校及大學可以用它來更好了解學生,包括分析他們在虛擬課室所花的時間、打鍵盤次數、學生同時參與的課堂或取得最佳測驗分數的班別等。

機構也可以利用资料勘探來優化運作,例如更好了解製造流程、部件要求、故障情況、系統失靈及其他等。在偵測詐騙上也可應用此技術,銀行界可以利用资料勘探來尋找詐騙模式及找出那個機構被入侵。

第二步就是要準備您的數據。假如您了解自己的目標,您的數據科學家就可以決定採用合適的數據集,從而產生對業務有用的資訊。在這步驟中,數據科學家必須先清理數據,消除重複及異常值,並補充欠缺的資料,以預防资料勘探演算法及工具未能提供所需結果。

第三步就是要建立模型及進行勘探,而以下技術及工具亦在此時加入運作。资料勘探使用的深層學習演算法,可以是受監督或不受監督的學習方式。

第四步亦是最后一步,就是评估数据挖掘产生的结果,与及以此為据採取行动令机构获益。

资料勘探技巧

资料探勘技巧可让资料科学家和公司更妥善发挥大数据的效益,以下是一些常用的技巧:部份常用的技巧包括:

  • 模式追踪是一种寻找规律和模式的基本技巧,例如当暴风雪来临时,除雪铲的销量就会增加。不过,您要寻找的不会是像这麼显而易见的事实。
  • 分类是另一种将资料分门别类并归纳类别的技巧,例如您可以根据银行客户的金融史,来将客户分成低、中、高叁种信用风险等级。
  • 关联是另一种与模式追踪类似的技巧,它寻找的是与某个些时机相关的可变因素。例如,当客户将义大利麵放入购物车时,接下来他们通常会挑选酱汁。或者,在挑选酱汁之后,接着就是挑选帕玛森起司。
  • 异常值侦测是一种专门寻找例外或异常状况的资料探勘技巧。例如,六月份女性顾客在男士商店的购物量突然暴昇,结果发现原来她们是為父亲购买父亲节礼物。
  • 聚类分析是与分类相似的技巧,不过数据是根据其相似性而归类。例如顾客会因為购物的频率或可支配收入而连繫在一起。
  • 迴归分析是根据过去数据预测新数值的技巧。迴归分析会参考过去一段时间的平均数值。因為很多数值都会不停波动,与现时的平均数值有所分别。
  • 預測是资料勘探的其中一個技巧,讓機構可以預測未來的數值。

    ?

资料勘探工具

资料勘探工具是改善资料勘探效率必不可少的一環,現今主要的工具包括:

  • MonkeyLearn
  • RapidMiner Studio
  • Sisense for Cloud Data Teams
  • Alteryx Designer
  • Qlik Sense
  • Orange

?

MonkeyLearn 是一個文本分析工具,可以用來偵測負面的網上評論或自動化籌號排序及分發程序。

是一個開放源碼平台,提供拖放介面讓非程式設計師客製化其用途。它可用作偵測詐騙及客戶變動。程式設計師可以利用 R 及 Python 副檔名來客製化资料勘探內容,並可透過用戶社群取得支援。

让团队合作从数据提取情报,而无须顾虑团队成员的技术水平。

让分析师可以利用一个工具来準备、融合及分析数据。

是一个视觉化软件工具,提供「具震撼力的图表」。它可以利用拖放功能来分析多重来源的数据。

资源