先來看一個段子:有次聚會當大家談到手機充電時,一個哥們說自己買了很多條iPhone數據線,家里每個房間插一條,這樣自己可以很方便地隨時充電……….。在場的MM們大多都沒有特別在意他這種充電心得,只是笑笑就過去了。只有一位細心的MM悄悄問他一共買了多少條,他說42條。現在這位MM和這哥們在北京一套總共有42個房間的豪宅里愉快地生活,正準備下個月結婚。
【這就是數據分析】!
再來一個:近日,一小伙專門應聘上海均價最高之一高檔小區的物業管理,自己配了掃描槍,每天就盯著小區垃圾堆,看見有條形碼就掃描,晚上回家把數據整理出來,得出這小區喝什么水吃什么油買什么衣服。三個月之后,他就把整個小區的消費品類偏好和品牌偏好搞到一清二楚。
【以上算是數據挖掘】。
數據分析和數據挖掘還是有點區別的,雖然這篇文章不是專門論述兩者的區別,但還是簡單交待一下。
廣義的數據分析包括了狹義的數據分析和數據挖掘,所以下面講的數據分析主要是指狹義的。
數據分析(狹義)相對數據挖掘來說是比較簡單和通俗易懂一些,主要實現方法是統計分析方面的知識 ,最常見的做法是假設,然后通過數據分析來證明假設成立,常用匯總、對比、分組、交叉等方式,得到的值包括匯總值、差值、平均值等的。數據挖掘除了統計分析之外,還涉及人工智能方面的技術,常用方式包括決策樹,輸出模型,神經網絡等高端貨。
數據分析是一般人都能干的活,而數據挖掘則需要有一定潛質又要經過專業訓練才可以勝任的。因此說供水人雖然并不是個個都會做數據挖掘,但都應該具備一定的數據分析思維。
供水企業在生產、經營、管理和服務過程中,會產生很多數據,所以數據分析的對象和應用是相對廣泛的,這里僅舉幾個例子,意在拋磚引玉,希望有經驗的同行能有更多、更好的分享。
例1:你做過天氣數據的統計和分析嗎?
天氣數據有什么用?供水同行都知道,天氣因素將直接影響供(用)水量需求,在每年用水高峰期這種關聯關系更為明顯,在高溫天氣臨界區,平均氣溫每上升1度,炎熱就會讓用水量大幅增長。
對天氣情況分析常見的是氣溫變化和晴雨天數兩種。由于供水企業不是專業的氣象部門,所以通常對過去的數據進行比較分析為主,對未來短期預測分析為輔(數據來源也只是靠天氣預報)。
當某一時段供(用)水量變化異常時,就要考慮天氣情況是否也是異常的,需要對此進行兩者之間的關聯性,對這個假設作因果求證。常用方法是曲線疊加:例如將日供水量、日平氣溫數據制成曲線,看看兩者的趨勢是否基本一致。
對于晴雨天數,常見用法的是將某一階段數據與歷史同期進行對比,對比的結果差異越大,說明因果關系越強。除此之外,利用晴雨天數也可以對未來作一些預測,因為某個地區一年的晴雨天數大致是接近的,如果晴天或雨天在前期多了,那是不是意味著后期就會減少呢?
最后一點我們必須要考慮,除了天氣因素還有很多因素會影響供(用)水量變化,例如經濟景氣程度、供水區域變化、用戶數量增減等等,但天氣因素的特點是對供水量的影響幾乎是全面性的,氣溫上升或晴天增多將會讓各行各業的用水量都增加,反之氣溫下降或雨天增多,幾乎所有用水需求都會下降。而經濟景氣程度也不至于會造成全面影響,其主要影響工業、商業、特種用水以及外來人口集中區的居民用水等,對于大部分剛需用水的影響不大,例如常住的居民用水、行政、綠化、學校的用水等等。所以說要對某一時段供(用)水量做分析和預判,為什么首先要對天氣數據進行分析,因為這個比其他因素的影響要全面得多。
例2 對用戶用水量進行排序,你會發現些什么?
例如,每個月抄完水表等售水數據出來后,你按水表口徑分類,將所有居民用水的水量用降序進行排序,你會得到一份不同口徑居民用戶用水量的排名,然后再重點關注排在前面那些用水量超多的用戶,例如某個居民用戶僅僅是DN15水表,某個月卻抄回來1000多噸水,你會想到什么?
A、一個月用這么多,不會是水表故障、發神經吧?
B、是不是抄表員抄錯表才搞回來1000多噸?
C、是不是抄表員以前沒真正抄過水表,這次一下子把以前欠抄的都抄了回來?
D、是不是用戶檔案搞錯了,實際根本不是DN15水表,而是個DN50大戶吧?
E、是不是用戶家里沒有人住又漏水了,一天24小時不停的漏才有這么大的量啊?
F、是不是用戶把水管拉到了其他地方用,搞起了轉供、轉售水行當?
G、是不是用戶家里搞什么小作坊,例如食品加工之類的,才能耗掉這些水?
H、不會是有一幫傳銷人員聚在一起吧?
I、聽說家里搞冰毒才會耗掉這么多的水………….
你做了一個用水量排序篩選,讓你發現了一個DN15水表一個月抄回來1000多噸水,然后又讓你想到了上面這么多可能發生的事情,是不是有點意思?
同樣的如果做一個反向排序,讓用水量少的排在前面,再剔除零用水量的用戶(或者順便做一個無用水的占比分析,看看是否合理),那么關注點就落在了這些用水極少的用戶身上,尤其是那些水表口徑大但用水量又特別少的,是不是又會讓你有很多想法,包括水表是不是有故障、用戶有沒有盜水,抄表員沒有抄錯表吧、甚至內部人員會不會徇私舞弊等等。
排序篩選是常用的數據分析方法,除了用水量,還可以針對更多,例如把欠費的清單排一下,看看誰欠的費用多,次數多;把水表使用年限進行排序,看看歷史最悠久的在用水表是哪一個?
但凡熟悉業務又有分析習慣的人,都會采用數據分析方式來找異常情況,而一旦面對這些異常數據,通常都會產生很多想法,然后順著這些可能發生的情況再去一一求證,肯定會找到數據背后的真相,如果又能長期堅持這種做法,相信一定能取得令人滿意的管理成效。
數據分析的價值可能就在于此。
例3 如果你有管道漏水維修記錄,你可以做什么?
如果某一天,你手上拿到了整個公司或某個區域某一時期(例如上一年)所有的管道漏水維修記錄,你可以做些什么樣的數據分析,你可能最快想到的就是對這些記錄做一個分類統計,通常能做出這些分類統計結果:
A、按管材分類統計發生的次數。
B、按管道口徑分類統計發生的次數。
C、根據維修地點進行分類,統計各個區域發生的次數。
D、按投入使用年限統計發生次數。
E、按發生漏水的原因、狀況進行分類統計。
F、按管道安裝隊伍進行分類統計。
G、按明漏和暗漏來分類統計…….........
當你做完這些分類統計,也許已經會得到一些初步的結果,例如某種管材漏水率會高一些,或者更復雜一些的組合分析結果:某種管材在某些管徑范圍讓某些人安裝在某些區域,其發生漏水機率相對高很多等等。或許能得到這些結果,幫助我們進行輔助參考,已經讓我們感到很興奮和滿意,但我要說的是這樣的數據分析還是不夠全面的,會存在判斷失誤的風險。
為什么這樣說,其道理就是一個區域某段時間內(例如一年)所發生的管道漏水維修記錄,僅僅是代表著已經發現的管道漏水故障的修復情況,但不明確還有多少未知的漏水故障,所以統計對象的范圍并不具備足夠代表性。那該怎么辦,難道這些數據就沒有意義,如果結合管網漏損率分析就會讓結果更加穩妥。例如在有DMA的情況下,一個區域管道漏水維修次數少,且管網漏損率低,那么是相對合理的;如果管道維修次數少,但管網漏損率高,那么是不是代表著還有較多的漏點或有很大的漏點沒有找到,這才是讓人更為擔憂結果。
所以這里要表達的是,單一地去看數據分析的對象、方法、結果可能都是對的,但在應用過程中還要考慮數據分析的范圍是否達到足夠的廣度,分析的層次是否達到足夠的深度,否則就會出現片面的、讓人誤判的分析結果。
還有什么有趣的數據可以分析?
A、算一算供水范圍內的住房空置率。設定的一個周期,例如連續六個月,然后把周期內沒有用水的居民用戶篩選出來,然后算一算這些居民用戶所占所有居民用戶的比例是多少,這個比例可以作為無用水率的參考值,某種意義也可以代表供水范圍的住房空置率。
但這個無用水率可真不是用來做買房參考的,而是一個用水狀況的宏觀數據基準值之一。定期測算和關注這個數據的變化,可以讓管理者心中有數。如果有微觀的數據,即在更小的區域獲得,例如在DMA區域內也有這樣的數據,精細化管理是不是又邁進了一步,相信大家都已經想到可以有N種用法。
B、關注居民用水的戶均用水量。這個可以做兩個數據,一個是包含所有居民用戶的(即包括無用水戶的),另一個只是針對有用水用戶的。宏觀數據可能會通過較長時間觀測才能發現一些明顯的變化,但微觀數據則很容易發現差異。這里以后面這個為例,這個數據至少可以用來觀測兩個方面變化,一個是戶均用水人數的變化,如果用在外來人口密集區域,戶均用水量變化是不是代表著每一個水表所住的人多了或者少了;另一個可以用來觀測居民生活水平的變化,因為我們知道人民生活水平的上升,其生活用水量也會有一定的增加。如果你掌握了供水范圍內各個細分區域的戶均供水量情況,同時也做了近年增量趨勢圖,是不是可以用來作為區域配水管網改造的參考依據,順便考慮一下自己在哪里買個物業比較合適?
C、如果你有很多個營業廳和比較多的收費人員,同時又掌握每個人收費業務完成數據,是不是可以考慮做一個收費效率參考指標,然后對收費人員工作效率作評價,看看哪一個是業務能手,哪一個營業廳的收費人員已快滿負荷,需要考慮增加人手;哪一個營業廳是人員單位效率不足導致業務負荷大,真正需要的是提升個人效率而不是盲目增加人手?
D、如果抄表員的抄表機或抄表軟件有數據分析功能,除了抄表軌跡,是不是也查看一下大家每日抄表數量,從而判斷是否有個別人對抄表工作過度熱愛,一天抄回的水表數大大高于常人。
總而言之,掌握數據,學會分析,總能讓我們更加接近真相,讓我們不會彷徨與恐慌。
希望以上這些能給您帶來參考與幫助。