如何收集數(shù)據(jù)(6種數(shù)據(jù)收集方法)
編輯導(dǎo)讀:隨著“數(shù)字智能”時代的到來,數(shù)據(jù)在我們生活的方方面面都是不可或缺的,你真的了解數(shù)據(jù)嗎?本文將為您重新解讀數(shù)據(jù)的概念和價值,以及在“數(shù)字智能”時代,數(shù)據(jù)的價值是如何一步步被應(yīng)用和升華的;因為內(nèi)容很多,作者分幾期給大家講解。
(資料圖)
在上一篇文章中,我們了解到“數(shù)據(jù)”是一個龐大的系統(tǒng)(如下圖所示)。本文對數(shù)據(jù)進行了透徹的解釋(1):數(shù)據(jù)來源;以菜市場為例說明數(shù)據(jù)源的含義。今天,陳驍主要告訴我們到達指定的“菜市場”后如何“買菜”,也就是數(shù)據(jù)采集的過程。
首先簡單分類介紹一下數(shù)據(jù)采集的方法,然后介紹每種數(shù)據(jù)采集形式需要注意的點。
線下(問卷、實地調(diào)研)——要點:遵循五要素!
5個要素:
1)聚焦研究主題和目的。
評價問卷調(diào)查質(zhì)量的一個最重要的標準就是問卷的內(nèi)容是否符合研究主題,即使問卷設(shè)計精美,如果與主題無關(guān),也毫無價值,因為進行問卷調(diào)查的本質(zhì)目的是調(diào)查相關(guān)要素與研究群體之間密不可分的聯(lián)系。
例如,調(diào)查用戶滿意度一般涉及兩個維度:產(chǎn)品本身(價格、包裝等)。)和受眾的特點(年齡、地域、心理滿意度等。).
2)標題易讀、易懂、概括。
問卷發(fā)放后,需要觀眾填寫,所以問卷的可理解性也最終決定了問卷的質(zhì)量。
問卷不是學(xué)術(shù)論文,也不需要涉及很多專業(yè)的、晦澀的詞匯才能體現(xiàn)專業(yè)性。調(diào)查人員能否真正理解是關(guān)鍵。
而概括性是指這個問題的設(shè)置是否對所有受眾都具有普遍意義。比如在調(diào)查居民出行方式的問卷中,你認為最安全的交通工具是A火車、B飛機、C寶馬汽車、D電動車。我們可以看到,選項C沒有普遍意義,也不是有A、B、d的維度選項。
3)充分考慮受訪者的特點。
在使用問卷調(diào)查法時,要充分結(jié)合轉(zhuǎn)崗群體的特點來設(shè)置問卷;例如,對于學(xué)齡前兒童和老年人,采取書面問卷的形式是不合適的。我們要充分考慮他們的語言偏好(有些老年人可能普通話不標準但方言流利)和理解內(nèi)容的能力,然后派采訪和研究小組進行研究。
4)充分考慮問題排序(循序漸進)
問卷的設(shè)置除了考慮每個問題的規(guī)范性和合理性外,還需要考慮問題之間的邏輯性和連貫性,避免在時間、空、人物等維度上頻繁跳躍。
5)充分考慮統(tǒng)計的便利性。
除了考慮問卷調(diào)查的受眾,問卷設(shè)置還需要充分考慮后期問卷回收后的統(tǒng)計分析;盡量減少下班后的壓力。不應(yīng)設(shè)置太多變量。我們應(yīng)該使用盡可能少的變量來有效地獲取標簽信息,并幫助研究后的定性分析。
在線(按數(shù)據(jù)采集端口分為APP端和web端)
APP端(主機)-數(shù)據(jù)埋點獲取相關(guān)數(shù)據(jù):
首先和大家聊聊科普。數(shù)據(jù)埋點是什么?以及為什么APP端要特別注意數(shù)據(jù)埋點。
所謂埋點,其實就是收集用戶在使用APP優(yōu)化產(chǎn)品和運營過程中的一系列行為數(shù)據(jù);然而,大多數(shù)應(yīng)用程序都有自己的服務(wù)和盈利能力(如淘寶、Get等)。),所以要想實現(xiàn)轉(zhuǎn)化和引導(dǎo)購買,就需要在具體的交互組件中埋下“點”(例如,點擊跳轉(zhuǎn)鏈接、購買按鈕等)。),然后分析PV、UV;停留時間、跳出率、購買率等指標均量化。
就埋點的形式而言,主要分為以下三種類型:
代碼嵌入點:當(dāng)控制操作發(fā)生時,數(shù)據(jù)通過預(yù)寫代碼發(fā)送。目前,百度統(tǒng)計和優(yōu)盟提供這項服務(wù)。
這里有一個例子。比如我們要統(tǒng)計淘寶APP中“添加購物車”按鈕的點擊次數(shù),點擊時可以調(diào)用該按鈕對應(yīng)的OnClick函數(shù)中SDK提供的數(shù)據(jù)發(fā)送接口發(fā)送數(shù)據(jù)。
優(yōu)點:控制數(shù)據(jù)發(fā)送時間,詳細記錄事件自定義屬性;缺點:時間和人力成本高,數(shù)據(jù)傳輸不及時。
可視化埋點:利用可視化交互手段,通過可視化界面配置控制操作與事件操作的關(guān)系,通過后臺截屏采集數(shù)據(jù);比如在用戶多次刷新時,結(jié)合大數(shù)據(jù)算法,計算用戶偏好并切換推送的內(nèi)容和產(chǎn)品,然后通過視覺嵌入自動切換對應(yīng)的個性化推薦內(nèi)容頁面。
優(yōu)點:成本低,速度快,有產(chǎn)品、市場等部門參與;缺點:行為記錄信息少,支持的分析方法少,開發(fā)負擔(dān)小。
無埋點:用戶顯示UI界面元素時,平臺會通過控件綁定觸發(fā)事件,當(dāng)事件被觸發(fā)時,系統(tǒng)會有相應(yīng)的接口供開發(fā)者處理這些行為;上傳UI界面后,系統(tǒng)可以自動識別生成控件的唯一ID,該ID在程序內(nèi)部生成。只要這些id在不同手機上相同,就可以實現(xiàn)無埋點的用戶端數(shù)據(jù)采集。
優(yōu)點:無需埋點,方便快捷;缺點:行為記錄信息少,傳播壓力大。
網(wǎng)站-網(wǎng)絡(luò)爬蟲(python,C…):
就具體語法而言,由于使用的工具不同,無法對具體語法提供指導(dǎo)(大家根據(jù)自己的語言搜索CSDN),但其整體方法論是一致的。
方法學(xué):手動確定抓取信息維度→分析目標網(wǎng)站URL構(gòu)成→確認抓取工具→編寫編程語言→獲取數(shù)據(jù)→本地保存→跟進數(shù)據(jù)挖掘。
本期,筆者通過一個“買菜”的例子,帶大家了解了幾種數(shù)據(jù)收集的方式,相信大家都有收獲!
下期,筆者將基于數(shù)據(jù)收集,講解如何使用常用工具進行數(shù)據(jù)清理以及數(shù)據(jù)清理的幾個維度!
[email protected]??是產(chǎn)品經(jīng)理,未經(jīng)作者允許禁止轉(zhuǎn)載。
圖片來自Unsplash,基于CC0協(xié)議。
責(zé)任編輯:Rex_21