數(shù)據(jù)收集對(duì)于所有數(shù)據(jù)系統(tǒng)都是必不可少的。大數(shù)據(jù)的采集方式包括離線采集、實(shí)時(shí)采集、互聯(lián)網(wǎng)采集等數(shù)據(jù)采集方式。
北大青鳥(niǎo):陜西互聯(lián)網(wǎng)培訓(xùn)機(jī)構(gòu)哪家好
大數(shù)據(jù)的采集方式是什么?1、離線采集:工具:ETL。在數(shù)據(jù)倉(cāng)庫(kù)的上下文中,ETL基本上是數(shù)據(jù)收集的代表,包括數(shù)據(jù)提取、 Transform和加載。在轉(zhuǎn)換過(guò)程中,需要具體到業(yè)務(wù)場(chǎng)景數(shù)據(jù)治理,如非法數(shù)據(jù)監(jiān)控過(guò)濾、格式轉(zhuǎn)換和數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)替換、數(shù)據(jù)完整性等。2、實(shí)時(shí)采工具:水槽/卡夫卡。實(shí)時(shí)采集主要用于考慮流處理的業(yè)務(wù)場(chǎng)景,例如用于記錄數(shù)據(jù)源執(zhí)行的各種操作活動(dòng),如網(wǎng)絡(luò)監(jiān)控、金融應(yīng)用的流量管理。股票會(huì)計(jì)和網(wǎng)絡(luò)服務(wù)器記錄的用戶訪問(wèn)行為。在流處理場(chǎng)景中,數(shù)據(jù)收集將成為卡夫卡的消費(fèi)者,就像一座大壩,攔截來(lái)自上游的連續(xù)數(shù)據(jù),然后根據(jù)業(yè)務(wù)對(duì)場(chǎng)景進(jìn)行相應(yīng)處理(例如,去除重復(fù)、和噪聲、的中間計(jì)算等。),然后寫(xiě)入相應(yīng)的數(shù)據(jù)存儲(chǔ)器。
北大青鳥(niǎo):陜西互聯(lián)網(wǎng)培訓(xùn)機(jī)構(gòu)哪家好
這個(gè)過(guò)程類(lèi)似于傳統(tǒng)的ETL,但它是一種流處理方法,而不是定時(shí)批處理作業(yè)。這些工具均采用分布式架構(gòu),能夠滿足每秒數(shù)百M(fèi)B的測(cè)井?dāng)?shù)據(jù)采集和傳輸需求。了解更多花聯(lián)網(wǎng)技術(shù)學(xué)習(xí)課程盡在360育學(xué)北大青鳥(niǎo)。