首頁>資訊 >
“顯微鏡”式營銷洞察背后的黑科技 2021-12-02 06:22:11  來源:36氪

一、“顯微鏡”級別洞察力背后的黑科技

無論何時,市場洞察都是營銷人的眼睛,視線看向哪里、看到了什么,都左右著未來商業(yè)潮水的走向。

20多年前,“市場洞察”更多還被稱為“市場調研”,由于可獲取的樣本量有限,調研結果在如今看來并不精準,更難以稱之為“洞察”。

互聯(lián)網(wǎng)的興起才讓“洞察”真正成為可能。但受限于技術和產(chǎn)品能力,廣告主只能通過粗粒度的行業(yè)通用標簽來投放。例如,不同廣告主只能共用一個“美妝”的行業(yè)標簽,商業(yè)分析依舊無法達到理想中的“精準”。

如今,5G時代下,流量潮水正逐漸褪去,接近飽和的移動互聯(lián)網(wǎng)廣告市場正宣告著存量時代的來臨,營銷步入精細化階段。這意味著,洞察需要更加精準才有能力支撐更清晰的商業(yè)決策。

以美妝行業(yè)為例,廣告主不僅需要看見對美妝感興趣的人群在哪里,更需要知道對自己品牌感興趣的人群有哪些。

廣告的投放也不止于有限且固定的位置,還可以結合上下文場景。如主打美白的產(chǎn)品可以植入到所有與“美白”相關的內(nèi)容場景中。

洞察不再只是粗獷的行業(yè)調研,而是能夠看見某一細分品類甚至某個產(chǎn)品的市場利益分析。

事實上,上述這些功能都藏在巨量引擎的商業(yè)數(shù)據(jù)產(chǎn)品巨量云圖中。有了這些精細的洞察,曾經(jīng)相對模糊的營銷的中上游如今有了更加清晰的視野,廣告主也能有的放矢,把控更多決策細節(jié)。

“顯微鏡”級別的洞察背后,是機器對萬億級數(shù)據(jù)流的抽絲剝繭,以及人類與機器的高效聯(lián)動。最初,巨量引擎技術團隊圍繞“精準洞察”需求,決定在3個層面升級技術能力,開發(fā)出更精細、靈活、快速的解決方案:

1. 基礎層:提升機器的內(nèi)容理解豐富度,產(chǎn)出更多樣化的標簽。

2. 應用層:洞察不僅要精準,更要為廣告主真正所需。因此搭建一個標準化標簽生產(chǎn)平臺,靈活滿足廣告主個性化標簽需求,做到“所需即所得”。

3. 效率層:提升數(shù)據(jù)查詢速度,確保廣告主即時看到分析結果,以快速跟進決策。

二、基礎層:讓機器理解更豐富的世界

在巨量引擎,內(nèi)容是最基礎的“原料”,無數(shù)內(nèi)容流匯成數(shù)據(jù)的基本盤,為商業(yè)分析提供不竭動力。但事實上,正如原油要經(jīng)過一系列工業(yè)流程才能變成有商業(yè)價值的石油,從海量內(nèi)容中提煉出精準的商業(yè)洞察還需要很多操作。其中最關鍵的一環(huán)就是讓機器能理解更多信息。機器獲取的信息量越大,輸出的標簽顆粒度就會越細,最終發(fā)現(xiàn)更具象的商業(yè)洞察。

整體上從兩個方面入手。一是在識別粒度上,將機器的文本理解能力提升至詞粒度;二是在識別廣度上,讓機器具備理解視頻的能力。二者都是為了讓機器從海量內(nèi)容中獲取更多的信息,“看見”一個更豐富的世界。

1. 細粒度的文本理解能力

在文本識別方面,機器的理解能力按照精細程度主要分為三個級別。同樣一篇文章,初級水平的機器只能知道這段文本講的是汽車,因此標簽的分類也十分粗糙;中級水平的機器能理解到語句級別,識別出這篇講汽車的文章中有多少篇幅講的是發(fā)動機;高級水平的機器更聰明一些,能夠識別出句子中的關鍵詞。文章中某輛汽車的品牌、型號、外形、性能、配置等各方面表現(xiàn)都能被準確識別出來。

在巨量引擎,機器的文本理解水平已經(jīng)精確到了詞粒度,達到了目前語義理解的最小單位。簡單來說,技術同學會制定一套具備商業(yè)屬性的關鍵詞策略,例如語義上是否相關、詞頻高低、熱度搜索趨勢、數(shù)據(jù)源是否有商業(yè)屬性等,機器會根據(jù)這套策略將識別到的詞語按照關鍵程度進行排序,越符合規(guī)定策略的詞則排名越高,最終被定義為商業(yè)關鍵詞。這些商業(yè)關鍵詞如果再經(jīng)過系統(tǒng)的“美工”,就是我們在分析中經(jīng)常看見的詞云圖。

2. 更廣泛的內(nèi)容識別范圍

對機器來說,視頻通常集圖像、音頻、文本等各個形態(tài)于一身,所以識別難度也比文本更高。在技術領域,通過機器學習的方法實現(xiàn)和理解多種形態(tài)信息的能力稱為多模態(tài)學習,這其中“模態(tài)”就是指各種信息的載體,如文本、圖像、聲音等。因此,視頻理解就是一個典型的多模態(tài)學習應用場景。通過“多模態(tài)學習”,機器能夠識別出更多數(shù)據(jù)形態(tài),對內(nèi)容的理解也會更充分。

整體而言,讓機器理解視頻主要分為表征、融合和分類三個步驟。

“表征”的作用類似于翻譯,即將文本、圖像、聲音等不同類型的數(shù)據(jù)轉換成機器能理解的“數(shù)據(jù)語言”,即同一種結構的數(shù)據(jù)。在“融合”階段,機器將采取不同的策略將多種模態(tài)的信息進行整合,尋找這些信息之間的關聯(lián)性,形成統(tǒng)一的認知。最后,機器在充分理解之后再把數(shù)據(jù)按照一級、二級行業(yè)屬性等規(guī)則進行歸類,相似的數(shù)據(jù)歸為一類,最終輸出“標簽”。

多模態(tài)技術科普視頻:機器是如何理解視頻的?

通俗來講,有了多模態(tài)技術的加持,就像人類掌握了多國語言。一方面,在缺失某種模態(tài)的情況下也能憑借另一種模態(tài)理解內(nèi)容;另一方面,通過對不同模態(tài)的信息進行融合,機器對內(nèi)容的理解也更加準確。

通過對文本與視頻的理解,機器將底層龐大的內(nèi)容流“劃分”成了各式各樣的標簽,這些標簽中有相對粗粒度的類目標簽,也有精細到詞粒度的關鍵詞,它們組成了龐大的商業(yè)標簽庫,成為滿足廣告主不同營銷需求的底層基礎。

三、應用層:高效滿足個性化洞察需求

雖然通過內(nèi)容理解技術,機器最終能夠輸出更精準的標簽。但這些標簽屬于標準化產(chǎn)物,產(chǎn)出后無法再更改和調整,因此依然很難滿足一些廣告主的個性化需求。

例如,如果廣告主只想投放對自己品牌感興趣的人群,或僅想知道與自身產(chǎn)品相關的利益點分析,那么就需要重新生產(chǎn)出一套符合自己需求的個性化標簽,這其中需要對標簽進行定義、根據(jù)規(guī)則在底層數(shù)據(jù)庫中進行挖掘、以及評估測試等多個流程,最后才能上線使用。

這一系列流程都是在標簽平臺上實現(xiàn)的。簡單來講,標簽平臺是搭建在內(nèi)容理解的能力基礎之上的標簽生產(chǎn)和管理工具。通過一套標準化的流程,讓不懂技術的業(yè)務同學也能夠根據(jù)實際需求自定義標簽規(guī)則,在平臺上靈活生產(chǎn)標簽。后來標簽平臺經(jīng)過內(nèi)測后對外開放,在巨量云圖上線為“標簽工廠”。

用技術同學的話說,標簽平臺的價值就像是將餐廳的后廚開放出來。如果菜單上沒有符合客人胃口的菜,那么就可以直接去后廚,挑選合適的食材,做出想要的美食(標簽)。

一言以蔽之,標簽平臺讓精準洞察具備了“適配性”:不僅精準,且為廣告主真正所需。

最終,通過內(nèi)容理解和標簽平臺,廣告主才能通過對全平臺的內(nèi)容指標分析,看到各種品類的市場趨勢。甚至還能通過分析某一特定品類的UGC及PGC內(nèi)容,得知產(chǎn)品賣點與用戶認知是否契合、正負評論各有哪些、產(chǎn)品利益點表現(xiàn)情況等。

人群方面,廣告主還能在標簽平臺上圈選出本品的興趣和機會人群,以及找出與目標群眾重合度高的KOL,大大降低營銷決策的風險。

四、效率層:讓商業(yè)分析唾手可得

如同古代的行軍打仗,戰(zhàn)報的送達時間密切影響著戰(zhàn)略決策,事關戰(zhàn)局輸贏。商業(yè)分析也是如此,對廣告主而言,如果數(shù)據(jù)不能被即時看見,就意味著不能盡快復盤,敏捷應對,那么其價值就會被削弱,即便洞察精準,依舊如管中窺豹。

事實上,廣告主每發(fā)出一次查詢請求,系統(tǒng)都要在海量數(shù)據(jù)庫中進行查詢、計算、分析等一系列復雜的操作,最終才將目標數(shù)據(jù)呈現(xiàn)在廣告主眼前。但在廣告主看來,這一切僅發(fā)生在眨眼之間。

如此高效的處理速度主要源于對數(shù)據(jù)存儲方式的優(yōu)化。對機器而言,不同類型的數(shù)據(jù)存儲方式很大程度上決定了查詢速度的快慢。就像從一個擁有10萬本藏書的圖書館里找到四大名著一樣,如果能將書籍按照內(nèi)容以及首字母進行分類和排序,很快就能找全四大名著。

因此,在數(shù)據(jù)存儲方式上,團隊請了一個“外援”——ClickHouse,一種高性能的開源數(shù)據(jù)庫管理系統(tǒng),專門擅長處理云圖這種數(shù)據(jù)量大、經(jīng)常承接各種靈活查詢需求的場景。憑借列式存儲結構(一列一個文件)和按列計算的特性,結合業(yè)務側數(shù)據(jù)分片處理,ClickHouse能夠高效讀取與計算出廣告主需要的數(shù)據(jù)。

例如廣告主想對一二線城市愛吃巧克力的女性進行內(nèi)容分析,傳統(tǒng)的數(shù)據(jù)庫則需要讀取所有數(shù)據(jù)才能依次篩選出一二線城市、女性、愛吃巧克力三個標簽,最后三個條件都符合的才是廣告主的目標人群。但如果使用ClickHouse這個“外援”,系統(tǒng)無需讀取全部數(shù)據(jù),只需查詢這三個標簽所在的“列”,再對這三組數(shù)據(jù)在用戶分片上進行“交并差”并行處理就可以了,大大節(jié)省了查詢時間。

在此基礎上,再通過“BitMap”技術縮小數(shù)據(jù)的存儲空間。Bit是計算機數(shù)據(jù)系統(tǒng)中的最小單位,一個bit值可以為1或0,我們經(jīng)常聽到的“byte”(字節(jié))可以換算為8個bit。而 “BitMap”正是采用bit數(shù)組的數(shù)據(jù)結構,將原始數(shù)據(jù)與bit數(shù)組里的位置建立映射關系。由于Bit的存儲單位很小,因此往往能夠節(jié)省大量存儲空間。

高度抽象一點說,“BitMap”的原理就像英語的縮略詞一樣。例如把雅思寫成全稱的形式“International English Language Testing System”需要占用45個字符,而如果直接簡寫成“IELTS”只需要5個字符就夠了,這樣機器讀取的時間就會大大縮短。

根據(jù)業(yè)務測試反饋,憑借ClickHouse和“BitMap”組合,巨量云圖的查詢速度提升了10-50倍,查詢時間已控制在3-5秒間,真正實現(xiàn)了商業(yè)分析的“所需即所得”。

結語:

內(nèi)容理解從底層解決了標簽的精準問題,標簽平臺從上層讓精準的洞察發(fā)揮出更多價值,查詢技術讓一切信息秒速進入人們的視線,正是通過一次次技術上的突破,才成就了如今洞悉更多商業(yè)細節(jié)的能力。

從創(chuàng)意生產(chǎn)到洞察分析,現(xiàn)在巨量引擎團隊又有了更多新思考,例如讓情感分析更加細膩、系統(tǒng)更加智能、生產(chǎn)更高效... 營銷的科學性也正是在無數(shù)次思考中走向普羅大眾。相信,這些細微的思考也會在未來帶來更先進的技術,解決更多難題。

關鍵詞: 顯微鏡 科技

相關閱讀:
熱點
圖片 圖片