搜狐科技訊
5月17日,由搜狐主辦的2023搜狐科技峰會在北京盛大開幕。今年,搜狐科技峰會走入第五個年頭,峰會規(guī)格和內(nèi)容再次迎來重磅升級。本屆峰會齊聚多位院士、科學家、學者和頭部企業(yè)嘉賓,共同探討前沿科學與科技變革發(fā)展。
峰會下午,中國電信集團大數(shù)據(jù)和AI中心計算機視覺算法總監(jiān)何智翔發(fā)表了題為《數(shù)字人在中國電信客服業(yè)務(wù)智能化轉(zhuǎn)型中的實踐》的演講。
(相關(guān)資料圖)
何智翔表示,站在中國人工智能技術(shù)發(fā)展高度上來看,數(shù)字人這個技術(shù)還處在一個非常初級的階段,而并不是處在很成熟的階段。
“當前的數(shù)字人在跟真人體感交互和情感交互上面還有很長很遠的路要走,它距離我們所希望真正實現(xiàn)的那樣的一個數(shù)字人還有很大的差異。”何智翔認為,下一代數(shù)字人要解決人物生成、人物重建以及真實感的問題。
對于數(shù)字人客服整體的未來,何智翔認為,要通過大模型結(jié)合行業(yè)數(shù)據(jù),通過定制化形象,提供個性化的體驗,加上多方言多語種的互動,以及分析用戶數(shù)據(jù),感受用戶數(shù)據(jù),思考用戶數(shù)據(jù),主動分析用戶的痛點,真正實現(xiàn)自主化的客服。
何智翔在2023搜狐科技峰會上發(fā)表演講
以下為何智翔演講全文:
大家好,我第一次參加這樣的峰會,首先感謝主辦方提供這樣的機會,讓我跟這么多老師學習。也很榮幸作為一個技術(shù)人員代表中國電信跟大家分享一下在AI時代,電信對于我們自身的業(yè)務(wù)的一些思考和實踐。
為什么選擇這個演講標題呢,我不知道大家有沒有用過電信的手機卡,大家跟電信打交道,最多的時候就是跟客服人員打交道,所以在今年電信智能化轉(zhuǎn)型的一年,數(shù)字人客服作為電信一號工程受到了整個集團大力重視,所以今天我也跟大家分享一下數(shù)字人在中國電信客服業(yè)務(wù)智能化轉(zhuǎn)型中的實踐。
我們把電信的客服業(yè)務(wù)劃分成為三個階段。
第一個階段,是處于感知的階段,就是信息系統(tǒng),我們現(xiàn)在的客服業(yè)務(wù)就是處在這樣的階段,這個階段它的服務(wù)是標準化,同時我們認為整個系統(tǒng)是實現(xiàn)了高度數(shù)字化或者自動化。但是,我不知道大家有沒有發(fā)現(xiàn)這樣的系統(tǒng)有什么問題,它最大的問題是,我們被動獲取用戶打來的各種電話或信息,按照確定的路徑給他辦理一些業(yè)務(wù)。其實在這個過程中,我們是沒有任何思考。
到了下一個階段,也就是智能化轉(zhuǎn)型重點要建設(shè)的客服系統(tǒng),希望它能夠是智能系統(tǒng),會思考的系統(tǒng)。
在這個系統(tǒng)中,我們希望它能夠取代當前客服人員做大量的思考的工作,它能夠主動地思考用戶的核心關(guān)注焦點在哪里,因為有時候真正打電話過來,很多用戶也不知道他們給客服的核心訴求是什么,反正覺得業(yè)務(wù)不好用,或者花錢有點貴了,他們并不清楚自己核心的訴求在哪里,所以希望能夠結(jié)合很多信息真正去主動給客戶提供更好的體驗。
第三個,行為系統(tǒng)。相當于我們要主動跟這樣的環(huán)境做互動,跟用戶互動,讓客服真正地觸達到每個人的身邊,能夠真正地去解決客戶當前最急迫的問題,而不是被動等待客戶給我們投訴或者辦理這樣的一些業(yè)務(wù)。
整個電信客服業(yè)務(wù)有五個主要的辦理模塊,業(yè)務(wù)咨詢和業(yè)務(wù)查詢,其實流程都非常確定,但是依然會受到大量用戶的投訴或者不滿。
為什么,就是因為我們還是處在一個信息感知的階段,只是一個信息的搬運工,并沒有真正解決用戶的問題。
為什么自動化搞了這么多年還是有大量的人工在客服系統(tǒng)中存在,為什么搞了這么多年,用戶還是不滿意,我們也在思考這個問題。
在我們看來真正的核心解答就是我們并沒有真正地做到智能化系統(tǒng)解決用戶體驗的問題。
當然反過來講,站在客服的角度,我可能也必須要說一兩句公道話。
跟大家分享一個故事,我們的數(shù)字人上線以后,有一天客服部的人跟我講,你們這個數(shù)字人挺好的。我說為什么挺好,我們也同樣也被大量用戶投訴,打了低分的評價。他說很多用戶打電話過來就是為了發(fā)泄不滿,而在數(shù)字人身上發(fā)泄完了以后,給人工客服打電話的時候能平靜對待這件事情,這個事也挺好。講這個故事就是告訴大家這也是數(shù)字人客服能解決的另一方面的問題。
為什么我們電信可以干這樣的事情。
在多年的自動和于用戶打交道的過程中,電信沉淀了大量的運營經(jīng)驗,因為我們有平臺的優(yōu)勢。同時,在AI的發(fā)展浪潮當中也建設(shè)了很多自主的,不管是視覺、語義、語音也好等等,對很多核心算法進行了自研,同時打好了很好的PaaS或SaaS底座,能夠用好這些數(shù)據(jù),當然現(xiàn)階段用的并不足夠好。
為什么我們決定用數(shù)字人這個東西?我來到電信以后主要工作就是建設(shè)元宇宙,剛我們講到第三個階段,我們希望能夠有一個行動的東西,未來不管是機器人還是元宇宙,可能大家跟客服打交道的過程中,比如在虛擬世界中打交道,不會有很多線下營業(yè)廳。
在這種理論化的場景下,數(shù)字人是非常好的入口,所以我們開始建設(shè)這樣一個數(shù)字人的產(chǎn)品矩陣。到現(xiàn)在已經(jīng)形成了兩大數(shù)字人產(chǎn)品,一類是服務(wù)型數(shù)字人,一類是身份型數(shù)字人。
身份型數(shù)字人是我們打算建設(shè)集團級的IP,今年早些時候財報會,我們本來打算讓數(shù)字人串場,當時在香港發(fā)生了一些事故,播放器沒有播放,數(shù)字人沒有成功展示。
對于電信的數(shù)字人系統(tǒng)架構(gòu)來說,主要要點是要解決兩個問題,第一個問題,能夠快速地做部署。因為我們服務(wù)的對象不僅僅是平常接觸最多的熱線的客服,電信還有很多應(yīng)用比如愛音樂等,希望對這些電信體系內(nèi)的應(yīng)用客服都能夠做一個快速的支撐,所以這樣的數(shù)字人解決第一個問題,很方便部署一套統(tǒng)一的標準架構(gòu),業(yè)務(wù)這塊理解還需要做定制化。
第二個要解決的核心問題就是數(shù)字人快速制作和編輯,希望能夠通過這樣的平臺,實現(xiàn)整個客服系統(tǒng)數(shù)字人化改造在一周內(nèi)完成。
從去年10月份開始建設(shè)數(shù)字人客服到現(xiàn)在,經(jīng)過這么長時間的建設(shè),目前已經(jīng)初步實現(xiàn)了預(yù)期的目標,當然也是限定在客服第一代感知基礎(chǔ)上,我們先把數(shù)字人化,實現(xiàn)了第一階段的目標。
其實很多廠商都在做客服類的數(shù)字人產(chǎn)品,電信的數(shù)字人客服優(yōu)勢在哪里?
我們最大的優(yōu)勢就是在挑戰(zhàn)一個千萬并發(fā)架構(gòu),因為每天呼入電信用戶數(shù)量非常大。同時通過我們的建設(shè),已經(jīng)能夠初步地在微信公眾號或者各種應(yīng)用,給大家展現(xiàn)數(shù)字人的形象,目前還在做的一件事,探索熱線,直接蹦出一個數(shù)字人形象跟大家交流,而不希望是通過傳統(tǒng)的打電話也就是語音的途徑。
同時著重建設(shè)的是怎么樣解決客戶的痛點問題,我們上線以后對于用戶轉(zhuǎn)人工投訴量基本上能夠壓降到40%以內(nèi),這是我們?nèi)〉玫某晒?/p>
回到前面一直想跟大家說而沒有說的問題,我們?yōu)槭裁凑J為客服最終的形態(tài)或者說是數(shù)字人的形態(tài),為什么一定要有形象。
因為對于智能客服來講,哪怕是從感知到認知以后,我們也可以通過文本或者語音跟數(shù)字人交互,為什么還是要選擇數(shù)字人的形象呢?
因為我們本質(zhì)上,當客服形態(tài)進化到第三個階段以后,我們?nèi)烁鷻C器的交互,人與人的交互,甚至人跟AI智能體交互一定呈現(xiàn)擬人化的形象,以數(shù)字人作為入口,這是我們比較堅定的技術(shù)目標。
我們要做數(shù)字人客服,數(shù)字人客服核心還是多模態(tài)業(yè)務(wù)數(shù)據(jù)以及電信豐富的算力,包括正在建設(shè)的有效的大模型體系,希望能夠?qū)⑦@些數(shù)據(jù)真正轉(zhuǎn)化為知識、轉(zhuǎn)化為對業(yè)務(wù)的思考,通過AI,特別是最近火熱的Chat GPT或者GPT一系列大模型,真正為用戶解決問題,提供差異化的體驗。
目前我們的數(shù)字人客服建設(shè)已經(jīng)達到了1.0創(chuàng)始者的階段,接下來應(yīng)該有三年期的規(guī)劃,希望最終能夠?qū)崿F(xiàn)讓數(shù)字人客服成為一個普世者,希望實現(xiàn)主動外呼,韌性化引答和個性化體驗,這是整個建設(shè)的周期。
下面我談一談在數(shù)字人建設(shè)過程中的技術(shù)能力。
首先是視覺CV核心能力,構(gòu)建完成了從模特采集到最終渲染全鏈條的數(shù)字人能力,同時還實現(xiàn)了微表情的驅(qū)動,對于客服類場景一些核心的像實名認證,語音或者文本的驅(qū)動等也都實現(xiàn)了算法能力的建設(shè)。
其次是語音核心能力的建設(shè),現(xiàn)階段大家覺得語音有一個核心的問題,我們希望做超自然的對話,超自然的語音合成。但是這個能力的建設(shè)不是我們在數(shù)字人客服建設(shè)當中的核心能力,我們的目標是在多方言和多語種的建設(shè)上面。
為什么選擇多方言和多語種呢?因為我們希望數(shù)字人客服能夠服務(wù)于全國的百姓,很多偏遠地區(qū)人可能能聽得懂普通話,但是可能講不出來普通話,多方言的ASR語音能力,是我們語音識別能力的建設(shè)核心,目前基本實現(xiàn)了中英文以及北京、浙江、廣東、安徽四個省部分方言的識別能力。
語義核心能力上,電信現(xiàn)在已經(jīng)開始建設(shè)隊伍,希望我們的大模型就像ChatGPT一樣,即語義模型能夠回答用戶很多問題,能夠像人一樣思考。
站在中國人工智能技術(shù)發(fā)展高度上來看,我個人認為,數(shù)字人這個技術(shù)還處在一個非常初級的階段,并不是處在很成熟的階段。
為什么這么說?當前的數(shù)字人在跟真人體感交互和情感交互上面還有很長很遠的路要走,它距離我們所希望真正實現(xiàn)的那樣的一個數(shù)字人還有很大的差異。
對于數(shù)字人客服來講,我們選擇的技術(shù)路線剛大家也能夠看到,我們是以3D數(shù)字人為主,在數(shù)字人技術(shù)路線選擇上面有2D數(shù)字人和3D數(shù)字人兩條技術(shù)路線,但是我們認為不管是2D數(shù)字人也好,3D數(shù)字人也好,可能都不是我們認為的數(shù)字人技術(shù),我們現(xiàn)在以數(shù)字人客服項目為基礎(chǔ),正在做下一代數(shù)字人的研發(fā)。
首先什么是2D數(shù)字人和3D數(shù)字人呢,就是對于人物生成來講,2D數(shù)字人可能相對比較簡單,通常就是單張照片加固定模板的素材。對于3D數(shù)字人來講,是需要額外去使用三維建模技術(shù),同時信息維度會有增加,兩者在合成顯示上有明確不同,2D數(shù)字人是利用神經(jīng)網(wǎng)絡(luò)對視頻做合成,而3D數(shù)字人需要用渲染引擎做渲染。
下一代數(shù)字人有兩個要解決的核心問題。
第一個問題,就是人物生成、人物重建的問題。因為對于2D數(shù)字人和3D數(shù)字人來講,它們各有優(yōu)缺點,對于2D數(shù)字人來講,它雖然效果存在上限,動作前沿技術(shù)上存在瓶頸,但是技術(shù)復(fù)雜度低,成本較低,但是有一個很重要的特點,具有很強的真實感。
3D數(shù)字人問題在哪里呢,3D數(shù)字人雖然3D效果好,很立體,可以旋轉(zhuǎn),但是在PDR算法出來之前存在一個效應(yīng),隨著應(yīng)點和獨立算法突破以后,真實性也在大大提升,但是我們認為還不夠。
我們也對市場做過一些調(diào)研,2022年數(shù)字人綜合指數(shù)排名前十中,只有第五位是一個2D數(shù)字人,剩下全是3D數(shù)字人,所以剛剛我們也看到2D數(shù)字人它的核心問題是,它具備真實感,但是它沒有3D的效果,對于3D數(shù)字人它的問題是雖然有3D的效果,靈活度非常高,但是缺乏真實感。
對于下一代數(shù)字人我們要解決真實感的問題,要做人物的生成,這塊有兩個方向,一個方向是基于多模態(tài)大模型做一些數(shù)字人體的重建,包括場景的編輯,最近我們也看到一些論文已經(jīng)開始用類似模型做這樣的事情,包括風格化。另外,希望利用可渲染技術(shù),基于單張照片快速重建3D數(shù)字人的人體,對于合成顯示,希望突破像渲染引擎,通過類似利用渲染技術(shù)在神經(jīng)網(wǎng)絡(luò)直接實現(xiàn)渲染,這是現(xiàn)在的技術(shù)探索結(jié)果。
對于數(shù)字人客服整體的未來,我們的二階段的目標是認知。
我們希望實現(xiàn)自主化的客服,通過大模型結(jié)合行業(yè)數(shù)據(jù),通過定制化形象,提供個性化的體驗,加上多方言多語種的互動,以及分析用戶數(shù)據(jù),感受用戶數(shù)據(jù),思考用戶數(shù)據(jù),主動分析用戶的痛點,真正實現(xiàn)自主化的客服,這就是我們數(shù)字人客服的未來。
最后,在數(shù)字人客服的產(chǎn)業(yè)鏈上,電信在基礎(chǔ)層、平臺層、甚至行業(yè)應(yīng)用層都有觸及,但是作為負責任的央企,我們的目標并不是所有的事情都去做,我們更希望能夠建設(shè)整個生態(tài)鏈,我們也期待攜手產(chǎn)業(yè)鏈上下游企業(yè)一起開展全方位合作,共同創(chuàng)造整體的智能客服的新模式。
見證過5G商用元年及其應(yīng)用的爆發(fā),探討過AI技術(shù)發(fā)展與人文價值的平衡,搜狐科技峰會始終秉持媒體公共責任價值,宣揚求知探索的科學精神,聚焦前沿科學發(fā)展和技術(shù)創(chuàng)新應(yīng)用。
本屆峰會全新升級,重點聚焦更前沿的科學突破,展望人類更遙遠的未來。從宇宙文明、天文衛(wèi)星、人類永生,到核聚變、6G通信、腦機接口,再到通用人工智能時代啟幕下的行業(yè)變革,以及青年科學家的價值守望和基礎(chǔ)科學探索,都將是此次峰會關(guān)注的議題。
賡續(xù)探索精神,逐夢星辰大海。除本篇外,搜狐科技還將通過多種方式全方位呈現(xiàn)此次峰會嘉賓關(guān)于前沿科學與技術(shù)發(fā)展的洞見和思考。更多精彩內(nèi)容請關(guān)注2023搜狐科技峰會專題報道。
【附專題鏈接】
PC端
WAP端
APP端
文章來源:頂端新聞
文章鏈接:https://static.dingxinwen.com/dd-sharepage/detail/index.html?id=4268847#/?categoryId=3
責任編輯:Rex_17