搜狐科技訊
5月17日,由搜狐主辦的2023搜狐科技峰會(huì)在北京盛大開幕。今年,搜狐科技峰會(huì)走入第五個(gè)年頭,峰會(huì)規(guī)格和內(nèi)容再次迎來重磅升級(jí)。本屆峰會(huì)齊聚多位院士、科學(xué)家、學(xué)者和頭部企業(yè)嘉賓,共同探討前沿科學(xué)與科技變革發(fā)展。
峰會(huì)下午,中國電信集團(tuán)大數(shù)據(jù)和AI中心計(jì)算機(jī)視覺算法總監(jiān)何智翔發(fā)表了題為《數(shù)字人在中國電信客服業(yè)務(wù)智能化轉(zhuǎn)型中的實(shí)踐》的演講。
(相關(guān)資料圖)
何智翔表示,站在中國人工智能技術(shù)發(fā)展高度上來看,數(shù)字人這個(gè)技術(shù)還處在一個(gè)非常初級(jí)的階段,而并不是處在很成熟的階段。
“當(dāng)前的數(shù)字人在跟真人體感交互和情感交互上面還有很長很遠(yuǎn)的路要走,它距離我們所希望真正實(shí)現(xiàn)的那樣的一個(gè)數(shù)字人還有很大的差異。”何智翔認(rèn)為,下一代數(shù)字人要解決人物生成、人物重建以及真實(shí)感的問題。
對(duì)于數(shù)字人客服整體的未來,何智翔認(rèn)為,要通過大模型結(jié)合行業(yè)數(shù)據(jù),通過定制化形象,提供個(gè)性化的體驗(yàn),加上多方言多語種的互動(dòng),以及分析用戶數(shù)據(jù),感受用戶數(shù)據(jù),思考用戶數(shù)據(jù),主動(dòng)分析用戶的痛點(diǎn),真正實(shí)現(xiàn)自主化的客服。
何智翔在2023搜狐科技峰會(huì)上發(fā)表演講
以下為何智翔演講全文:
大家好,我第一次參加這樣的峰會(huì),首先感謝主辦方提供這樣的機(jī)會(huì),讓我跟這么多老師學(xué)習(xí)。也很榮幸作為一個(gè)技術(shù)人員代表中國電信跟大家分享一下在AI時(shí)代,電信對(duì)于我們自身的業(yè)務(wù)的一些思考和實(shí)踐。
為什么選擇這個(gè)演講標(biāo)題呢,我不知道大家有沒有用過電信的手機(jī)卡,大家跟電信打交道,最多的時(shí)候就是跟客服人員打交道,所以在今年電信智能化轉(zhuǎn)型的一年,數(shù)字人客服作為電信一號(hào)工程受到了整個(gè)集團(tuán)大力重視,所以今天我也跟大家分享一下數(shù)字人在中國電信客服業(yè)務(wù)智能化轉(zhuǎn)型中的實(shí)踐。
我們把電信的客服業(yè)務(wù)劃分成為三個(gè)階段。
第一個(gè)階段,是處于感知的階段,就是信息系統(tǒng),我們現(xiàn)在的客服業(yè)務(wù)就是處在這樣的階段,這個(gè)階段它的服務(wù)是標(biāo)準(zhǔn)化,同時(shí)我們認(rèn)為整個(gè)系統(tǒng)是實(shí)現(xiàn)了高度數(shù)字化或者自動(dòng)化。但是,我不知道大家有沒有發(fā)現(xiàn)這樣的系統(tǒng)有什么問題,它最大的問題是,我們被動(dòng)獲取用戶打來的各種電話或信息,按照確定的路徑給他辦理一些業(yè)務(wù)。其實(shí)在這個(gè)過程中,我們是沒有任何思考。
到了下一個(gè)階段,也就是智能化轉(zhuǎn)型重點(diǎn)要建設(shè)的客服系統(tǒng),希望它能夠是智能系統(tǒng),會(huì)思考的系統(tǒng)。
在這個(gè)系統(tǒng)中,我們希望它能夠取代當(dāng)前客服人員做大量的思考的工作,它能夠主動(dòng)地思考用戶的核心關(guān)注焦點(diǎn)在哪里,因?yàn)橛袝r(shí)候真正打電話過來,很多用戶也不知道他們給客服的核心訴求是什么,反正覺得業(yè)務(wù)不好用,或者花錢有點(diǎn)貴了,他們并不清楚自己核心的訴求在哪里,所以希望能夠結(jié)合很多信息真正去主動(dòng)給客戶提供更好的體驗(yàn)。
第三個(gè),行為系統(tǒng)。相當(dāng)于我們要主動(dòng)跟這樣的環(huán)境做互動(dòng),跟用戶互動(dòng),讓客服真正地觸達(dá)到每個(gè)人的身邊,能夠真正地去解決客戶當(dāng)前最急迫的問題,而不是被動(dòng)等待客戶給我們投訴或者辦理這樣的一些業(yè)務(wù)。
整個(gè)電信客服業(yè)務(wù)有五個(gè)主要的辦理模塊,業(yè)務(wù)咨詢和業(yè)務(wù)查詢,其實(shí)流程都非常確定,但是依然會(huì)受到大量用戶的投訴或者不滿。
為什么,就是因?yàn)槲覀冞€是處在一個(gè)信息感知的階段,只是一個(gè)信息的搬運(yùn)工,并沒有真正解決用戶的問題。
為什么自動(dòng)化搞了這么多年還是有大量的人工在客服系統(tǒng)中存在,為什么搞了這么多年,用戶還是不滿意,我們也在思考這個(gè)問題。
在我們看來真正的核心解答就是我們并沒有真正地做到智能化系統(tǒng)解決用戶體驗(yàn)的問題。
當(dāng)然反過來講,站在客服的角度,我可能也必須要說一兩句公道話。
跟大家分享一個(gè)故事,我們的數(shù)字人上線以后,有一天客服部的人跟我講,你們這個(gè)數(shù)字人挺好的。我說為什么挺好,我們也同樣也被大量用戶投訴,打了低分的評(píng)價(jià)。他說很多用戶打電話過來就是為了發(fā)泄不滿,而在數(shù)字人身上發(fā)泄完了以后,給人工客服打電話的時(shí)候能平靜對(duì)待這件事情,這個(gè)事也挺好。講這個(gè)故事就是告訴大家這也是數(shù)字人客服能解決的另一方面的問題。
為什么我們電信可以干這樣的事情。
在多年的自動(dòng)和于用戶打交道的過程中,電信沉淀了大量的運(yùn)營經(jīng)驗(yàn),因?yàn)槲覀冇衅脚_(tái)的優(yōu)勢(shì)。同時(shí),在AI的發(fā)展浪潮當(dāng)中也建設(shè)了很多自主的,不管是視覺、語義、語音也好等等,對(duì)很多核心算法進(jìn)行了自研,同時(shí)打好了很好的PaaS或SaaS底座,能夠用好這些數(shù)據(jù),當(dāng)然現(xiàn)階段用的并不足夠好。
為什么我們決定用數(shù)字人這個(gè)東西?我來到電信以后主要工作就是建設(shè)元宇宙,剛我們講到第三個(gè)階段,我們希望能夠有一個(gè)行動(dòng)的東西,未來不管是機(jī)器人還是元宇宙,可能大家跟客服打交道的過程中,比如在虛擬世界中打交道,不會(huì)有很多線下營業(yè)廳。
在這種理論化的場(chǎng)景下,數(shù)字人是非常好的入口,所以我們開始建設(shè)這樣一個(gè)數(shù)字人的產(chǎn)品矩陣。到現(xiàn)在已經(jīng)形成了兩大數(shù)字人產(chǎn)品,一類是服務(wù)型數(shù)字人,一類是身份型數(shù)字人。
身份型數(shù)字人是我們打算建設(shè)集團(tuán)級(jí)的IP,今年早些時(shí)候財(cái)報(bào)會(huì),我們本來打算讓數(shù)字人串場(chǎng),當(dāng)時(shí)在香港發(fā)生了一些事故,播放器沒有播放,數(shù)字人沒有成功展示。
對(duì)于電信的數(shù)字人系統(tǒng)架構(gòu)來說,主要要點(diǎn)是要解決兩個(gè)問題,第一個(gè)問題,能夠快速地做部署。因?yàn)槲覀兎?wù)的對(duì)象不僅僅是平常接觸最多的熱線的客服,電信還有很多應(yīng)用比如愛音樂等,希望對(duì)這些電信體系內(nèi)的應(yīng)用客服都能夠做一個(gè)快速的支撐,所以這樣的數(shù)字人解決第一個(gè)問題,很方便部署一套統(tǒng)一的標(biāo)準(zhǔn)架構(gòu),業(yè)務(wù)這塊理解還需要做定制化。
第二個(gè)要解決的核心問題就是數(shù)字人快速制作和編輯,希望能夠通過這樣的平臺(tái),實(shí)現(xiàn)整個(gè)客服系統(tǒng)數(shù)字人化改造在一周內(nèi)完成。
從去年10月份開始建設(shè)數(shù)字人客服到現(xiàn)在,經(jīng)過這么長時(shí)間的建設(shè),目前已經(jīng)初步實(shí)現(xiàn)了預(yù)期的目標(biāo),當(dāng)然也是限定在客服第一代感知基礎(chǔ)上,我們先把數(shù)字人化,實(shí)現(xiàn)了第一階段的目標(biāo)。
其實(shí)很多廠商都在做客服類的數(shù)字人產(chǎn)品,電信的數(shù)字人客服優(yōu)勢(shì)在哪里?
我們最大的優(yōu)勢(shì)就是在挑戰(zhàn)一個(gè)千萬并發(fā)架構(gòu),因?yàn)槊刻旌羧腚娦庞脩魯?shù)量非常大。同時(shí)通過我們的建設(shè),已經(jīng)能夠初步地在微信公眾號(hào)或者各種應(yīng)用,給大家展現(xiàn)數(shù)字人的形象,目前還在做的一件事,探索熱線,直接蹦出一個(gè)數(shù)字人形象跟大家交流,而不希望是通過傳統(tǒng)的打電話也就是語音的途徑。
同時(shí)著重建設(shè)的是怎么樣解決客戶的痛點(diǎn)問題,我們上線以后對(duì)于用戶轉(zhuǎn)人工投訴量基本上能夠壓降到40%以內(nèi),這是我們?nèi)〉玫某晒?/p>
回到前面一直想跟大家說而沒有說的問題,我們?yōu)槭裁凑J(rèn)為客服最終的形態(tài)或者說是數(shù)字人的形態(tài),為什么一定要有形象。
因?yàn)閷?duì)于智能客服來講,哪怕是從感知到認(rèn)知以后,我們也可以通過文本或者語音跟數(shù)字人交互,為什么還是要選擇數(shù)字人的形象呢?
因?yàn)槲覀儽举|(zhì)上,當(dāng)客服形態(tài)進(jìn)化到第三個(gè)階段以后,我們?nèi)烁鷻C(jī)器的交互,人與人的交互,甚至人跟AI智能體交互一定呈現(xiàn)擬人化的形象,以數(shù)字人作為入口,這是我們比較堅(jiān)定的技術(shù)目標(biāo)。
我們要做數(shù)字人客服,數(shù)字人客服核心還是多模態(tài)業(yè)務(wù)數(shù)據(jù)以及電信豐富的算力,包括正在建設(shè)的有效的大模型體系,希望能夠?qū)⑦@些數(shù)據(jù)真正轉(zhuǎn)化為知識(shí)、轉(zhuǎn)化為對(duì)業(yè)務(wù)的思考,通過AI,特別是最近火熱的Chat GPT或者GPT一系列大模型,真正為用戶解決問題,提供差異化的體驗(yàn)。
目前我們的數(shù)字人客服建設(shè)已經(jīng)達(dá)到了1.0創(chuàng)始者的階段,接下來應(yīng)該有三年期的規(guī)劃,希望最終能夠?qū)崿F(xiàn)讓數(shù)字人客服成為一個(gè)普世者,希望實(shí)現(xiàn)主動(dòng)外呼,韌性化引答和個(gè)性化體驗(yàn),這是整個(gè)建設(shè)的周期。
下面我談一談在數(shù)字人建設(shè)過程中的技術(shù)能力。
首先是視覺CV核心能力,構(gòu)建完成了從模特采集到最終渲染全鏈條的數(shù)字人能力,同時(shí)還實(shí)現(xiàn)了微表情的驅(qū)動(dòng),對(duì)于客服類場(chǎng)景一些核心的像實(shí)名認(rèn)證,語音或者文本的驅(qū)動(dòng)等也都實(shí)現(xiàn)了算法能力的建設(shè)。
其次是語音核心能力的建設(shè),現(xiàn)階段大家覺得語音有一個(gè)核心的問題,我們希望做超自然的對(duì)話,超自然的語音合成。但是這個(gè)能力的建設(shè)不是我們?cè)跀?shù)字人客服建設(shè)當(dāng)中的核心能力,我們的目標(biāo)是在多方言和多語種的建設(shè)上面。
為什么選擇多方言和多語種呢?因?yàn)槲覀兿M麛?shù)字人客服能夠服務(wù)于全國的百姓,很多偏遠(yuǎn)地區(qū)人可能能聽得懂普通話,但是可能講不出來普通話,多方言的ASR語音能力,是我們語音識(shí)別能力的建設(shè)核心,目前基本實(shí)現(xiàn)了中英文以及北京、浙江、廣東、安徽四個(gè)省部分方言的識(shí)別能力。
語義核心能力上,電信現(xiàn)在已經(jīng)開始建設(shè)隊(duì)伍,希望我們的大模型就像ChatGPT一樣,即語義模型能夠回答用戶很多問題,能夠像人一樣思考。
站在中國人工智能技術(shù)發(fā)展高度上來看,我個(gè)人認(rèn)為,數(shù)字人這個(gè)技術(shù)還處在一個(gè)非常初級(jí)的階段,并不是處在很成熟的階段。
為什么這么說?當(dāng)前的數(shù)字人在跟真人體感交互和情感交互上面還有很長很遠(yuǎn)的路要走,它距離我們所希望真正實(shí)現(xiàn)的那樣的一個(gè)數(shù)字人還有很大的差異。
對(duì)于數(shù)字人客服來講,我們選擇的技術(shù)路線剛大家也能夠看到,我們是以3D數(shù)字人為主,在數(shù)字人技術(shù)路線選擇上面有2D數(shù)字人和3D數(shù)字人兩條技術(shù)路線,但是我們認(rèn)為不管是2D數(shù)字人也好,3D數(shù)字人也好,可能都不是我們認(rèn)為的數(shù)字人技術(shù),我們現(xiàn)在以數(shù)字人客服項(xiàng)目為基礎(chǔ),正在做下一代數(shù)字人的研發(fā)。
首先什么是2D數(shù)字人和3D數(shù)字人呢,就是對(duì)于人物生成來講,2D數(shù)字人可能相對(duì)比較簡(jiǎn)單,通常就是單張照片加固定模板的素材。對(duì)于3D數(shù)字人來講,是需要額外去使用三維建模技術(shù),同時(shí)信息維度會(huì)有增加,兩者在合成顯示上有明確不同,2D數(shù)字人是利用神經(jīng)網(wǎng)絡(luò)對(duì)視頻做合成,而3D數(shù)字人需要用渲染引擎做渲染。
下一代數(shù)字人有兩個(gè)要解決的核心問題。
第一個(gè)問題,就是人物生成、人物重建的問題。因?yàn)閷?duì)于2D數(shù)字人和3D數(shù)字人來講,它們各有優(yōu)缺點(diǎn),對(duì)于2D數(shù)字人來講,它雖然效果存在上限,動(dòng)作前沿技術(shù)上存在瓶頸,但是技術(shù)復(fù)雜度低,成本較低,但是有一個(gè)很重要的特點(diǎn),具有很強(qiáng)的真實(shí)感。
3D數(shù)字人問題在哪里呢,3D數(shù)字人雖然3D效果好,很立體,可以旋轉(zhuǎn),但是在PDR算法出來之前存在一個(gè)效應(yīng),隨著應(yīng)點(diǎn)和獨(dú)立算法突破以后,真實(shí)性也在大大提升,但是我們認(rèn)為還不夠。
我們也對(duì)市場(chǎng)做過一些調(diào)研,2022年數(shù)字人綜合指數(shù)排名前十中,只有第五位是一個(gè)2D數(shù)字人,剩下全是3D數(shù)字人,所以剛剛我們也看到2D數(shù)字人它的核心問題是,它具備真實(shí)感,但是它沒有3D的效果,對(duì)于3D數(shù)字人它的問題是雖然有3D的效果,靈活度非常高,但是缺乏真實(shí)感。
對(duì)于下一代數(shù)字人我們要解決真實(shí)感的問題,要做人物的生成,這塊有兩個(gè)方向,一個(gè)方向是基于多模態(tài)大模型做一些數(shù)字人體的重建,包括場(chǎng)景的編輯,最近我們也看到一些論文已經(jīng)開始用類似模型做這樣的事情,包括風(fēng)格化。另外,希望利用可渲染技術(shù),基于單張照片快速重建3D數(shù)字人的人體,對(duì)于合成顯示,希望突破像渲染引擎,通過類似利用渲染技術(shù)在神經(jīng)網(wǎng)絡(luò)直接實(shí)現(xiàn)渲染,這是現(xiàn)在的技術(shù)探索結(jié)果。
對(duì)于數(shù)字人客服整體的未來,我們的二階段的目標(biāo)是認(rèn)知。
我們希望實(shí)現(xiàn)自主化的客服,通過大模型結(jié)合行業(yè)數(shù)據(jù),通過定制化形象,提供個(gè)性化的體驗(yàn),加上多方言多語種的互動(dòng),以及分析用戶數(shù)據(jù),感受用戶數(shù)據(jù),思考用戶數(shù)據(jù),主動(dòng)分析用戶的痛點(diǎn),真正實(shí)現(xiàn)自主化的客服,這就是我們數(shù)字人客服的未來。
最后,在數(shù)字人客服的產(chǎn)業(yè)鏈上,電信在基礎(chǔ)層、平臺(tái)層、甚至行業(yè)應(yīng)用層都有觸及,但是作為負(fù)責(zé)任的央企,我們的目標(biāo)并不是所有的事情都去做,我們更希望能夠建設(shè)整個(gè)生態(tài)鏈,我們也期待攜手產(chǎn)業(yè)鏈上下游企業(yè)一起開展全方位合作,共同創(chuàng)造整體的智能客服的新模式。
見證過5G商用元年及其應(yīng)用的爆發(fā),探討過AI技術(shù)發(fā)展與人文價(jià)值的平衡,搜狐科技峰會(huì)始終秉持媒體公共責(zé)任價(jià)值,宣揚(yáng)求知探索的科學(xué)精神,聚焦前沿科學(xué)發(fā)展和技術(shù)創(chuàng)新應(yīng)用。
本屆峰會(huì)全新升級(jí),重點(diǎn)聚焦更前沿的科學(xué)突破,展望人類更遙遠(yuǎn)的未來。從宇宙文明、天文衛(wèi)星、人類永生,到核聚變、6G通信、腦機(jī)接口,再到通用人工智能時(shí)代啟幕下的行業(yè)變革,以及青年科學(xué)家的價(jià)值守望和基礎(chǔ)科學(xué)探索,都將是此次峰會(huì)關(guān)注的議題。
賡續(xù)探索精神,逐夢(mèng)星辰大海。除本篇外,搜狐科技還將通過多種方式全方位呈現(xiàn)此次峰會(huì)嘉賓關(guān)于前沿科學(xué)與技術(shù)發(fā)展的洞見和思考。更多精彩內(nèi)容請(qǐng)關(guān)注2023搜狐科技峰會(huì)專題報(bào)道。
【附專題鏈接】
PC端
WAP端
APP端
文章來源:頂端新聞
文章鏈接:https://static.dingxinwen.com/dd-sharepage/detail/index.html?id=4268847#/?categoryId=3
責(zé)任編輯:Rex_17