復(fù)雜場(chǎng)景
多模態(tài)數(shù)據(jù)分析和理解進(jìn)展迅速
要實(shí)現(xiàn)多場(chǎng)景“通用”,人工智能需要解決多源數(shù)據(jù)的問題。廈門大學(xué)科技部主任、人工智能研究所主任紀(jì)榮榮教授認(rèn)為,社交媒體等信息渠道包含大量非合作、異構(gòu)化、跨模式數(shù)據(jù),包含大量的人類知識(shí)和高價(jià)值信息,也包含各種自然和人為噪聲,其分析和處理需要集成腦計(jì)算、計(jì)算機(jī)視覺、自然語(yǔ)言處理等智能技術(shù)維度。
圖像文檔
近年來,人工智能與OCR(光學(xué)字符識(shí)別)技術(shù)的結(jié)合越來越緊密,漢字結(jié)構(gòu)、表格結(jié)構(gòu)、文檔整體結(jié)構(gòu)等復(fù)雜結(jié)構(gòu)的建模問題逐漸成為研究熱點(diǎn)。作為回應(yīng),中國(guó)科技大學(xué)語(yǔ)音語(yǔ)言信息處理國(guó)家工程研究中心副教授杜軍分享了該團(tuán)隊(duì)在文檔結(jié)構(gòu)層次重建領(lǐng)域的最新進(jìn)展。
“在目前的文檔分析任務(wù)中,大多數(shù)研究都是針對(duì)單頁(yè)中文章元素的分析,但從內(nèi)容的角度來看,許多文檔頁(yè)面與頁(yè)面之間的內(nèi)容是相關(guān)的。”杜軍表示,圖像文檔處理能力應(yīng)達(dá)到“章節(jié)級(jí)”,突破手寫和自然場(chǎng)景中漢字建模的困難,做好跨頁(yè)文檔元素分類和文檔結(jié)構(gòu)恢復(fù)是團(tuán)隊(duì)的主要研究目標(biāo)。
在活動(dòng)現(xiàn)場(chǎng),合和信息圖像算法研發(fā)總監(jiān)郭豐軍博士分享了公司技術(shù)團(tuán)隊(duì)在智能圖像處理技術(shù)模塊、集成技術(shù)典型應(yīng)用、圖像安全等領(lǐng)域的研究成果。
據(jù)郭鳳軍介紹,合和信息智能文檔處理技術(shù)基于圖像目標(biāo)區(qū)域的精確切割,對(duì)彎曲、傾斜的頁(yè)面進(jìn)行變形矯正。去除陰影和摩爾圖案后,通過人工智能技術(shù)提高文檔圖像的銳化和清晰度,可以達(dá)到“提高圖像質(zhì)量”的效果,提高識(shí)別轉(zhuǎn)換、圖像分析等文檔處理下游任務(wù)的質(zhì)量和效率。通過“掃描全能王”等智能文字識(shí)別產(chǎn)品,相關(guān)技術(shù)為全球數(shù)百個(gè)國(guó)家和地區(qū)的數(shù)億用戶提供服務(wù)。