復雜場景
多模態數據分析和理解進展迅速
要實現多場景“通用”,人工智能需要解決多源數據的問題。廈門大學科技部主任、人工智能研究所主任紀榮榮教授認為,社交媒體等信息渠道包含大量非合作、異構化、跨模式數據,包含大量的人類知識和高價值信息,也包含各種自然和人為噪聲,其分析和處理需要集成腦計算、計算機視覺、自然語言處理等智能技術維度。
圖像文檔
近年來,人工智能與OCR(光學字符識別)技術的結合越來越緊密,漢字結構、表格結構、文檔整體結構等復雜結構的建模問題逐漸成為研究熱點。作為回應,中國科技大學語音語言信息處理國家工程研究中心副教授杜軍分享了該團隊在文檔結構層次重建領域的最新進展。
“在目前的文檔分析任務中,大多數研究都是針對單頁中文章元素的分析,但從內容的角度來看,許多文檔頁面與頁面之間的內容是相關的?!倍跑姳硎?,圖像文檔處理能力應達到“章節級”,突破手寫和自然場景中漢字建模的困難,做好跨頁文檔元素分類和文檔結構恢復是團隊的主要研究目標。
在活動現場,合和信息圖像算法研發總監郭豐軍博士分享了公司技術團隊在智能圖像處理技術模塊、集成技術典型應用、圖像安全等領域的研究成果。
據郭鳳軍介紹,合和信息智能文檔處理技術基于圖像目標區域的精確切割,對彎曲、傾斜的頁面進行變形矯正。去除陰影和摩爾圖案后,通過人工智能技術提高文檔圖像的銳化和清晰度,可以達到“提高圖像質量”的效果,提高識別轉換、圖像分析等文檔處理下游任務的質量和效率。通過“掃描全能王”等智能文字識別產品,相關技術為全球數百個國家和地區的數億用戶提供服務。