Trinity UDM非結構化文本資料整合解決方案

商業挑戰

企業內約有80%以上的資料為MS Office/Open Office/PDF/RTF/Epub/Mail等各式檔案,與外部HTML/RSS等各種網頁、Facebook/Twitter等社群內容、以至於各種NoSQL與搜尋引擎資料庫等資料,都是非結構化的文本形式。從前我們無法處理這些資料,近年巨量資料技術諸如Hadoop、NoSQL、映射化簡(Map Reduce)的發展給予我們存儲與運算前述資料的能力;但對於結構與格式複雜的各式來來源資料,如何快速有效地抽取、格式解析、篩選出所需資料,實為一項挑戰,往往IT必須客制程式來解決。如果內容為文字,還牽涉到詞句與語意的分析,技術就更加複雜了。

在巨量資料的浪潮下,面對以上挑戰,企業除須具備巨量資料平臺系統之外、尚需工具化文本資料解決方案來支援業務單位的多樣化訊息需求。

解決方案

TrinityUDM 非結構化文本資料整合解決方案是一套建立在工作調度管理之上、整合結構化資料與非結構化資料處理功能的工具化資料整合解決方案,如下圖。

  • 多樣化資料讀取與網路爬文

TrinityUDM提供各式檔案(MS office/Open office/PDF/RTF/Epub等)讀取、主流NoSQL(MongoDB/OrientDB/Cassandra)與搜尋引擎(Solr/ElasticSearch)資料庫讀取、以及網路爬文(HTML/RSS等各種網頁與Facebook/Twitter等社群)功能。

  • 豐富的文本分析與處理功能

針對非結構化資料中較難處理的文字內容,TrinityUDM提供語系識別、文件相似度判斷、文件分類、文件分群、文件樣式匹配、檔摘要、檔主題及趨勢等內容分析功能。

而其內容處理功能提供檔斷句切詞與關鍵字探索,所抽取的結果可儲存於NoSQL與搜尋引擎資料庫,或轉換為結構化資料儲存於ODBC資料庫中。

系統綜效

  • 簡化資料讀取與網路爬文作業管理

基於Trinity平臺之調度系統,簡化資料讀取與網路爬文作業的管理,並可納入企業整體調度運營,大幅降低IT運維成本。

  • 支援巨量資料的分析與應用

導入巨量資料的重點是借其發揮創新應用。TrinityUDM內建非結構化資料分析引擎及存取/轉換/處理元件,作為Big Data分析的基礎,強力支持行銷部門互聯網品牌的口碑,各行業顧問公司之間的互聯網輿情分析、企業檔識別歸檔與查閱、律師事務所法律案件或合約之研究審查、企業專利佈局或學術機構之論文研究等等巨量資料應用。

  • 橋接傳統BI系統

挖掘文本資料中的寶藏,轉換為結構化資料,與既有資料存儲及分析工具整合,橋接企業既有的BI系統,為其注入新價值。

Why Trinity?

  • TrinityJCS強大的調度管理,保障文本資料讀取與網路爬文的作業運作;
  • TrinityETL經由ODBC橋接傳統資料庫,讓巨量資料接軌企業既有BI系統;
  • UDM Plug-in提供文本分析與處理功能,特別是中文內容,支援企業快速導入巨量資料應用。