UDM,TrinityUDM,

Trinity UDM

Big Data的高門檻,除了技術架構外,繁複多樣的資料,包括MS office/Open office/PDF/RTF/Epub等各式檔案、HTML/RSS等各種網頁與Facebook/twitter等社群內容、以至於各種NoSQL與搜索引擎資料庫等等,對於欲導入Big Data分析的企業,形成了技術障礙與負擔,因此極需導入一套有效處理非結構化數據、特別是文字的工具。

TrinityUDM非結構化資料管理系統是一套建立在作業排程管理(TrinityJCS) 之上、整合結構化資料(TrinityETL) 與非結構化資料處理功能的產品:

  • 內建非結構化資料分析引擎及存取/轉換/處理組件,作為Big Data分析的基礎;
  • 提供文本資料探勘功能,可作Big Data分析,或供轉換為結構化資料,與既有資料倉儲及分析工具整合。

如下圖。

多樣化資料讀取與網絡爬文

TrinityUDM 提供各式檔案(MS office/Open office/PDF/RTF/Epub等)讀取、主流NoSQL(MongoDB/OrientDB/Cassandra)與搜索引擎(Solr /ElasticSearch) 資料庫讀取、以及網絡爬文(HTML/ RSS等各種網頁與Facebook/twitter等社群)功能。

豐富的文本分析處理

非結構化資料中較難處理者為文本資料,特別是中文,這是本公司的優勢所在。針對所讀取的文本內容,TrinityUDM提供語系識別、文件斷句切詞、文件相似性判斷、文件分類、文件分群、文件樣式匹配、文件摘要、文件主題及趨勢等分析處理功能。文件斷句切詞功能可將文本內容抽取,轉換為結構化資料。

支援Big Data與傳統BI分析應用

TrinityUDM提供數據寫入NoSQL(MongoDB/OrientDB/Cassandra)、搜索引擎(Solr/ElasticSearch) 資料庫與ODBC,前者可介接Big Data分析、後者則供介接傳統BI系統。