互聯網信息采集系統
系統利用主題網絡爬蟲的特點,高效地、聚焦地、自適應地從多源、多格式的數據源中獲取行業的原始信息數據,使得行業信息的收集具有高覆蓋率。然后,對收集到網頁進行網頁去重、噪音過濾等處理,形成統一的文檔格式并存于原始文檔庫中。再依據原始文檔庫建立起倒排索引,建立網頁倒排索引庫。用戶可通過網頁檢索模塊實現網頁文檔的查詢與管理。原始文檔庫作為行業信息抽取的數據源。
互聯網信息抽取融合系統
通過對行業信息的規范化表達,總結文本中行業信息的語言描述特征,歸納文本中時空信息描述的語言結構,建立描述行業信息標注體系。同時以大規模網頁文本為數據源,建立大規模的標注數據源,形成高質量的時空信息標注語料庫。同時基于時間地理學理論,設計實現行業信息的時空匹配方法,將結構化、定性化的行業信息有機、直觀地表示在空間和時間軸上,實現行業實體演化空過程的空間化處理。
互聯網輿情采集分析系統
針對當前網絡文本中的行業信息,建立輿情關鍵詞,描述輿情話題間的熱度差異、內容特征、關聯關系以及傾向趨勢,對比不同階段的政府信息發布、公眾翻譯、媒體報道,分析事件的背景,研究時間產生的原因,為政府部門相關決策的制定提供相應的理論支撐。
互聯網信息公開查詢系統
以網絡爬蟲技術和信息挖掘技術為支撐,依托政府門戶網站系統建立信息公開查詢系統,提供各業務類別辦事咨詢、法律法規查詢、表格資料下載、辦事引導及結果查詢等服務。同時,利用新媒體時代下人際媒體和大眾媒體的優點,將行業信息公開查詢系統通過公眾微信、短信服務等主流新媒體形式推送給大眾,塑造政府公信,引導社會輿論。