近日,廣東省廣州市檔案館與廣州大學人工智能學院聯合研發的"數字檔案智能篩密系統"正式投入使用,經系統性嚴格測試,該系統對各類密件的召回率達99%,密件與非密件識別準確率達97%,標志著我國檔案智能管理技術取得重大突破?。
該系統的研發面臨兩大技術挑戰:涉密數據"不可用"的安全紅線和檔案數字化成果識別"高復雜度"。“高仿真度的樣本合成”的創新性提出和實踐,將海量的非密檔案的數字化成果作為“背景庫”,同時通過技術的手段又生成了數千種不同形態的“密”字標識作為“前景信息”,將兩者都有效的融合在一起,生成數十萬張既不含任何真實的涉密信息又具備了密件的關鍵視覺特征的訓練樣本等。
針對檔案數字化副本識別高復雜度的技術難點,項目團隊研發出一款數字檔案篩密垂類多模態大模型。該模型不僅能精準捕捉標識的局部細節特征,更能通過其獨特的"自注意力機制"理解圖像的上下文及空間布局信息。為使其適應小樣本、高精度的專業任務需求,團隊還實施了"漸進式解凍""分層學習率"等一系列精細化訓練優化策略,顯著提升了模型的識別精度?。
在實現算法模型自主創新的同時,廣州市檔案館同步完成了全流程、全棧式國產化部署。智能篩密垂類大模型部署于局域網的一臺高性能AI算力服務器中,配置了4顆高性能華為鯤鵬48核CPU、1TB內存及8張32GB顯存的華為昇騰910B計算卡?。
這一硬件平臺為模型的穩定運行提供了強大的國產算力支撐,并實現了對PyTorch等主流深度學習框架的良好兼容。系統每小時可處理約2.5萬畫幅,大幅降低了人力成本與經驗誤差,徹底改變了傳統檔案篩密"慢、繁、難"的工作現狀?。
"自主算法模型+國產硬件平臺+物理隔離網絡"的綜合解決方案是從底層芯片到網絡環境再到上層應用的全鏈路自主可控實踐,實現了信息化建設與智能化轉型的新突破。這一模式不僅為檔案行業樹立了標桿,也為其他涉密領域的信息化建設提供了可借鑒的經驗?。
檔案行業專家普遍認為,智能篩密技術是檔案管理領域的重要創新,能夠顯著提升檔案安全保密工作的效率和準確性。該技術的問世同時,不僅能有效地破解了長期以來對檔案的開放審核所存在的“技術壁壘”和“標準壁壘”,也跨越式地對檔案的開放審核質效又上了一大等臺階。
隨著人工智能技術的進一步發展,智能篩密技術有望在更多檔案館得到推廣應用。根據《"十四五"全國檔案事業發展規劃》,我國將全面加快檔案數字化轉型和智能升級,加強大數據、人工智能等新一代信息技術在數字檔案館(室)建設中的應用?。
隨著技術的不斷突破,檔案智能管理將從目前的局部、淺的智能向更深的、更廣的智能方向發展。一方面,通過機器學習、知識圖譜、自然語言處理等人工智能技術的創新應用,能夠顯著提升檔案管理的自動化、智能化水平;另一方面,智能技術還能深入挖掘檔案數據的潛在價值,促進知識資產化管理,為決策注入數據支撐和知識服務?。
廣東廣州數字檔案智能篩密技術的突破,不僅為本地檔案管理工作提供了強大技術支持,也為全國檔案行業的數字化轉型樹立了標桿,標志著我國檔案事業正加速向智能化、現代化邁進。