预警信息内容的正确性直接关乎预警发布的有效性和权威性。目前的信息敏感词检测技术常见的方法是“黑名单”法,即事先把能群举的敏感词录入库中,发布预警信息时通过对比是否有“黑名单”中的敏感词,起到质控作用。
和“黑名单”法不同,安徽省预警信息中心利用双向长短期记忆条件随机场(Bi-LSTM-CRF)算法,通过双向循环神经网络(Bi-LSTM)对已有的合法预警信息文本数据集和开放域中文分析公开数据集进行训练,建立预警信息合法“白名单”。通过该技术建立的检测系统,能直接有效地对新的预警信息中可能含有的敏感字(词)、错别字等进行智能监测。