在SQL的表达式里, 下面几种情况的逻辑值为真: “北京天意公司” like “%天意公司%” “北京天意公司” like “%北京%”下面几种情况的逻辑值为假: “北京天意公司” like “%天意 公司%” “北京天意公司” like “%天易公司%” “北京天意公司” like “%北京市%”如果有工具对字符串进行语义解析,能够将“北京天意公司”拆分为"北京"+"天意"+"公司",而不是"北"+"京天意"+"公司"或其他的什么,那还可以考虑继续处理。否则恐怕很难。
如果真的是没有什么规律,那么智能分析和筛选肯定是一个大课题。不过幸好我现在面对的问题比较简单一下,就是所有重复的单位名称只有“北京”或“北京市”的前缀差异,也就是说:所有重复数据中,只有三种可能:“天意公司”、“北京天意公司”、“北京市天意公司”。那么利用“北京天意公司” like “%天意公司%”的逻辑为真,是否可以建立筛选的查询呢?请Time Space 多帮忙想想,谢谢!
下面几种情况的逻辑值为真:
“北京天意公司” like “%天意公司%”
“北京天意公司” like “%北京%”下面几种情况的逻辑值为假:
“北京天意公司” like “%天意 公司%”
“北京天意公司” like “%天易公司%”
“北京天意公司” like “%北京市%”如果有工具对字符串进行语义解析,能够将“北京天意公司”拆分为"北京"+"天意"+"公司",而不是"北"+"京天意"+"公司"或其他的什么,那还可以考虑继续处理。否则恐怕很难。
以前我们单位也有类似的应用,通过Web采集感兴趣的人员的相关信息。这种情况应该在web上让用户尽量完整地填写内容。当然,访问者可能不是很情愿。
对于获得的信息还是要有人来回访核实才能保障正确性、真实性。