2.3.1 问题属性向量空间的基本表示
每一个问题包含若干的属性,这些属性构成一个描述问题特征的集合,我们将其定义为问题属性向量空间。如果用VA表示问题属性向量空间,A1,A2,A3,……Am表示该空间上的向量,则:
其中,Ai(i=1,2,3,……,m)为问题某一方面的属性。这里的属性是指问题的静态特征,例如问题所涉及的时间、问题所属的专业领域、问题的求解类型、问题所属的层次、问题解的数目等。而aij(i=1,2,……,m;j=1,2,……,n)为第i个属性向量的第j个描述。
在问题理解研究中引入问题属性向量空间的原因有三:
(1)通过属性向量空间所体现的面向对象的思想来提高DSS中问题理解分析的准确性。对决策问题而言,不同的用户由于语言习惯不一样,会有不同的表述,虽然以人工智能技术为基础的自然语言识别技术已有了长足的进步,但仍不能准确而唯一地识别出不同表述的同一决策问题,计算机如果仅仅只从对决策问题的字面表述来识别,在问题类型判断、相似性判断等方面都容易产生歧义或偏差。但如果把它作为一个对象,无论其表现形式如何,其属性是不会变的,所以,在自然语言识别的基础上再配合问题属性的分析或识别,要比直接基于问题字面表述的识别更准确。这里,自然语言识别将主要用于识别问题的显性属性而不是用于直接识别问题的类型等隐含属性。
(2)问题是分类型的,同一类问题有其相同的基本属性和求解方法,不同的只是具体的条件和结果。这样对于同一类问题,一旦抽取了它的类,并对其属性和方法做好封装,则以后遇到这种问题时可以继承这些属性和方法,从而加快问题识别和求解的速度。
(3)以向量空间的形式来分析问题属性也便于用计算机对问题的属性进行记录和分析,虽然向量空间只是一种用于理论分析的数学表达形式,但它与谓词逻辑、BNF范式、知识框架乃至关系数据库等多种计算机数据信息及其结构的描述方式是相容的。例如可以用关系数据库来描述问题属性向量空间,此时,属性向量可以表示成关系数据表中的记录,而向量的坐标就可以表示成关系数据表中的字段。
2.3.2 问题属性向量空间的基本特征
我们认为,问题属性向量空间具有如下基本特征:
1.问题的属性是可以分类的
由于一个问题有其不同侧面的特征,这样,属性向量空间也就可以划分为若干的子空间,其中,某个子空间可表示为:
根据决策问题系统的层次特征,问题的属性分为显性属性和隐含属性两类,而显性属性又分为目标属性、条件属性和基本信息属性;隐含属性则分为类别属性和隐含约束属性。需要指出的是,对不同专业领域或不同求解方法下的问题,其属性项目是不完全相同的。但对于同一专业领域的同一类决策问题,其属性项目则是相同的,不同的只是属性的取值。这样在DSS中,我们可以把某个领域中的决策问题的属性事先归类,再由领域专家将每类问题所包含的属性项即这里的子空间向量进行设置,而一般用户只需要输入相应的属性值即可,从而使问题的属性分析对一般用户而言变得比较简单。
2.问题属性向量存在两种状态
对一个问题,即使知道其所有的属性名,也不一定知道每个属性的取值。就属性的取值而言,存在着“已知”和“不明”两种状态。也正是因为问题的全部属性未明,人们才需要对问题求解,这里我们把问题的答案也作为问题的一类属性。这样,对于一个属性向量,可以设置一个状态标记坐标,来标明该向量取值坐标的标量值是否已知:
VAi=(ai1,ai2,……,ain)Tais⑨{x|x=0,1}(s<n)(6)
这里,ais为第i个属性的状态标记,0表示“不明”状态,1表示“已知”状态。
值得注意的是,从动态角度看,当问题的属性值在求解过程中被逐步明朗化时,问题的属性状态就会变化。因此,问题属性的分析就是描述已知值属性,找出不明值属性,而问题的求解过程实际上就是根据已知属性值来求解不明属性值的过程,同时也是属性状态标记变化的过程。
3.问题的相似性可以根据属性向量来判断
文本信息检索的向量空间模型中的文本相似度分析[é5][é6]也可以运用于问题的相似性判别中。对问题属性向量空间中的每一个向量,可以设置一个权重坐标,并由所有属性向量的权重坐标值构成一个问题属性权重向量:
W=(W1,W2,……,Wm)(7)
假设问题属性向量空间的n维坐标系中第j个坐标为权重坐标,则:
Wi=aij(8)
这里,Wi为权重向量的第i个坐标值,aij为第i个属性向量的权重坐标值。而各属性权重值W取决于问题的类型。例如线性规划问题可以赋予约束条件类属性以更高的权重,而预测问题可以赋予历史数据类属性以更高的权重。利用向量空间模型的向量间夹角余弦公式可计算两个向量的相似性[é5][é6],设W1=(W11,W12,……,W1m),W2=(W21,W22,……,W2m),两个问题的相似性判断公式为:
式中Sim(W 1,W2)为两个问题的相似度,该值越高表明两个问题越相似,而相似的问题可以采用相似的方法来求解。该方法可运用于不同表述形态问题的匹配中。如果已知某个问题的类型并描述了其属性,可以在该类问题的问题库中利用相似性判断公式来找到与其最相似的问题,如果找到的最相似问题已经有了现成的解法,则可以直接加以利用。但式(é)也存在一定的不足:首先,两个问题的属性向量坐标(即属性项目)必须一一对应,而在实际应用中是很难确定这种对应关系的。其次,问题的每个属性必须赋予权重,这使得权重的确定对判断结果的准确性有很大的影响。对此,我们将在后面提出更为合适的问题相似性判定方法。
上述问题属性向量既包括了问题的显性属性也包含了其隐性属性,需要注意的是隐性属性的状态不一定是“不明”的,因为有些属性不一定会包含在问题的字面表述中。当问题的属性被识别以后,将进入更深层次的问题理解,即子问题的辨识与问题分解。