欢迎光临散文网 会员登陆 & 注册

[数模必修课]数据去量纲

2023-08-22 14:38 作者:极冻科技  | 我要投稿

1. 数据的量纲

        假设有对象1, 2, 3, ..., n ;每个对象均具有m个不同的特征. 定义xij 表示第i个对象的第j个特征所指代的数值.

        由于不同的特征分布区间不同, 例如身高的分布区间为0.5m至3m .体重的分布区间为3kg 至200kg. 这些特征分布在不同的尺度范围内. 这种尺度本身就是对数据的一种加权.而这种加权只是根据数据的分布范围决定的,是一种人类主观定义的度量. 只要这种度量存在, 不同的特征之间无法进行相互比较.

        为了使得数据去除人类主观定义的单位(量纲), 需要将数据进行一系列变换.

2. 去量纲的常见公式

(1) 0-1变换:

x_%7Bi%20j%7D%5E%7B%5Cprime%7D%3D%5Cfrac%7Bx_%7Bi%20j%7D-%5Cmin%20_k%20x_%7Bk%20j%7D%7D%7B%5Cmax%20_k%20x_%7Bk%20j%7D-%5Cmin%20_k%20x_%7Bk%20j%7D%7D

其中x_%7Bi%20j%7D%5E%7B%5Cprime%7D为处理后的数据.

> 处理后的数据特点:

        [a] 必然会有0和1.

        [b]  数据的分布在0至1之间.

> 失效情况:

        [a] 后续对数据的处理需要使用对数时,会失效.

        [b] 最大值等于最小值.

失效情况的对策

x_%7Bi%20j%7D%5E%7B%5Cprime%7D%3D%5Cfrac%7Bx_%7Bi%20j%7D-%5Cmin%20_k%20x_%7Bk%20j%7D%2B%5Cvarepsilon%7D%7B%5Cmax%20_k%20x_%7Bk%20j%7D-%5Cmin%20_k%20x_%7Bk%20j%7D%2B%5Cvarepsilon%7D

其中x_%7Bi%20j%7D%5E%7B%5Cprime%7D为处理后的数据,%5Cvarepsilon%20为一个极小的正数.

ps:这里位置太小了,后续内容写不下,评论区回复 已三连 ,私信领取全部文档哟.


[数模必修课]数据去量纲的评论 (共 条)

分享到微博请遵守国家法律