人工智能入门——各种表示相关程度的距离
发布网友
发布时间:2024-10-02 00:58
我来回答
共1个回答
热心网友
时间:2024-10-24 14:10
人工智能深入学习,数学基础和传统知识不可或缺。在探索机器学习时,各种“距离”概念是关键。距离不仅是相似度的度量,如K-NN、UMAP和遗传算法,选择适合的在不同维度和数据类型的指标至关重要。本文将简述几种常用的距离,帮助理解其原理和应用。
首先,闵可夫斯基距离包括欧氏距离(p=2,衡量点间绝对距离)、曼哈顿距离(p=1,考虑每个维度独立),以及切比雪夫距离(当p趋于无穷大,只取最大坐标差)。然而,它们忽视了维度差异和分布特性。例如,资产与身高用相同距离衡量并不恰当,因为它们的数学分布不同。
欧氏距离在高维空间易受维数灾难影响,而标准化欧氏距离、曼哈顿距离和切比雪夫距离各有局限。余弦距离和皮尔逊相关系数通过向量方向衡量相似度,但前者对平移敏感,后者消除平移影响。
马氏距离考虑样本分布,是协方差空间的欧氏距离,排除了量纲和相关性影响。汉明距离用于衡量字符串替换次数,而杰卡德距离和相关距离则依赖于集合差异和随机变量的相关程度。
信息熵和交叉熵反映了样本分布的混乱度或一致性,而KL距离和JS距离用于衡量概率分布间的差异。最后,半正矢距离适用于地理空间信息,但需注意地球椭球体对精度的影响。
这些距离在人工智能领域扮演着不同角色,选择合适的距离有助于算法设计和优化。理解它们的特点和适用场景,是深入研究人工智能的必要步骤。