ee.Clusterer.wekaKMeans

k 平均法アルゴリズムを使用してデータをクラスタ化します。ユークリッド距離(デフォルト)またはマンハッタン距離のいずれかを使用できます。マンハッタン距離を使用する場合、重心は平均ではなくコンポーネントごとの中央値として計算されます。詳細については、次をご覧ください。

D. Arthur, S. Vassilvitskii: k-means++: 慎重なシード処理の利点。In: Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms, 1027-1035, 2007.

用途戻り値
ee.Clusterer.wekaKMeans(nClusters, init, canopies, maxCandidates, periodicPruning, minDensity, t1, t2, distanceFunction, maxIterations, preserveOrder, fast, seed)クラスタリング
引数タイプ詳細
nClustersIntegerクラスタの数。
init整数、デフォルト: 0使用する初期化メソッド。0 = ランダム、1 = k-means++、2 = canopy、3 = farthest first。
canopiesブール値。デフォルト値は false です。キャノピーを使用して、距離計算の回数を減らします。
maxCandidates整数、デフォルト: 100キャノピー クラスタリングを使用する場合に、一度にメモリに保持する候補キャノピーの最大数。T2 距離とデータ特性によって、定期的な剪定と最終的な剪定の前に形成される候補カノピーの数が決まります。これにより、メモリ消費量が過剰になる可能性があります。この設定により、多数の候補カノピーがメモリを消費することを回避できます。
periodicPruning整数、デフォルト: 10000キャノピー クラスタリングを使用する場合に、低密度のキャノピーを剪定する頻度。
minDensity整数、デフォルト: 2キャノピー クラスタリングを使用する場合の最小キャノピー密度。この密度を下回ると、定期的なプルーニング中にキャノピーがプルーニングされます。
t1浮動小数点数、デフォルト: -1.5キャノピー クラスタリングを使用する場合に使用する T1 距離。0 より小さい値は、T2 の正の乗数として扱われます。
t2浮動小数点数、デフォルト: -1キャノピー クラスタリングを使用する場合に使用する T2 距離。値が 0 未満の場合、属性の標準偏差に基づくヒューリスティックが使用されます。
distanceFunction文字列、デフォルト: "Euclidean"使用する距離関数。オプションは、ユークリッドとマンハッタンです。
maxIterations整数、デフォルト: null反復処理の最大数。
preserveOrderブール値。デフォルト値は false です。インスタンスの順序を保持します。
fastブール値。デフォルト値は false です。カットオフ値を使用して、距離の計算を高速化します。2 乗誤差/距離の計算/出力を無効にします。
seed整数、デフォルト: 10ランダム化シード。