Distinct 拡張メソッドで重複する要素をシーケンスから除外する
Distinct 拡張メソッドはシーケンス内で重複する要素を除外することができます。
namespace Tips_Linq
{
using System;
using System.Linq;
class Program
{
static void Main(string[] args)
{
var numbers = new int[] { 1, 2, 1, 3, 4, 2, 5 };
Console.WriteLine("コレクションの要素は {{ {0} }} です。", string.Join(", ", numbers));
var newNumbers = numbers.Distinct();
Console.WriteLine("コレクションの要素は {{ {0} }} です。", string.Join(", ", newNumbers));
Console.ReadKey();
}
}
}
数値型のシーケンスであれば、特に引数を必要とすることなく重複する要素を除外できます。
次に、以下のような Person クラスを定義します。
namespace Tips_Linq
{
using System;
/// <summary>
/// 人物データを表します。
/// </summary>
public class Person
{
/// <summary>
/// 氏名を取得または設定します。
/// </summary>
public string Name { get; set; }
/// <summary>
/// 年齢を取得または設定します。
/// </summary>
public int Age { get; set; }
}
}
このような Person クラスを使った Distinct 拡張メソッドのコード例とその実行結果を次に示します。
namespace Tips_Linq
{
using System;
using System.Collections.Generic;
using System.Linq;
class Program
{
static void Main(string[] args)
{
var p1 = new Person() { Name = "田中 淳平", Date = new DateTime(2011, 5, 2) };
var p2 = new Person() { Name = "鈴木 ほのか", Date = new DateTime(2014, 3, 24) };
var p3 = new Person() { Name = "小池 哲司", Date = new DateTime(2002, 6, 13) };
var people = new List<Person>() { p1, p2, p1, p3 };
foreach (var p in people)
{
Console.WriteLine(p.Name);
}
Console.WriteLine("重複要素を除外します。");
var newPeople = people.Distinct();
foreach (var p in newPeople)
{
Console.WriteLine(p.Name);
}
Console.ReadKey();
}
}
}
ところで、インスタンスは異なるけれど同じ名前のものは除外したい、というようなことも考えられます。ところが、次のようなコードでは実現できません。
namespace Tips_Linq
{
using System;
using System.Collections.Generic;
using System.Linq;
class Program
{
static void Main(string[] args)
{
var p1 = new Person() { Name = "田中 淳平", Date = new DateTime(2011, 5, 2) };
var p2 = new Person() { Name = "鈴木 ほのか", Date = new DateTime(2014, 3, 24) };
var p3 = new Person() { Name = "田中 淳平", Date = new DateTime(2011, 5, 2) };
var people = new List<Person>() { p1, p2, p1, p3 };
foreach (var p in people)
{
Console.WriteLine(p.Name);
}
Console.WriteLine("重複要素を除外します。");
var newPeople = people.Distinct();
foreach (var p in newPeople)
{
Console.WriteLine(p.Name);
}
Console.ReadKey();
}
}
}
Distinct 拡張メソッドが各要素を "重複" と判断するために、ハッシュコードによる比較と、等値比較演算子による評価を使用しています。特に指定しない場合、参照型ではインスタンス毎にハッシュコードが異なるため、そのプロパティ値が同一であったとしてもこれは "重複" とはみなされません。
カスタムクラスのプロパティ値を比較対象とする場合は、そのカスタムクラスが IEquatable<T> インターフェースを実装し、Equals メソッドと GetHashCode メソッドを適切に実装する必要があります。
それでは Person クラスに IEquatable<Person> インターフェースを実装しましょう。
namespace Tips_Linq
{
using System;
using System.Collections.Generic;
/// <summary>
/// 人物データを表します。
/// </summary>
public class Person : IEquatable<Person>
{
/// <summary>
/// 氏名を取得または設定します。
/// </summary>
public string Name { get; set; }
/// <summary>
/// 更新日付を取得または設定します。
/// </summary>
public DateTime Date { get; set; }
/// <summary>
/// Name プロパティによる等値比較演算子を定義します。
/// </summary>
/// <param name="other">比較対象とするオブジェクトを指定します。</param>
/// <returns>Name プロパティが一致した場合に true を返します。</returns>
public bool Equals(Person other)
{
return this.Name == other.Name;
}
/// <summary>
/// ハッシュコードを取得します。
/// </summary>
/// <returns>Name プロパティによるハッシュコード値を返します。</returns>
public override int GetHashCode()
{
return this.Name.GetHashCode();
}
}
}
ところで、IEquatable<T> インターフェースのメンバは Equals() メソッドだけですが、ここでは GetHashCode() メソッドをオーバーライドしています。これは、Distinct 拡張メソッドが等値比較演算子以外にもハッシュコードによる比較もおこなっているからです。
Distinct 拡張メソッドの内部実装を逆コンパイルして確認してみると、次のようなコードが見つかります。
if (this.slots[i].hashCode == num && this.comparer.Equals(this.slots[i].value, value))
{
return true;
}
this がなんなのかはともかく、ハッシュコードと Equals() メソッドによって一致しているかどうかを判定していることがわかります。Equls() メソッドは IEquatable<T> インターフェースのメンバですが、ハッシュコード値を取得するための GetHashCode() メソッドは object 型の仮想メソッドです。デフォルトではインスタンス毎に異なるハッシュ値が返ってきてしまうため、今回のように Name プロパティの一致によって "重複" していることを判断する場合、GetHashCode() メソッドを別途オーバーライドし、Name プロパティの値が同じときに同じハッシュコード値を返すようにする必要があるということです。
以上から、IEquatable<T> を実装した Person クラスを使用することで、先ほどの実行結果は次のように変わります。
当然ですが、同一インスタンスのものも Name プロパティのハッシュコード値が一致し、Equals() メソッドによる評価も true となったため、除外されています。
Distinct 拡張メソッドには、等値比較演算子を外部指定できるオーバーロードも用意されています。例えばIEquatable<T> インターフェースを実装していない Person クラスが既に用意されていて、こちらの実装を変更できない場合、外部に IEqualityComparer<T> インターフェースを実装したクラスを用意することで同じことが実現できます。
比較用に使用する IEqualityComparer<Person> インターフェースを実装したクラスを次のように定義します。
namespace Tips_Linq
{
using System.Collections.Generic;
/// <summary>
/// Person クラスに対する等値比較子を表します。
/// </summary>
public class PersonComparer : IEqualityComparer<Person>
{
public static readonly PersonComparer NameComparer = new PersonComparer();
/// <summary>
/// 指定された Person クラスのオブジェクトが等しいかどうかを確認します。
/// </summary>
/// <param name="x">比較基準を指定します。</param>
/// <param name="y">比較対象を指定します。</param>
/// <returns>Name プロパティが等しい場合に true を返します。</returns>
public bool Equals(Person x, Person y)
{
return x.Name == y.Name;
}
/// <summary>
/// ハッシュ値を取得します。
/// </summary>
/// <param name="obj">ハッシュ値を算出するオブジェクトを指定します。</param>
/// <returns>算出したハッシュ値を返します。</returns>
public int GetHashCode(Person obj)
{
return obj.Name.GetHashCode();
}
}
}
IEqualityComparer<T> インターフェースのメンバは Equals() メソッドと GetHashCode() メソッドです。各メソッドの実装については、Person クラスに IEquatable
namespace Tips_Linq
{
using System;
using System.Collections.Generic;
using System.Linq;
class Program
{
static void Main(string[] args)
{
var p1 = new Person() { Name = "田中 淳平", Date = new DateTime(2011, 5, 2) };
var p2 = new Person() { Name = "鈴木 ほのか", Date = new DateTime(2014, 3, 24) };
var p3 = new Person() { Name = "田中 淳平", Date = new DateTime(2011, 5, 2) };
var people = new List<Person>() { p1, p2, p1, p3 };
foreach (var p in people)
{
Console.WriteLine(p.Name);
}
Console.WriteLine("重複要素を除外します。");
var newPeople = people.Distinct(PersonComparer.NameComparer);
foreach (var p in newPeople)
{
Console.WriteLine(p.Name);
}
Console.ReadKey();
}
}
}
自分で実装を変更できるクラスならそのクラスに IEquatable<T> インターフェースを実装し、そうでない場合は外部に IEqualityComparer<T> インターフェースを実装したクラスを用意することで対応しましょう。
Tweet