Ответ 1
Мы уже используем
Один вариант: разобрать вывод в код С# и затем кодировать его в XML, создавая каждый node в string.Format("<{0}>", this.Name);
и string.Format("</{0}>", this._name);
в середине переведите все дочерние узлы рекурсивно.
После этого я буду использовать инструмент для запроса XML/HTML для синтаксического анализа дерева. Тысячи людей уже используют селектора запросов и jQuery для разбора древовидной структуры, основанной на связи между узлами. Я думаю, что это намного превосходит TRegex или другие устаревшие и неуправляемые утилиты java.
Например, это ответ на ваш первый пример:
var xml = CQ.Create(d.ToXml());
//this can be simpler with CSS selectors but I chose Linq since you'll probably find it easier
//Find joe, in our case the node that has the text 'Joe'
var joe = xml["*"].First(x => x.InnerHTML.Equals("Joe"));
//Find the last (deepest) element that answers the critiria that it has "Joe" in it, and has a VBD in it
//in our case the VP
var closestToVbd = xml["*"].Last(x => x.Cq().Has(joe).Has("VBD").Any());
Console.WriteLine("Closest node to VPD:\n " +closestToVbd.OuterHTML);
//If we want the VBD itself we can just find the VBD in that element
Console.WriteLine("\n\n VBD itself is " + closestToVbd.Cq().Find("VBD")[0].OuterHTML);
Вот ваш второй пример
//Now for NP closest to 'Shopping', find the element with the text 'shopping' and find it closest NP
var closest = xml["*"].First(x => x.InnerHTML.Equals("shopping")).Cq()
.Closest("NP")[0].OuterHTML;
Console.WriteLine("\n\n NP closest to shopping is: " + closest);