leonwxqian 发布的文章

Internet Explorer 完全解析[A1] : Markup Services的自我介绍

Markup服务是一组可以允许你操作HTML文档内容的对象和接口。 本文将介绍这些对象和接口。

标签(tags)、元素 (elements)
首先,在此引入一些概念帮助理解Markup服务。 第一个概念就是html tag(标签)和它在浏览器里面对应的表现形式,也就是我们所知的element(元素)。

查看HTML内容时,区分标签和元素是很重要的。HTML内容包含各种标签,例如<B>。 这个标签会指定文档(document)的文本的一个表达形式(加粗)。当浏览器访问一个页面时,HTML解析器会读取文件内容,并且从tag中解析生成element。这些就是可以作为一个被编程修改的对象的元素。当然,这也是Markup服务可以操作的元素。

例如,一个HTML文件可能有如下内容:

<P>First<P>Second

当浏览器的解析器读取这个文本时,内部的元素配置会让文档的形式变为类似这样的:(当然,有时候也可以称作标准化,主要是我习惯这么称呼)

<HTML><HEAD><TITLE></TITLE></HEAD><BODY>
<P>First</P><P>Second</P></BODY></HTML>

或者可以说,解析器将HTML内容转为了元素。在这个过程中,为了内容完整,有一些原始文档没有的内容加进去了,例如html、head、title、body会自动的被解析器构造出来。同时,解析器遇到第二个p(段落)的时候,会自动的把第一个p给封闭起来。尽管你的文件没有封闭p标签,但是IE将会自动的给每个元素都加上封闭标签。还有必要但是你没有写入的标签,比如<html>、<body>,都会自动的被IE添加上,当然,他们的封闭标签也会被加上。

第二个需要注意的概念是tree和stream(树、流)的区别,比如:

My <B>dog</B> has fleas.

这里有“My dog has fleas”和一对b标签,在这个例子中,可以被转化为如下的树。text被当为树叶,element被作为内节点。

           ROOT
            |
      +-----+------+
      |     |      |
     "My"   B  "has fleas."
            |
          "dog"

通过把文档转为tree,所有的操作都会变为类似对树的操作,例如增删孩子节点。提供此类操作的API被称为Tree Services。

当然,自IE4.0之后,元素的模型操作比简单的树更强悍,比如这个例子:

Where do <B>you <I>want to</B> go</I> today?

B、I的范围互相交叉,这是一个部分互相交叉元素的例子,但是在HTML里面却很常见。因此,Markup Services不提供类似树的操作,而是为内容的控制暴露了一个基于流操作的模型。因此,Markup Service实际上是用来避免产生这种模型层间的疑惑的,因为这个时候,浏览器便不再使用Tree Service,而是使用Markup Service来控制基于流操作的模型。

基于树的模型中,网页内容被当作树的节点来处理,每个元素,或者一块Text都是一个节点。节点通过这种类似对树的操作方式来操作,例如从父节点中增删一个子节点。

基于流的模型的内容操作方式中,比如现在说的这种通过Markup Service来操作的,文档的内容会通过使用类似迭代器的对象来操作。 比如使用Markup Pointer,然后文档的内容则通过类似Range的操作来控制。 这个就像是在处理上面Where do <B>you <I>want to</B> go</I> today?的例子一样,这些带有部分重叠的元素通过两个Markup Pointer来区分,每个Markup Pointer指定着Tag从哪儿开始,Tag到哪儿结束。基于流的模型是基于树的模型的一个超集。

f1.png
图: elment overlapping

有效和无效的文档
另一个让Markup Service更加容易理解的概念就是创建和操作无效文档的过程。

注意之前“My dog has fleas”的例子都可能不会被认为是一个有效的HTML文档。如果把它拷贝到文件中,然后在浏览器中打开的话,浏览器的解析器有可能会生成一些完全不一样的文档内容。例如,Internet Explorer解析器可能将这个文档解析成这样:

<HTML><HEAD><TITLE></TITLE></HEAD>
<BODY>My <B>dog</B> has fleas.</BODY></HTML>

解析器会试图读取一个指定的输入,然后通过它生成一个有效的HTML文档。最简单的有效HTML文档至少要有html、head、title和body四个元素。当你提供的内容中没有这些元素时,解析器会自动为你建立这些,然后把它们放到合适的位置上。

在文档解析完成甚至是还没解析完成的时候,你都可以使用Markup Service来用任意方法删除或者重新排列文档内容。例如,你可以整块删除html和/或body元素。你可以将head放到body里面,但是这些样子的文档都会被认为是无效文档。

上面这些描绘出来了基本的Marup Service的概念,现在可以更进一步的看一下Markup Service的接口了。最好的入手点当然是IMarkupService接口。这个接口是所有的Markup Service的初始点,例如IMarkupContainer和IMarkupPointer也不例外。IMarkupService界面也包含了所有的可以修改文档中的元素的方法。

你可以通过QueryInterface来指定IID_IMarkupService来获取IMarkupServices。

MarkupContainer
元素可以不通过IMarkupContainer的上下文来创建,但是如果需要将元素和文本互相关联起来的话,IMarkupContainer还是必须要用的。

下面的例子将介绍如何使用IMarkupServices::CreateMarkupContainer从IMarkupServices中创建一个IMarkupContainer。

HRESULT CreateMarkupContainer(
    IMarkupContainer **ppContainer
);

最开始,新创建的IMarkupContainer不会包含有任何的Markup。而且,也不会有html、head、body元素。所以,IMarkupContainer的最初状态不是像是由解析器解析一个空文件的时候的样子(解析空文件的时候就会自动产生上述元素)。

正常情况下,IMarkupContainer用来存储等待加入主IMarkupContainer的元素。主IMarkupContainer是一个浏览器用来承载HTML解析之后内容的东西。你可以通过在一个HTML文档上执行QueryInterface IID_IMarkupContainer操作来获取主IMarkupContainer。 例如你可以从IID_IMarkupContainer获取IHTMLDocument2接口。

MarkupPointer
IMarkupPointer不是IMarkupContainer(这个就是一个文档)的内容的某一部分。使用IMarkupPointer的主要目的是指定文档中的某个特定位置。比如下面这个例子:

My <B>d[p1]og</B> has fleas.

p1指针表示IMarkupPointer的位置,尽管p1指在d和o之间,但是这个并不是说这里有任何其他的看不见的文字在文档里面,或者例子里面这个内容已经被修改了。文档里面可以存在任意多个指针,这些指针和文档是独立的,也就是说根本不需要也不会修改文档。

Markup指针被放在了文档内容中间的某个地方,这些地方可以是:1、一个元素开始生效的区域(作用域开始);2、一个元素中止生效的区域;3、文本。因此,Markup指针更像是编辑器里面的脱字符(| ,或者通俗的叫光标,一闪一闪的这个东西)。因为Markup指针自己并不是文档内容,如果他们指向HTML内容中的同样的位置,这样他们也是不能互相区分开的。也就是说,如果两个Markup指针都指到一个地方,要区分哪个是左,哪个是右是不可能的。只能说,他们都指在了内容的同一个地点上。

你可以通过 IMarkupServices::CreateMarkupPointer 方法来创建一个Markup指针。

HRESULT CreateMarkupPointer(
    IMarkupPointer **ppPointer
);

定位Markup指针
当一个Markup指针被创建的时候,它将处于一个特殊的状态——未指向状态,意思就是它事实上没指向任何内容。你可以使用这三个方法来把一个Markup指针放到一个Markup上。

IMarkupPointer::MoveAdjacentToElement
IMarkupPointer::MoveToContainer
IMarkupPointer::MoveToPointer

IMarkupPointer::MoveAdjacentToElement方法接收2个参数, 一个IHTMLElement和一个枚举量,指定要放置指针的那个元素的相对偏移。这个枚举量有以下4个值。

HRESULT MoveAdjacentToElement(
    IHTMLElement *elementTarget,
    ELEMENT_ADJACENCY
);

    enum ELEMENT_ADJACENCY {
         ELEMENT_ADJ_BeforeBegin
         ELEMENT_ADJ_AfterBegin
         ELEMENT_ADJ_BeforeEnd
         ELEMENT_ADJ_AfterEnd
    };

因此,把p1放到b结束前(ELEMENT_ADJ_BeforeEnd)的话,差不多就是这个结果:

My <B>dog[p1]</B> has fleas.

现在考虑如下例子:

a<B>[p1]<I>b</I></B>c

p1现在可以说是放在b刚开始的地方,或者放在i开始之前。这两个描述方式都对,所以Markup指针放置的位置指定方式是多种多样的。

另一个方式来放置一个Markup指针的方式是使用 IMarkupPointer::MoveToContainer 方式。这个方法会把一个IMarkupContainer接口和一个决定指针位置是在IMarkupContainer开始还是结束地方的布尔值常量。

HRESULT MoveToContainer(
    IMarkupContainer *containerTarget,
    BOOL fAtStart
);

因此,你可以把一个指针放在一个文档的最边缘处,例如

[p1]<HTML><BODY>a<B><I>b</I></B>c</BODY></HTML>[p2]

p1在最左,而p2是最右。第三个方式是使用IMarkupPointer::MoveToPointer把一个指针移动到另一个已经定位过的IMarkupPointer的位置上。

HRESULT MoveToPointer(
    IMarkupPointer *pointerTarget
);

通常,IMarkupPointer::MoveToPointer在一个指针用来检查环绕元素时用来记录这个指针指向的位置。

比较指针位置
可以通过IMarkupPointer提供的一组函数来比较两个Markup指针的相对位置,函数列举如下:

HRESULT IsEqualTo(
    IMarkupPointer *compareTo,
    BOOL *fResult
);

HRESULT IsLeftOf(
    IMarkupPointer *compareTo,
    BOOL *fResult
);

HRESULT IsLeftOfOrEqualTo(
    IMarkupPointer *compareTo,
    BOOL *fResult
);

HRESULT IsRightOf(
    IMarkupPointer *compareTo,
    BOOL *fResult
);

HRESULT IsRightOfOrEqualTo(
    IMarkupPointer *compareTo,
    BOOL *fResult
);

因此,当你像知道p1是否与p2不等,而且在p2的左边的时候,就可以这么用:

BOOL fResult;
IMarkupPointer * pointer 1, * pointer 2;

..

[p1]->IsLeftOf( pointer2, & fResult );

if (fResult)
{
    // [p1] is to the left of pointer2
}

导向指针
当一个IMarkupPointer指针被放置在一个IMarkupContainer中时,你可以使用它来检查环绕内容,并且/或者将它移动到那个内容之外。 IMarkupPointer::Left、 IMarkupPointer::Right两个方法可以做到这个。

HRESULT Left(
    BOOL fMove,
    MARKUP_CONTEXT_TYPE pContextType,
    IHTMLElement **ppElement,
    long *plCch,
    OLE_CHAR *pch
);

HRESULT Right(
    BOOL fMove,
    MARKUP_CONTEXT_TYPE pContextType,
    IHTMLElement **ppElement,
    long *plCch,
    OLE_CHAR *pch
);

除了第一个参数之外都是可选的,fMove参数控制着指针是否穿过环绕的内容。如果它的值是FALSE,指针不会移动,这里代表着环绕的内容。如果是TRUE,这里不仅会描述环绕的内容,还会把指针从这个环绕内容上移动过去。

也就是说,如果你想知道一个指针的左边是什么,尽管调用 IMarkupPointer::Left 就可以了。右边也是,换成Right即可。 pContextType参数返回挨着Pointer后面的内容。

以下是可选的内容类型:

CONTEXT_TYPE_None 指针左边或者右边没有内容,这个仅当指针指向IMarkupContainer最左或者最右的时候会用到。
CONTEXT_TYPE_Text 给定方向上的内容是文本。
CONTEXT_TYPE_EnterScope 给定方向上的元素正在进入一个区域(scope)。也就是说,如果向左看是一个终止tag(带/的tag),向右看是一个起始tag。
CONTEXT_TYPE_ExitScope 在给定方向上,一个元素即将离开一个区域。也即,向左看的时候是一个起始tag,而朝右看是一个终止tag。
CONTEXT_TYPE_NoScope 给定的选区中有一个无区域元素,你不能用IMarkupPointer指向这类元素,例如br。

如果ppElement参数是非NULL的话,那么上下文的类型就是EnterScope、ExitScope、NoScope中的一种,ppElement参数会返回进入、退出、无scope的元素。

如果上下文是Text,pCch和pch参数就是有意义的。pCch参数提供这三个主要作用:

  • 它限制了IMarkupPointer::Left或者Right会查询的字数。
  • 它限制了给出方向上应该有多少文本实际存在。
  • 它描述了pch参数会指向多大的缓冲区(如果它指向的内容是非空的话)

pCch参数可以是NULL,或者-1 。这两个值表示 IMarkupPointer::Left 或者 IMarkupPointer::Right应该查询任意数量的文字,直到找到下一个无scope的元素或者找到某个元素的scope位置。

IMarkupPointer::Left 和 IMarkupPointer::Right两个方法提供了遍历文档的功能。要确定IMarkupPointer挡墙指着哪儿,使用如下IMarkupPointer::CurrentScope方法:

HRESULT CurrentScope(
    IHTMLElement **ppElementCurrent
);

[p1]Where [p2]<I>do </I>[p3]<B>you <BR>[p4]want</B> to go today[p5]?

比如上面的"Where do you want to go today?"例子, p1使用IMarkupPointer::CurrentScope的话,获取的值是NULL,因为它的左边没有任何未结束的起始tag。 而p4则是<B> tag。注意br是一个无scope类型的tag。

指针重力
一般地,当一个文档被修改之后,文档中之前的那些指针还是停在操作发生之前的位置,比如下面这个有2个指针插入的文档:

abc[p1]defg[p2]hij

现在文档内容发生了变化,XYZ插入了e和f之间,现在文档的内容如下:

abc[p1]deXYZfg[p2]hij

注意p1和p2还是指向操作前的同样的文本。比如下面的例子:

x[p1]y

现在考虑一下,如果Z插在了x、y中间是什么情况。记住指针并不会成为内容的一部分,因此x、y是互相挨着的。在插入之后,有可能有如下两个情况:

x[p1]Zy
xZ[p1]y

现在就需要有重力这个设定了。比如,通常当内容准确地插入了指针所在的位置的时候,指针的终止区域判定就会编的有歧义。通过引入重力设定,可以消除这种歧义。左重力会让指针定位到新插入的内容的左边,右重力下则是右边。

重力的不仅仅会影响到文本,还会影响到元素的插入,例如:

a[p1,right][p2,left]b

这里,p1有右重力,p2有左重力,如果b的周围插入了一个<B>标签会怎样?结果是:

a[p2,left]<B>[p1,right]b</B>

注意现在指针是如何从之前的相对位置上转换成现在的样子的。插入B时这两个指针的位置的移动方向都是有歧义的。

默认的重力是左重力,你可以通过IMarkupPointer接口的如下方法来设置IMarkupPointer的重力值。

enum POINTER_GRAVITY {
    POINTER_GRAVITY_Left,
    POINTER_GRAVITY_Right
};

HRESULT Gravity(
    POINTER_GRAVITY *pGravityOut
);

HRESULT SetGravity(
    POINTER_GRAVITY newGravity
);

指针粘滞(cling)
有如下Markup:

[p2]ab[p1]cdxy

现在考虑一下,当之前这个例子中,bc两个字被移动到x、y中间的时候,p1会发生什么?可能答案有两种:

1、 [p2]a[p1]dxbcy
2、 [p2]adxb[p1]cy

这两个例子里面,可以确定的是p2没有受到影响,因为它并不在被操作的部分附近。上面两个结果中,(1)里面的p1并没有IMarkupPointer::Cling, 而(2)则是有设置IMarkupPointer::Cling。 IMarkupPointer::Cling设置的结果导致了当一部分内容移动的时候,这个内容中间被Cling的部分也会跟着移动。不管内容移动到哪儿,有IMarkupPointer::Cling的指针都会在那块内容中。

但是,这个很有可能产生歧义。比如带有IMarkupPointer::Cling的p1:

a[p1]bcxy

如果b被移动到了x、y中间,p1是否应该跟着b走呢?因此,这里就要用到之前说的重力。如果p1有右重力,那么它会跟着b跑,如果是左重力,那么就会跟着它左边的内容,也就是a,而不会跟着b跑。

如果p1所在的内容被删除了,IMarkupPointer::Cling依然会控制指针的目标。比如下面的例子:

ab[p1]cd

如果b、c被删除了,而且p1没有IMarkupPointer::Cling, p1会继续在文档中,夹在还剩下来的,环绕着它的内容里面:

a[p1]d

如果p1有IMarkupPointer::Cling,这个时候p1就会变成未指定位置的状态,就像已经被删除一样。 (p1此时虽然被从文档里面移除removed了,但是它本身并没有被删除destroy,所以以后也可以重用。 这个设计理念导致出漏洞的话,也一样会被"重用"。)

ad

IMarkupPointer::Cling可以通过IMarkupPointer::SetCling来设置,IMarkupPointer::Cling来查询。

HRESULT Cling(
    BOOL *pClingOut
);

HRESULT SetCling(
    BOOL NewCling
);

新建元素
可以通过IMarkupService::CreateElement来创建新元素,

enum ELEMENT_TAG_ID {
    TAGTADID_A,
    TAGTADID_ACRONYM,
        ..
    TAGTADID_WBR,
    TAGTADID_XMP
};

HRESULT CreateElement(
    TAG_ID tagID,
    OLECHAR *pchAttrs,
    IHTMLElement **ppNewElement
);

例如,IMarkupServices::CreateElement ( TAGID_B, "id=anID", & pElement )将会创建一个B元素,而且IHTMLElement::id的属性会设置为anID,当然,这里的属性项是可选的。在元素建立之后也是可以设置属性的,但是在创建元素时就指定属性的话,会让Internet Explorer处理时有更高的效率。也有一些属性是只能在元素创建时指定的。

还可以通过克隆一个已经存在的元素,使用IMarkupService::Clone即可:

HRESULT CloneElement(
    IHTMLElement *pElementCloneElementMe,
         IHTMLElement **ppNewElement
);

插入一个元素
通过调用IMarkupServices::InsertElement可以插入一个元素。

HRESULT InsertElement(
    IHTMLElement *pElementInsertThis,
    IMarkupPointer *pPointerStart,
    IMarkupPointer *pPointerFinish
);

pPointerStart描述了元素从哪里开始进入一个Scope,pPointerFinish描述了元素从哪里开始离开Scope。当前正准备插入的元素必须是一个不在当前文档中的元素,而且两个指针都必须在同一个IMarkupContainer中定位。比如,假如调用IMarkupServices::InsertElement插入一个B元素,指针如下:

My [pstart]dog[pend] has fleas.

插入的结果将在文档中体现如下:

My [pstart]<B>dog[pend]</B> has fleas.

至于什么新元素可以插入到哪儿,这个倒没有什么严格限制。因此,你甚至可以插入n个BODY到文档里面,或者插入n个B到文档的head部分。但是,如果你的文档最终是要用来显示出来的话,这个状态是未定义的,而且会导致Markup Service发生变化。

删除一个元素
删除一个元素并不需要使用Markup 指针。调用IMarkupService::RemoveElement,然后传入要删除的元素就可以了。

HRESULT RemoveElement(
    IHTMLElement *pElementRemoveThis
);

要操作的元素必须要在文档里面,操作完成之后,元素就不在文档里了,因此是可以再次被插入的。

注意 要删除一个元素,然后把它插入到同一个位置上,你必须在删除之前把Markup指针插入到紧挨着这个元素区域的开始和结束位置。这个情况下,Markup指针将记录该元素在该Markup里影响到的范围。接下来Markup指针就可以被用来重新插入这个元素。当然,需要确保的是这个指针没有IMarkupPointer::Cling属性,因为它们可能在元素被移除时变成未定位的状态。

插入文本
要向Markup中插入文本,可以使用IMarkupServices::InsertText函数。

HRESULT InsertText(
    OLECHAR *pch,
    long cch,
    IMarkupPointer *pPointerTarget
);

这个函数只接收单单一个IMarkupPointer,然后把text插入到markup里面。Markup指针在插入之后的位置(包括新插入的文本的位置也是)取决于IMarkupPointer的重力属性。 cch参数可以设置为-1, 这个表示这个函数应该认为插入的文本是以NULL终止的。

另外一提,Internet Explorer中的cch大多数是指 count of char的意思。

移除内容
你可以使用IMarkupContainer::Remove来移除IMarkupContainer中一片连续区域。

HRESULT Remove(
    IMarkupPointer *pPointerSourceStart,
    IMarkupPointer *pPointerSourceFinish
);

这里提供了两个Markup指针,一个指定从哪儿开始删除,另一个指定删除区域的末尾。所有这两个指针中间的文本内容都会被删除,而且,所有完全落入这个区域的Markup都会被删除,任何起始早于Start、终止晚于End的Markup不会被删除,例如:

     <------------------- b ------------------->
 <--------- i -----------> <---------- u ----------->
a<I>b<B>c[pstart]d<S>e</I>f<U>g</S>h[pend]hi</B>j</U>kl
                  <----- s ------->         

当调用IMarkupServices::Remove之后,结果变成了:

     <------------- b ------------->
 <------- i --------><------- u -------->
a<I>b<B>c[pstart]</I><U>[pend]hi</B>j</U>kl

注意,现在s元素彻底小时了,i、u还在文档里,尽管它们的tags的一部分在移除区域的中间。元素b包含整个删除区域,因此它也是不受影响的。

替换内容
前两个例子可以用来删除和插入内容,整合这两个操作可以用来替换内容,例如:

int MarkupSvc::RemoveNReplace(
    MSHTML::IHTMLDocument2Ptr pDoc2,
    _bstr_t bstrinputfrom, _bstr_t bstrinputto)
{
    HRESULT              hr = S_OK;
    //IHTMLDocument2 *   pDoc2;
    IMarkupServices  *   pMS;
    IMarkupContainer *   pMarkup;
    IMarkupPointer   *   pPtr1, * pPtr2;
    TCHAR            *   pstrFrom = _T( bstrinputfrom );
    TCHAR            *   pstrTo = _T( bstrinputto );

    pDoc2->QueryInterface( IID_IMarkupContainer, (void **) & pMarkup );
    pDoc2->QueryInterface( IID_IMarkupServices, (void **) & pMS );

    // need two pointers for marking
    pMS->CreateMarkupPointer( & pPtr1 );
    // beginning and ending position of text.
    pMS->CreateMarkupPointer( & pPtr2 ); 

    //
    // Set gravity of this pointer so that when the replacement text
    // is inserted it will float to be after it.
    //
    pPtr1->SetGravity( POINTER_GRAVITY_Right ); // Right gravity set

    //
    // Start the search at the beginning of the primary container
    //

    pPtr1->MoveToContainer( pMarkup, TRUE );

    for ( ; ; )
    {
        hr = pPtr1->FindText( (unsigned short *) pstrFrom, 0, pPtr2, NULL );

        if (hr == S_FALSE) // did not find the text
            break;

        // found it, removing.. http://nul.pw
        pMS->Remove( pPtr1, pPtr2 );

        //inserting new text
        pMS->InsertText( (unsigned short *) pstrTo, -1, pPtr1 );
    }
    if (hr == S_FALSE) return FALSE;
    else return(TRUE);
}

移动内容
你可以通过IMarkupServices::Move方法来把一组区域内的内容移动到另一个地方。

HRESULT Move(
    IMarkupPointer *pPointerSourceStart,
    IMarkupPointer *pPointerSourceFinish,
    IMarkupPointer *pPointerTarget
);

IMarkupServices::Move接受3个Markup指针,2个用来指明要移动的原始位置,第三个指定目标地点。范围的影响可以参考IMarkupServices::Remove操作的。在Source区域内的内容将被移动到Target指定的位置。

所有被Source范围包括起来的内容都会原样移动到Target去。也就是说,这些元素的信息都会被保留。在区域外的元素不会受到影响,也不会被弄到目标地址上。但是,和区域部分重叠的内容会被克隆,它们的IMarkupService::CloneElement会被移动到Target上。因此,之前Move操作的例子中,如果这个区域改为移动的话:

X[pdest]Y

结果会是:

X[pdest]<I'>d<S>e</I'>f<U'>g</S>h</U'>Y

注意,pdest在新插入的移动的内容的左边,这是因为它有左重力。而且还有I'和U'元素,他们是原来的I、U元素的克隆。因为元素只可以存在于一个Markup中,而且必须在一个Markup中影响到一个连续的范围。但是s这个元素却不会被IMarkupService::CloneElement影响到,这是因为s元素在移动时已经被start和end两个指针完全环绕了。

注意 经常在一次移动(或者一次拷贝)之后,你会需要两个指针指向新插入的内容的左边和右边。要实现这个的话,在Move之前创建2个Markup指针,一个设置为左重力,一个设置为右重力,右重力的那个指针会指向移动/复制的内容的右边,左重力的当然是指向左边。

移动操作的目标可以在Source开始和End区域中间。

复制内容
使用IMarkupServices::Copy可以复制一个内容区域。

HRESULT Copy(
    IMarkupPointer *SourceStart,
    IMarkupPointer *SourceEnd,
    IMarkupPointer *Target
);

对目标Markup来说,Copy的影响和Move一样,不会影响到源。

参考资料
以下资料可以提供更多与组件对象模型COM的知识:

Wireshark 2 Preview n*8字节越界读取bug

此bug已提交至官方论坛,bugtrack id 10529,https://bugs.wireshark.org/bugzilla/show_bug.cgi?id=10529
漏洞作者:blast(http://nul.pw

事发此崩溃:

(14b4.1dd8): Access violation - code c0000005 (first chance)
First chance exceptions are reported before any exception handling.
This exception may be expected and handled.
*** ERROR: Symbol file could not be found.  Defaulted to export symbols for F:\Program Files\Wireshark\Qt5Core.dll - 
*** WARNING: Unable to verify checksum for qtshark.exe
*** ERROR: Module load completed but symbols could not be loaded for qtshark.exe
Qt5Core!QPersistentModelIndex::row:
00000000`5f2d5bd0 488b01          mov     rax,qword ptr [rcx] ds:baadf00d`baadf00d=????????????????

(注:上面这个崩溃是从调试器启动的,所以堆上未初始化的数据是以baadf00d这个填充模式填入的,实际运行时应该是00000000`00000000,上面是越界8字节的情况)

查看崩溃附近的代码:

0:000> ub .
Qt5Core!QPersistentModelIndex::operator!=+0x58:
00000000`5f2d5bc8 cc              int     3
00000000`5f2d5bc9 cc              int     3
00000000`5f2d5bca cc              int     3
00000000`5f2d5bcb cc              int     3
00000000`5f2d5bcc cc              int     3
00000000`5f2d5bcd cc              int     3
00000000`5f2d5bce cc              int     3
00000000`5f2d5bcf cc              int     3
0:000> u .
Qt5Core!QPersistentModelIndex::row:
00000000`5f2d5bd0 488b01          mov     rax,qword ptr [rcx]
00000000`5f2d5bd3 4885c0          test    rax,rax
00000000`5f2d5bd6 7403            je      Qt5Core!QPersistentModelIndex::row+0xb (00000000`5f2d5bdb)
00000000`5f2d5bd8 8b00            mov     eax,dword ptr [rax]
00000000`5f2d5bda c3              ret
00000000`5f2d5bdb 83c8ff          or      eax,0FFFFFFFFh
00000000`5f2d5bde c3              ret
00000000`5f2d5bdf cc              int     3

崩溃发生在Qt5Core!QPersistentModelIndex::row的第一行,函数试图将第一个参数(rcx)解引用给eax时崩溃。

0:000> .frame /c 1
01 00000000`001da420 00000000`5f8755e6 qtshark+0x90612
rax=baadf00dbaadf00d rbx=00000000001da6e8 rcx=baadf00dbaadf00d
rdx=0000000002c04e00 rsi=0000000000000014 rdi=00000000001da630
rip=000000013f820612 rsp=00000000001da420 rbp=00000000001da589
 r8=0000000000008000  r9=0000000000000008 r10=0000000000350268
r11=00000000001d9d88 r12=0000000002d3f300 r13=0000000000000003
r14=0000000002d49d30 r15=0000000002d3f300
iopl=0         nv up ei pl nz na po nc
cs=0033  ss=002b  ds=002b  es=002b  fs=0053  gs=002b             efl=00010206
qtshark+0x90612:
00000001`3f820612 498b4c2448      mov     rcx,qword ptr [r12+48h] ds:00000000`02d3f348=00c4a43f01000000
0:000> dd rcx
baadf00d`baadf00d  ???????? ???????? ???????? ????????
baadf00d`baadf01d  ???????? ???????? ???????? ????????
baadf00d`baadf02d  ???????? ???????? ???????? ????????
baadf00d`baadf03d  ???????? ???????? ???????? ????????
baadf00d`baadf04d  ???????? ???????? ???????? ????????
baadf00d`baadf05d  ???????? ???????? ???????? ????????
baadf00d`baadf06d  ???????? ???????? ???????? ????????
baadf00d`baadf07d  ???????? ???????? ???????? ????????

看看r12是从哪儿传来的,上方有一个mov rcx,rax,

0:000> uf . 
qtshark+0x905e0:
00000001`3f8205e0 4053            push    rbx
00000001`3f8205e2 4154            push    r12
00000001`3f8205e4 4883ec48        sub     rsp,48h
00000001`3f8205e8 488bda          mov     rbx,rdx
00000001`3f8205eb 4c8be1          mov     r12,rcx  ;here
00000001`3f8205ee ff15c4b21100    call    qword ptr [qtshark+0x1ab8b8 (00000001`3f93b8b8)]
00000001`3f8205f4 49837c244800    cmp     qword ptr [r12+48h],0
00000001`3f8205fa 0f84a1010000    je      qtshark+0x907a1 (00000001`3f8207a1)

qtshark+0x90600:
00000001`3f820600 488bcb          mov     rcx,rbx
00000001`3f820603 ff158f931100    call    qword ptr [qtshark+0x1a9998 (00000001`3f939998)]
00000001`3f820609 488bc8          mov     rcx,rax
00000001`3f82060c ff158e931100    call    qword ptr [qtshark+0x1a99a0 (00000001`3f9399a0)]

为了验证,在函数开头下断点,重新启动程序:

0:000> g
Breakpoint 0 hit
qtshark+0x905e0:
00000001`3f3d05e0 4053            push    rbx
0:000> r
rax=000000013f515d48 rbx=0000000002aff6c0 rcx=0000000002aff6c0
rdx=000000000023a488 rsi=0000000000000014 rdi=000000000023a3d0
rip=000000013f3d05e0 rsp=000000000023a218 rbp=000000000023a329
 r8=000000000023a490  r9=000000000023a3d0 r10=000000005fb1a340
r11=000000005fa55228 r12=000000000023a3d0 r13=0000000000000003
r14=0000000002b09fe0 r15=0000000002aff6c0
iopl=0         nv up ei pl nz na po nc
cs=0033  ss=002b  ds=002b  es=002b  fs=0053  gs=002b             efl=00000206
qtshark+0x905e0:
00000001`3f3d05e0 4053            push    rbx

执行期间可以发现:

0:000> 
qtshark+0x90603:
*** ERROR: Symbol file could not be found.  Defaulted to export symbols for F:\Program Files\Wireshark\Qt5Core.dll - 
00000001`3f3d0603 ff158f931100    call    qword ptr [qtshark+0x1a9998 (00000001`3f4e9998)] ds:00000001`3f4e9998={Qt5Core!QList<QItemSelectionRange>::front (00000000`5f962d00)}
0:000> 
qtshark+0x90609:
00000001`3f3d0609 488bc8          mov     rcx,rax
0:000> r rax
Last set context:
rax=baadf00dbaadf00d

看来是Qt5Core!QList::front 的问题,重启bp qtshark+0x90603。

让我们看一下正常的操作是什么:

Breakpoint 0 hit
qtshark+0x90603:
00000001`3f9e0603 ff158f931100    call    qword ptr [qtshark+0x1a9998 (00000001`3faf9998)] ds:00000001`3faf9998={Qt5Core!QList<QItemSelectionRange>::front (00000000`5f462d00)}
0:000> r
rax=0000000000000000 rbx=000000000030a0d8 rcx=000000000030a0d8
rdx=0000000000000000 rsi=0000000000000014 rdi=000000000030a048
rip=000000013f9e0603 rsp=0000000000309e20 rbp=0000000000309f89
 r8=0000000000008000  r9=0000000000000008 r10=00000000003e0268
r11=0000000000309788 r12=0000000002c2f440 r13=0000000000000003
r14=0000000002c39e20 r15=0000000002c2f440
iopl=0         nv up ei pl nz na po nc
cs=0033  ss=002b  ds=002b  es=002b  fs=0053  gs=002b             efl=00000206
qtshark+0x90603:
00000001`3f9e0603 ff158f931100    call    qword ptr [qtshark+0x1a9998 (00000001`3faf9998)] ds:00000001`3faf9998={Qt5Core!QList<QItemSelectionRange>::front (00000000`5f462d00)}

进入之后,

0:000> t
Qt5Core!QList<QItemSelectionRange>::front:
00000000`5f462d00 488b11          mov     rdx,qword ptr [rcx] ds:00000000`0030a0d8=80c6310500000000
0:000> 
Qt5Core!QList<QItemSelectionRange>::front+0x3:
00000000`5f462d03 48634208        movsxd  rax,dword ptr [rdx+8] ds:00000000`0531c688=00000000
0:000> t
Qt5Core!QList<QItemSelectionRange>::front+0x7:
00000000`5f462d07 488b44c210      mov     rax,qword ptr [rdx+rax*8+10h] ds:00000000`0531c690=f0c52d0500000000
0:000> r
rax=0000000000000000 rbx=000000000030a0d8 rcx=000000000030a0d8
rdx=000000000531c680 rsi=0000000000000014 rdi=000000000030a048
rip=000000005f462d07 rsp=0000000000309e18 rbp=0000000000309f89
 r8=0000000000008000  r9=0000000000000008 r10=00000000003e0268
r11=0000000000309788 r12=0000000002c2f440 r13=0000000000000003
r14=0000000002c39e20 r15=0000000002c2f440
iopl=0         nv up ei pl nz na po nc
cs=0033  ss=002b  ds=002b  es=002b  fs=0053  gs=002b             efl=00000206
Qt5Core!QList<QItemSelectionRange>::front+0x7:
00000000`5f462d07 488b44c210      mov     rax,qword ptr [rdx+rax*8+10h] ds:00000000`0531c690=f0c52d0500000000
0:000> t
Qt5Core!QList<QItemSelectionRange>::front+0xc:
00000000`5f462d0c c3              ret
0:000> r
rax=00000000052dc5f0

这一次执行结果是返回了一个指针。

这是不正常的走向:

0:000> r
rax=0000000000000000 rbx=00000000001da648 rcx=00000000001da648
rdx=000007feebae9ff0 rsi=0000000000000014 rdi=00000000001da590
rip=000000013f860603 rsp=00000000001da380 rbp=00000000001da4e9
 r8=0000000000000005  r9=0000000000000069 r10=0000000000000000
r11=0000000000000002 r12=00000000027bf3f0 r13=0000000000000003
r14=00000000027c9e30 r15=00000000027bf3f0
iopl=0         nv up ei pl nz na po nc
cs=0033  ss=002b  ds=002b  es=002b  fs=0053  gs=002b             efl=00000206
qtshark+0x90603:
00000001`3f860603 ff158f931100    call    qword ptr [qtshark+0x1a9998 (00000001`3f979998)] ds:00000001`3f979998={Qt5Core!QList<QItemSelectionRange>::front (00000000`5f962d00)}
0:000> t
Qt5Core!QList<QItemSelectionRange>::front:
00000000`5f962d00 488b11          mov     rdx,qword ptr [rcx] ds:00000000`001da648=10cf6b0200000000
0:000> 
Qt5Core!QList<QItemSelectionRange>::front+0x3:
00000000`5f962d03 48634208        movsxd  rax,dword ptr [rdx+8] ds:00000000`026bcf18=01000000
0:000> 
Qt5Core!QList<QItemSelectionRange>::front+0x7:
00000000`5f962d07 488b44c210      mov     rax,qword ptr [rdx+rax*8+10h] ds:00000000`026bcf28=0df0adba0df0adba
0:000> 
Qt5Core!QList<QItemSelectionRange>::front+0xc:
00000000`5f962d0c c3              ret

由于每次操作会产生2个selection change事件,所以有问题的是第二个操作。

Qt5Core!QList<QItemSelectionRange>::front:
mov     rdx,qword ptr [rcx]
movsxd  rax,dword ptr [rdx+8]
mov     rax,qword ptr [rdx+rax*8+10h]
ret

而这个函数的整个操作就这4行。

rdx = *rcx;
rax = *(rdx+8);
return *(rdx+rax*8+0x10);

综合一下就是:

return *(*rcx+(*(rdx+8))*8+0x10);

实际执行起来是:

return *(*arg1+0x10);

或者

return *(*arg1+0x18);

//取决于选的数量

由于我们没有符号,不知道具体代表什么,但是再出问题的部分,如果执行:

0:000> r
rax=0000000000000001 rbx=000000000015a6c8 rcx=000000000015a6c8
rdx=0000000005143d90 rsi=0000000000000014 rdi=000000000015a610
rip=000000005f462d07 rsp=000000000015a3f8 rbp=000000000015a569
 r8=0000000000008000  r9=0000000000000008 r10=0000000001f30268
r11=0000000000159d68 r12=0000000002d3f220 r13=0000000000000003
r14=0000000002d49bb0 r15=0000000002d3f220
iopl=0         nv up ei pl nz na po nc
cs=0033  ss=002b  ds=002b  es=002b  fs=0053  gs=002b             efl=00000206
Qt5Core!QList<QItemSelectionRange>::front+0x7:
00000000`5f462d07 488b44c210      mov     rax,qword ptr [rdx+rax*8+10h] ds:00000000`05143da8=0df0adba0df0adba
0:000> dd rdx+10
00000000`05143da0  02d678b0 00000000 baadf00d baadf00d
00000000`05143db0  abababab abababab abababab abababab

看到好玩的了吧,这纯粹是越界访问了。那么既然选一个就是+0x8,如果可以选上更多的数据,是否就可以读到后面的0x00000040 00000000呢?我猜应该是可以的吧=v=

0:000> .cxr
Resetting default scope
0:000> dd rdx+10
00000000`05143da0  02d678b0 00000000 baadf00d baadf00d
00000000`05143db0  abababab abababab abababab abababab
00000000`05143dc0  00000000 00000000 00000000 00000000
00000000`05143dd0  00000040 00000000

Internet Explorer 完全解析 [5]

5 对前四个大类的总结
对前四个大类的总结,归纳如下,当然,全部都是用自然语言描述的。我们可以勾勒出这样一个模型:
f1.gif
当然,方框之间只是表示“有关系”,而不是“从属关系”

我们知道,CBase作为基类,提供了许多虚函数以及基础的抽象实现。 派生出来的CElement和CMarkup对CBase进行了功能上的扩充。CMarkup作为Markup语言的解析器、处理者、辅助工具而存在,CElement则是CMarkup操作管理对象的具象。

同样,CElement也是许多其他类的基类,例如Anchor、Button、RadioBox,均是由此派生而来。

CDoc则依旧作为经典的Doc-View视图中的文档部分存在着,管理着下属的数据,包括其中的CMarkup(s)、CElement(s),以及更多的例如网络状态、网页状态、网页属性、层叠样式表的管理、下载管理、内容编码管理等等。CDoc依附于宿主而存在,CView也依旧担负着View部分的责任,负责处理CDoc发来的数据,并在宿主之上建立视图。

各个类各司其职,完成了从HTML到网页展示的转换。如果你有学过MFC,或许你会对这个架构理解的十分容易。

Internet Explorer 11 实例分析 [1]

介绍了很多Internet Explorer的函数、类的东西了,让我们实战演练一下,分析一个至2014年10月3日微软尚未修复的Internet Explorer 11中存在的空指针引用问题。

...
等5天后发布

Internet Explorer 完全解析 [4]

第四章 文档的具象实现
前几个类的介绍都不是完整的,以后有需要再补充。 免责声明:本类文章全部是我的个人理解,可能存在理解错误,如有发现,敬请指正。
4.1 介绍
CDoc910类将是我们要详细叙述的最后一个类,它可以说是网页文档的具象实现,同时,它也会贯穿在所有的类中,在分析时经常会看到许多类都关联着CDoc *pDoc这样一个成员函数,让我们看一看CDoc的真身吧。

4.2 CDoc概述
CDoc(formknl)也就是传说中的根对象(root object),对应传统的文档视图结构的文档部分。有些像是MFC中的CDoc,事实上Internet Explorer中也确实还有一个CView类。CDoc作为IHTMLDocument2/3接口的一个具体的实现,它自身封装了许多与Markup有关的内容,例如创建、增删Markup等等。对Markup具体的介绍请见完全解析Internet Explorer [3]、[5]以及“对Markup的介绍[译]”。
可以极为简化地说,一个CDoc管理着一组CMarkup,而CMarkup又与一组CElement有关。这个便是前几个内容之间的内在联系。

4.3 CDoc的成员变量
CDoc的成员变量列举如下,即使在日常调试中没有私有符号,我想,这依然可以作为参考,至少通过成员变量可以了解这个类具体能做什么。

  • CDefaultElement * _pElementDefault。 指定默认元素,如果文档中没有任何可用元素的话,那么就会用到这个默认元素。
  • CMarkup * _pPrimaryMarkup。 主markup,也就是指向当前根元素的markup。
  • CEditRouter _EditRouter。 提供垂直消息路由(也就是元素层级中传递消息)的。
  • CCaret * _pCaret。判断用户是否在编辑文档时用的。
  • CDocInfo _dci。 文档信息,文档内容传输时用。
  • CElement * _pElemEditContext。存储着当前正在编辑的选区,或者就是当前选区。
  • CElement * _pElemUIActive。当前正在显示着的UI。
  • CElement * _pElemCurrent。当前获得焦点的元素,上面说的消息路由也会从这儿开始。
  • CElement * _pElemDefault。 默认元素。
  • long _lSubCurrent。用来细分当前元素功能用。
  • CElement * _pElemNext。下一个会获得焦点的元素。
  • CRect * _pRectFocus。上一个获得焦点并且被渲染的元素的区域。
  • int _cSurface/_c3DSurface。 计数器。
  • OPTIONSETTINGS * _pOptionSettings。指向当前用户可以编辑的属性,例如文字颜色等。
  • CODEPAGESETTINGS * _pCodepageSettings。 指定codepage。
  • long _icfDefault; 。默认charformat index。
  • const CCharFormat * _pcfDefault;。 默认的charformat。
  • unsigned _cInval; 调用CDoc的Invalidate的次数。
  • unsigned _cProcessingTimeout;。 脚本执行时清空分块的超时值。
  • SHORT _iWheelDeltaRemainder;。 缩放值(zDelta)
  • CStr _cstrPasteUrl;。 粘贴时会用到的url。
  • RADIOGRPNAME *_pRadioGrpName;。 Radio Box的名字。
  • LONG _lRecursionLevel;。 最大递归层次。
  • DWORD _dwHistoryIndex;。 下一个可用的历史记录index。
  • CView _view;。 View的支持。
  • long _lLastTextID; 。 TextID。
  • long __lDocTreeVersion;。 当doc关联的markup中任何元素导致树变化时,这个值会加一。仅仅改变树中文本节点的值的时候不会改变这个版本号。
  • long __lDocContentsVersion;。 任何内容的改变都会导致这个版本加一。不管是markup还是文本节点。
  • CSelectionObject * _pCSelectionObject;。 选区对象。
  • CAtomTable _AtomTable;。 存储着元素-名字(name)的映射
  • IDocHostUIHandler * _pHostUIHandler;。 宿主的整合,这个是UIHandler的接口指针。
  • IDocHostUIHandler * _pBackupHostUIHandler;。 上一个(称为主UIHandler)失败时调用这个备选的。
  • IOleCommandTarget * _pHostUICommandHandler;。 UIHandler的Command Target。
  • DWORD _dwFlagsHostInfo;。 宿主的flags
  • DWORD _dwFrameOptions;。 框架选项。
  • CStr _cstrHostCss; 。宿主下发下来的css规则。
  • CStr _cstrHostNS;。 命名空间列表,用分号分割。
  • CElement * _pElementOMCapture;。 用于处理鼠标捕获。
  • PFN_VOID_MOUSECAPTURE _pfnCapture;。 鼠标捕获事件的处理函数。
  • void * _pvCaptureObject;。 触发事件的对象。
  • CElement * _pMenuObject;。 当前调用site(ie的这个术语当成元素来看比较靠谱?)的菜单对象。
  • CTreeNode * _pNodeLastMouseOver;。 上一次触发mouseOver事件的元素。
  • long _lSubDivisionLast; 鼠标移动过的上一个区域。
  • CTreeNode * _pNodeGotButtonDown;。 捕获到鼠标按下的site。
  • HMENU _hMenuCtx;。 菜单上下文。
  • USHORT _usNumVerbs;。 上下文菜单中的verb(活动元素)
  • HWND _hwndCached;。 处理状态时负责承载的窗口。
  • ULONG _cFreeze;。 冻结计数
  • IUnknown * _punkMimeOle;。 维持MimeOle对象的计数用。(保活)
  • IStream * _pStmDirty;。 脏文档数据流,用于刷新。
  • IMoniker * _pmkName; 。 为IPersistMoniker保存的当前使用的Moniker。
  • CDwnPost * _pDwnPost;。 用于获取当前doc的推送数据。
  • CStr _cstrUrl; 。 内部使用,当前doc的base url。
  • CStr _cstrSetDomain;。 URL Host name的子集。
  • SAFETYLEVEL _safetylevel;。 当前页面的安全等级。
  • SSL_SECURITY_STATE _sslSecurity;。 当前页面安全等级,不安全,混合,安全。
  • SSL_PROMPT_STATE _sslPrompt; 。 SSL提示,允许,询问,拒绝。
  • LONG _cInSslPrompt;。 当前的提示字段指示。
  • IHlinkBrowseContext *_phlbc;。 超链接的浏览上下文,用于历史等地方。
  • DWORD _dwLoadf;。 加载标识,离线,安静,等等。
  • IUrlHistoryStg *_pUrlHistoryStg;。 历史存储(history storage)
  • CTaskLookForBookmark *_pTaskLookForBookmark;。 检查书签的task。
  • CMapElement * _pMapHead;。指向树中的map对象。
  • long _readyState;。 readystate的指示。
  • ULONG _ulProgressPos;。 进度位置。
  • ULONG _ulProgressMax;。 最大进度指示。
  • (以下挑重要的来了,这里的东西实在是太多了)
  • CDoc* _pDocParent;。 父文档的指针
  • IHTMLEditor* _pIHTMLEditor;。 选区管理器
  • CStyleSheetArray *_pHostStyleSheets;。 宿主传来的所有的样式表。

4.4 CDoc的成员函数
CDoc提供了一大堆的成员函数,在这里我们将列举出部分重要或者常用的成员函数,以供参考。

  • InitDocClass。 初始化,生成一个CDoc类,由DLL的LibMain调用。
  • CDoc::CDoc。 CDoc的构造函数,这个和CDoc::Init合起来完成了CDoc的初始化,当然,构造函数是第一个被调用的。
  • CDoc::~CDoc。 CDoc类的析构函数。
  • CDoc::CreateRoot。为当前CDoc创建一个主根元素。
  • CDoc::Init。 初始化的第二阶段。
  • CDoc::Passivate。释放对其他元素的引用,藉由可以释放主对象。
  • CDoc::UnloadContents。 释放所有资源。
  • CDoc::RunningToLoaded。 通知主根元素OS_RUNNING事件。
  • CDoc::HitTestPoint。 在指定点击位置上向CView发出请求,找到对应位置的元素。
  • CDoc::Update。 更新对应View的缓存。
  • CDoc::IsUpToDate。 获取Cache状态是否为最新。
  • CDoc::Close。 关闭当前对象。
  • CDoc::ParentFrameSite。 当当前CDoc是在frameset中呈现的话,这个会返回它的parent site,否则返回null。
  • CDoc::ParentIFrameSite。 同上,不过是iframe。
  • CDoc::BroadcastNotify。向整个树中广播通知。
  • CDoc::SetDocParent。 设置parent。

  • 有参考意义的网页 http://msdn.microsoft.com/en-us/library/aa752038%28v=vs.85%29.aspxhttp://msdn.microsoft.com/en-us/library/aa741317%28v=vs.85%29.aspxhttp://msdn.microsoft.com/en-us/library/bb508514%28VS.85%29.aspx