试用百度搜索开放平台

来自Jamesqi
跳转至: 导航搜索

--James Qi 2009年4月29日 (四) 23:26 (CST)

  看到有消息说百度一周前(2009年4月22日)推出了“百度搜索开放平台”,就去试了试,下面是记录:

  先把新闻报道、帮助文件、贴吧讨论都看了看,这是属于所谓阿拉丁计划的一部分,初推出的时候有很多限制,目前只接受“确定性”资源。我先注册了一个帐号(不能与百度帐号共用),需要上传身份证复印件的图片。收到验证邮件后点击链接激活帐号,就完成了注册。(发现一个小问题,验证方法: 添加元标记 提供的meta标记显示<meta name='varify-v1' content='baidu-M94rpJkQluuZMDyf' />,这个varify应该是verify吧?还是百度工程师的创新词汇?)

  用获得的用户名、密码进入后可以开始添加资源,但关键的资源模板限制比较多,例如:

文字类模板 - 标题+一行摘要:

<?xml version="1.0" encoding="gbk"?>
<!-- XML文档需以gbk方式编码;除link外,所有标签为必有字段-->

<DOCUMENT>
<!--需要大写,标记整个xml文件的开始和结束-->
	
<item>
<!--标记每个关键词所对应信息的开始和结束,不得嵌套出现。同一份XML文档中item的个数上限为10000个 -->

        <key>放羊的星星</key>
<!--关键词,当用户在百度检索此关键词时,即可检索到item中指定的内容。每个key的长度限制为1-76字节-->

        <display>
<!--表示该关键词要显示的搜索结果信息,包含以下的url、title等标签。display标签中的文本长度上限为2k-->

                <url><![CDATA[http://www.baidu.com/s?wd=%B7%C5%D1%F2%B5%C4%D0%C7%D0%C7]]></url>
<!--表示资源的链接地址,即title指向的链接。url的长度限制为6-512字节-->
                <title>放羊的星星-百度视频</title>
<!--资源名称,即展示在百度搜索结果页中的标题。长度限制为4-63字节-->
                <showurl><![CDATA[www.baidu.com/s?wd=放羊的星星]]></showurl>
<!--资源所在页面的链接地址,用于显示在搜索结果的下方。不需要有”http://”的部分;Showurl的长度限制为2-42字节,如果超过42字节,请截断,并增加省略符号“…”,并保证截断后的showurl加上省略符号总长度不超过42字节。-->
<pagesize>17k</pagesize>
<!--资源所在页面的大小,以K为单位-->
                <date>2008-11-26</date>
				<!--资源的最后更新日期,格式为yyyy-mm-dd,例如:2008-10-26-->
<content1>约有126,402个放羊的星星相关的视频 放羊的星星 第1集 放羊的星星 第2集 放羊的星星 第3集 放羊的星星 第4集 放羊的星星 第5集 放羊的星星 第6集 ...</content1>
<!--表示搜索结果的文字内容(摘要),为一段内容,会被动折行,文字长度限制为50-140字节,如果超过140字节,请截断,并增加省略符号“…”,且保证内容加上省略符号总长度不超过140字节-->
<link linkurl="http://video.baidu.com/v?word=%B7%C5%D1%F2%B5%C4%D0%C7%D0%C7+19&ct=301989888&rn=20&pn=0&db=0&s=0&fbl=1024"  linkcontent="19(最新一集)" />
<!—linkurl指链接指向的地址,长度限制为6-512字节;linkcontent指链接的文字描述(anchor),其长度限制为1-18字节,如果超过18字节,请截断,并增加省略符号“…”,且保证文字内容加上省略符号总长度不超过18字节;Link标签的个数限制为0-6(即:可以为空,不提供)。尽量不要提供链接,除非特别必要。否则可能导致无法通过审核。->
<link linkurl="http://video.baidu.com/v?ct=301989888&rn=20&pn=0&db=0&s=15&word=%B7%C5%D1%F2%B5%C4%D0%C7%D0%C7%20%BB%A8%D0%F5"  linkcontent="拍摄花絮" />

          </display>
</item>
</DOCUMENT>

表格类模板 - 2列模板:

<?xml version="1.0" encoding="gbk"?>
<!-- XML文档需以gbk方式编码;除content1、link外,所有标签为必有字段-->

<DOCUMENT>
<!--需要大写,标记整个xml文件的开始和结束-->

<item>
<!--标记每个关键词所对应信息的开始和结束,不得嵌套出现。同一份XML文档中item的个数上限为10000个 -->


<key> 浙江卫视节目表</key>
<!--关键词,当用户在百度检索此关键词时,即可检索到item中指定的内容。每个key的长度限制为1-76字节-->

<display> 
<!--表示该关键词要显示的搜索结果信息,包含以下的url、title等标签。display标签中的文本长度上限为2k-->

<url><![CDATA[http://tvmao.com/program/ZJTV-ZJTV1-w5.html]]></url>
<!--表示资源的链接地址,即title指向的链接。url的长度限制为6-512字节-->
<title>浙江卫视节目表</title>
<!--资源名称,即展示在百度搜索结果页中的标题。长度限制为4-63字节-->
<showurl><![CDATA[tvmao.com/program/ZJTV-ZJTV1-w5.html]]></showurl>
<!--资源所在页面的链接地址,用于显示在搜索结果的下方。不需要有”http://”的部分;Showurl的长度限制为2-42字节,如果超过42字节,请截断,并增加省略符号“…”,并保证截断后的showurl加上省略符号总长度不超过42字节。-->
<pagesize>12k</pagesize>
<!--资源所在页面的大小,以K为单位-->
<date>2009-02-24</date>
<!--资源的最后更新日期,格式为yyyy-mm-dd,例如:2008-10-26-->
<!--<content1></content1>-->
<!--表示搜索结果的文字内容(摘要),只能有一行,且长度限制为0-78字节,如果超过78字节,请截断,并增加省略符号“…”,并保证内容加上省略符号总长度不超过78字节。--> <form col0="日期" col0link="" col1="节目" col1link="" />
<form col0="星期四 03-05 06:43" col0link="" col1="今日证劵早间版" col1link="" />
<form col0="星期四 03-05 07:30" col0link="" col1="经典剧场电视剧:新白娘子传奇" col1link="" />
<form col0="星期四 03-05 12:00" col0link="" col1="百姓剧场电视剧:新白娘子传奇" col1link="" />
<form col0="星期四 03-05 17:00" col0link="" col1="今日证劵晚间版" col1link="" />
<form col0="星期四 03-05 17:50" col0link="" col1="天气海洋预报" col1link="" />
<!--用于表示表格的每一行内容,第一个form指表格的第一行内容,第二个form指第二行,以此类推,form的个数限制为1-6个。col0—指表格该行的第一列,col0link-指表格该行第一列的链接;col1—指表格该行的第二列,col1link-指表格该行第二列的链接;col的个数上限为2个(即最多为col1),每个单元格中,字符的长度限制为1-50字节,如果超过50字节,请截断,并增加省略符号“…”,并保证内容加上省略符号总长度不超过50字节。Collink的个数上限为2个(即最多为col2link),长度限制为0-512字节。需要说明的是,collink也为必填属性,如果某个或某些表格项没有添加链接的需求,也需要有collink属性,写为collink=””即可。-->
<link linkurl="http://tvmao.com/program/ZJTV-ZJTV1-w5.html" linkcontent="更多" />
<!--该标签用于指定表格里最后一行靠右的链接内容,包含linkurl、linkcontent标签。<linkurl>指链接指向的地址,如果没有特别情况,建议与本item的url标签中的链接保持一致。长度限制为6-512字节。<Linkcontent>指链接的文字描述(anchor),如果没有特别情况,建议写为“查看更多”“更多内容”此类文字。其长度限制为1-30字节,如果超过30字节,请截断,并增加省略符号“…”,并保证文字内容加上省略符号总长度不超过30字节。需要注意的是如果数据条数小于6个,或者本身数据只用5行就能展示完,则xml文件中不用包含<linkurl>和<lincontent>标签。-->


</display>

</item>
</DOCUMENT>

  这确实与普通的Sitemaps有很大区别,百度就是喜欢搞自己的标准,让别人来适应。我以前曾经按照百度的所谓“互联网论坛收录开放协议”折腾出sitemap_baidu.xml,好像一点作用都没有,上传后跟踪了几天,根本就没有被百度的蜘蛛爬过。

  根据这样的XML文件要求,必须做重新整理或者开发才能符合,那就很需要费一番功夫,还不一定值得,五一以后再说吧。

标签:百度搜索XML
相关内容:
  1. 2010-11-04 22:52:58 开启MediaWiki的搜索建议(Search Suggest)功能
  2. 2010-09-03 23:38:06 采用AdSense自有搜索广告(AFS - Ads-Only)
  3. 2010-08-16 23:06:20 百度发布SEO指南1.0版
  4. 2010-05-13 23:31:29 参加百度联盟的武汉站会议
  5. 2010-04-03 22:45:40 MediaWiki导入XML数据中需要转义的字符
  6. 2010-01-12 09:54:17 听说百度被黑了,为什么不黑央视网、人民网啊?
  7. 2009-12-17 22:09:17 有些担心谷歌搜索在中国发展的形势不妙
  8. 2009-10-20 11:15:22 搜搜Soso的搜索技术目前还真不行
  9. 2009-09-07 22:09:20 腾讯搜搜独立了,网站解除对Sosospider屏蔽
  10. 2009-04-24 10:58:26 谷歌基于搜索的关键字工具新增支持中文、中国数据
  11. 2009-01-04 16:59:07 2009年最新热门高价搜索关键词分类列表
  12. 2009-01-03 11:30:39 谷歌基于搜索的关键字工具Google Search-based Keyword Tool
  13. 2008-11-27 11:18:01 百度的中国传统文化
  14. 2008-11-24 22:07:09 百度 V.S. 被收买的股评家

关于“试用百度搜索开放平台”的留言:

新增留言

--119.123.211.5 2009年5月25日 (二) 16:37 (CST)

留言: varify应该是verify Baidu的人写错了的可能性很大。。

新增相关留言