Contents

1.1.3 筷子和机械臂

回顾历史,你定会发现:所有好的发明、设计、方法论都是致力于让用户可以「傻瓜式」地使用。计算器、iPhone、微信...... 以及筷子

据观察,总有一些「非蠢既坏」的人特别热衷于自制各种「机械臂」来操纵筷子,以此教人如何使用筷子进食… 不!是教人如何更高级地使用筷子。他们的受众可以笼统称为「==向往长成五颜六色而非绿色的韭菜」。前者投其所好,将简单的事物解构和组装成看起来更炫酷的新事物,后者耳目一新,一声「牛逼」不成敬意。事实上,其大有「一顿操作猛如虎,定睛一看原地杵==」的意味。

回到这门教程,我隔三差五地删了不少节点内容。你放心,我删的不是「机械臂」!而是那些没有必要深入的内容。那么判断没有必要的依据是什么呢?低频!即是被使用的频率低到你完全没有必要为其付出一丁点学习成本

1.3 搜索的演进

概述

  • 在 1993 年 9 月之前,万维网完全被手工索引。Berners-Lee(万维网之父) 在瑞士欧洲核研究组织 CERN 工作期间创建了万维网。于是世界上第一个网站就在 CERN 搭建,而 CERN 则位于法国边境。网站在 1991 年 8 月 6 日上线:
  • Info.cern.ch 是世界上第一个网站及网站服务器。网站在一台位于 CERN 的 NeXT 计算机上运作。第一个网页地址是: https://info.cern.ch/hypertext/WWW/TheProject.html, 它是万维网计划的讯息收集中心。

  • 直到 1993 年夏天时,网上还没有搜索引擎,全部由人工维护着大量专门的内容目录。日内瓦大学的奥斯卡・尼尔斯特拉斯 (Oscar Nierstrasz) 写了一连串的 Perl 脚本,这些脚本定期抓取这些页面,并将它们重写为标准格式。这构成了 W3Catalog 的基础,W3Catalog 是网络上第一个原始搜索引擎,于 1993 年 9 月 2 日发布。
  • JumpStation(由 Jonathon Fletcher 于 1993 年 12 月创建)使用 Web 爬虫查找网页并构建其索引,并使用 Web 表单作为其查询程序的接口。因此,它是第一个结合 Web 搜索引擎(爬行,索引和搜索)的三个基本功能的网络信息检索工具。
  • 最早基于爬虫的全文搜索引擎之一是 1994 年推出的 WebCrawler。与其前辈不同,它允许用户在任何网页中搜索任何单词,这成为后来所有主要搜索引擎的标准。它也是公众广为人知的搜索引擎。
  • 不久之后,许多搜索引擎出现百家争鸣的态势。其中就包括 Magellan,Excite,Infoseek(李彦宏即是被推荐到这家公司从事搜索技术的开发),Inktomi,Northern Light 和 AltaVista 等等。而那时的 Yahoo! 是人们查找感兴趣的网页的最流行的方式之一,但它的搜索功能是基于网络目录,而非基于关键词来对网页内容进行全文检索。
  • 大约 2000 年,Google 借助 PageRank 算法逐渐获得了更好的搜索结果,使得 Google 开始迅速崛起。
  • 2000 年 1 月 18 日,李彦宏和徐勇注册并成立了百度。2009 年 6 月 1 日,微软重新命名的搜索引擎 Bing 推出。
  • 截至目前,活跃的通用性搜索引擎包括 Google,Bing,Yahoo! ,百度和 Yandex。

时间轴

📆年份🔍 搜索引擎🌖 目前状态
1993W3Catalog可用
Aliweb可用
JumpStation失效
WWW Worm失效
1994WebCrawler可用
Go.com失效,重定向至 Disney
Lycos可用
Infoseek失效,重定向至 Disney
1995Daum可用
Magellan失效
Excite可用
SAPO可用
MetaCrawler可用
Yahoo!可用
AltaVista失效,重定向至 Yahoo!
1996Dogpile可用
Inktomi失效
HotBot可用
Ask Jeeves可用,更名为 ask.com
1997AOL NetFind可用 ,更名为 AOL Search
Northern Light失效
Yandex可用
1998Google可用
Ixquick可用 ,更新为 Startpage.com
MSN Search可用 ,更新为 Bing.com
empas失效
1999AlltheWeb失效,重定向到 Yahoo!
GenieKnows可用,更新为 Yellowee.com
Naver可用
Teoma失效
2000百度可用
Exalead可用
Gigablast可用
2001Kartoo失效
2003Info.com可用
Scroogle失效
2004Yahoo! Search可用
A9.com失效
Clusty可用
Mojeek可用
搜狗可用
2005SearchMe失效
KidzSearch可用,Google Search
2006Soso(搜搜)失效,与 Sogou 合并
Quaero失效
Search.com可用
ChaCha失效
Ask.com可用
Live Search可用,重组为 Bing
2007wikiseek失效
Sproose失效
Wikia Search失效
Blackle.com可用
2008Powerset失效,重定向到 Bing
Picollator失效
Viewzi失效
Boogami失效
LeapFish失效
Forestle失效,重定向到 Ecosia
DuckDuckGo可用
2009Bing可用
Yebol失效
Mugurdy失效
Scout (Goby)可用
NATE可用
Ecosia可用
Startpage.com可用
2010Blekko失效
Cuil失效
Yandex (英语)可用
Parsijoo可用
2011YaCy可用,P2P 搜索引擎
2012Volunia失效
2013QwantActive
2014Egerin可用
Swisscows可用
2015Yooz可用
Cliqz可用,整合到浏览器中
2016Search Encrypt可用
Kiddle可用

技术栈

  • 使用倒排索引解决匹配的效率问题,使用文档模型解决基本的相关性,使搜索引擎变得可用、可扩展,代表比如 Infoseek 。这一阶段只保证了基本的文字相关性,搜索的真正效果是无法保证的。
  • 使用超链模型,比如 Google 的 PageRank 算法和百度的超链分析技术。解决信息的权威性问题,使搜索质量有了质的飞跃。从这一阶段开始,搜索引擎快速普及与并进入商业化,为 Google 和百度这样的公司带来了丰厚的利润。
  • 一方面使用更复杂的规则和机器学习排序模型,综合考虑了用户的行为特征,如商品评论、点赞、收藏、购买等,使得搜索引擎的结果再次提升一个档次,这些在电商等垂直搜索上表现的会更加明显;另一方面,基于各种先进的自然语言处理技术,充分挖掘用户搜索行为日志,对 query 进行分析改写以召回更多更好的结果。
  • 从「有框」搜索时代步入更加人工智能的「无框」搜索时代。人机交互方式也将更多的是问答式的自然语言加语音的方式,而搜索引擎也更像一个智能机器人,理解人的自然语言问题,提供更加直接有效的知识和答案。这一阶段目前尚处于起步阶段,Google、Amazon 以及一些优秀的创业公司都在进行积极的探索。
  • Recap - Google I/O 2019(对第四阶段的智能化人机交互有更感性的认知)
  • 本教程将在疏通搜索的路径一章,通过对通用搜索引擎工作原理的浅入浅出的描述来指导各位提高自身的搜索效率。

占山为王

尽管 Google 是目前全球搜索引擎市场的最大赢家(截止到 2019 年 4 月,Google 全球份额占比 92.42%,统计来源:StatCounter),但考虑到本土化、用户习惯等因素,各个国家和地区也有着各自的主力搜索引擎。

国家 / 地区主力搜索引擎
美国及全球多数国家Google
俄罗斯Yandex
中国百度
韩国Naver
日本Yahoo!
捷克Seznam

大事件

仍旧是按照时间顺序,尽可能完整地呈现那些影响过我们的搜索事件。产品上线、技术变革、隐私、死亡… 总有值得我们铭记和思考的历史节点 (入选事件带有我的个人偏好)

时间轴事件概述
1997.2.5李彦宏申请了 超链分析技术专利,是现代搜索引擎领域的重要基础发明之一。
1997.9.15Google.com 注册上线。目前是全球流量最大的网站。
1998.1.9拉里・佩奇申请了 PageRank 专利,意义同上。Google 的崛起也要归功于此。
2001.10.22李彦宏和徐勇创立的百度公司正式发布百度搜索引擎。
2007.5.25Google 发布街景地图
2011 年 6 月Google 推出了语音搜索
2016 年 4 月魏则西事件。受害者魏则西及其家人因在百度推荐的武警北京市总队第二医院接受了未经审批且效果未经确认的治疗方法,导致耽误治疗,最终不治去世。
2019 年 1 月自媒体新闻实验室编辑方可成在微信公众号撰写的《搜索引擎百度已死》引发网络热议。百度在首页的搜索结果,基本上有一半以上会指向百度自家产品,尤其频繁出现的是百家号。

移动时代

  • wait Google 被诟病不再中立而带有政治偏向

传统搜索引擎的价值正在被垂直领域的专业搜索引擎和流行的衣食住行相关 App 所稀释。

而在垂直搜索引擎和 App 内寄生的内容生产者,也随着知识付费时代的到来,将其内容精品化后面向其付费用户。好的内容不再会被轻易且免费地分享到互联网,所以 Google 、百度等通用性搜索引擎可以索引的内容质量就可能在信息的时效性和实用性上打折扣。

综上,即是在顶层思想中要树立「搜索引擎的形态和获取信息的渠道是多元化」的意识。这样才能才能在接下来的搜索过程中做到不拘一格、多管齐下、触类旁通。

1.4 搜索引擎原理

原理

首先,这里推荐观看 Google 官方制作的一个介绍视频:How Search Works

id: 62fe12a6-ef2c-4fb4-9496-729249d3701c

{{youtube https://youtu.be/BNHR6IQJGZs}}

在我们进行搜索之前,搜索引擎就已经开始工作 —— 抓取网页并编入索引。所以实际上,我们搜索的不是网页,而是索引。

  • 通过抓取网页查找信息 🕷
    • 网页抓取工具的软件 (即所谓的爬虫、蜘蛛) 来发现供公众访问的网页
      • 抓取工具会查看网页
      • 跟踪访问这些网页上的链接
      • 逐一访问各个链接
      • 将各网页的相关数据返回至搜索引擎的服务器
  • 通过编入索引整理信息 📑
    • 抓取网页
    • 记下关键信号 (从关键字到网站更新频率)
    • 在索引中跟踪所有这些内容
    • 被编入索引的每个网页中出现的每个字词都分别对应一个条目
      • 在将某个网页编入索引时,搜索引擎会将它添加到与它包含的所有字词对应的条目中。

要点

对 Query 的理解
  • 小动作
  • 近似词
    • 一个词的近似词也会出现在搜索结果
    • 如搜 “translator” 也包含 “translation”;
  • 缩写
    • 搜索缩写可以返回全拼的结果
    • 如「北约 」可以显示「北大西洋公约组织」结果;
  • 拼写错误
    • 输入拼写错误时,Google 给出正确的单词拼写;
  • 同义词
    • 如果单词在短语或句子中的使用不正确,Google 会根据正确的同义词显示结果;
  • 翻译
    • 搜索引擎可以针对不同语言的特定单词建议结果;
  • 忽略单词
    • 在某些包含无关或无意义单词的 Query 中,Google 会删除这些单词再搜索
  • 联想查询
    • 在用户输入时,搜索栏下方的列表中为用户提供自动完成的 搜索建议

对内容(文档)的理解

对 Query 和内容(文档)的匹配和排序

难点

难点举例我们如何做得更好
输入不规范丰乳肥臀哪里可以下载丰乳肥臀 pdf
关键词的歧义汉堡,城市名还是🍔?消除歧义
意图强度的判定以图搜图上传一张二次元妹子,搜索引擎猜测是 girl?将 girl 修改为 二次 girl 试试
意图的时效性变化明年再来搜「沸腾」,可能就没多少华为的结果了搜索工具中的时间限定

找到结果并非终点,「小心求证」在如今的中文互联网环境中是很有必要的

高效搜索模型 Beta

  • 预判
    • ❌ 万物皆被索引
    • 这种所谓的预判其实就来自于你对事实的足够认知之上,发生在潜意识,毫秒之间。
      • 比如最常见的,某出版社周一才出版了一本书,你周末就非得在网上找到可免费下载的电子版???事实是可能吗?可能的概率有多大?大到值得你破费老半天功夫去找吗?

  • 选择
    • 通用搜索引擎?专业领域的垂直搜索引擎?
      • 写毕业论文,搜索相关文献 👉 Google 学术搜索等;
      • 申请专利,检索相关资料 👉 Google Patents、SooPAT 等;
      • 找一本电子书 👉 电子书搜索 中挑一挑;
      • 某位当红男演员出轨了 👉 微博热搜吃瓜;
      • 想了解网友对于某个热门事情的较为深入的看法 👉 知乎承包了「如何看待」体;
      • 2014 年的虫部落首页是什么样子? 👉 Wayback Machine - Internet Archive
      • 探索英国巨人堤道形成的奥秘 👉 Google 搜索 巨人堤道 ,查看维基百科词条;
  • 执行
    • 看看机器推荐的?选择一两个已知的编程竞赛网站,使用 Google 高级搜索指令进行搜索:related:leetcode.comrelated:hackerrank.com 就可以搜集大相当多的此类型网站。
    • 当然,如果你还知道 SimilarSites 的存在,那么还可以进一步尝试搜索,看看有没有什么意外的发现。由于 SimilarSites 搜索算法所依据的分类信息较为宽泛,所以搜索结果中也会出现很多相似度不够高的网站。
    • 再换一个思路:有时检查网站的反向链接(来自其它网站的进入链接)可能会包含一些「臭味相投」的网站。方法是通过 Backlink Watch 这个网站或者 Google 高级搜索指令 link:domain.com 来搜索。

1.5 搜索始于 Google!

从车库到 Googleplex

  • Google 的故事始于 1995 年的斯坦福大学。拉里・佩奇正在考虑斯坦福大学毕业,而那里的学生谢尔盖・布林则被派去向他展示。
  • 根据一些说法,他们在第一次会议期间几乎对所有事情都持不同意见,但到了第二年,他们达成了合作伙伴关系。他们在宿舍工作,他们建立了一个搜索引擎,使用链接来确定万维网上各个页面的重要性。他们称这个搜索引擎为 Backrub。
  • 不久之后,Backrub 被重命名为 Google。这个名字是关于数字 1 的数学表达式,然后是 100 个零,并恰当地反映了拉里和谢尔盖的使命「整合全球信息并使其普遍可用和有用」。
  • 在接下来的几年里,Google 不仅引起了学术界的关注,也引起了硅谷投资者的关注。1998 年 8 月,Sun 联合创始人安迪・贝托尔斯海姆以 10 万美元的价格给拉里和谢尔盖写了一张支票,Google 公司正式诞生。通过这项投资,新成立的团队从宿舍升级到他们的第一个办公室:位于加利福尼亚州门洛帕克郊区的一个车库,由 Susan Wojcicki(Google 16 号员工,现在的 YouTube 首席执行官)拥有。笨重的台式电脑,乒乓球桌和明亮的蓝色地毯为这些早期和深夜设置了场景。(保持 丰富多彩 的传统一直持续到今天。)
  • 即使在一开始,Google 的行为风格就不按常理出牌。从 Google 的最初服务器(由乐高搭建)到 1998 年的第一个 “doodle”。“不做坏事” 和 “ 我们知道的十件事是真的 ” 确立了 Google 刻意而非传统的精神。
  • 在随后的几年里,公司迅速扩张。Google 已经超越了车库的小空间,最终搬到了加利福尼亚州山景城的现有总部(又名 “The Googleplex”)。以创新思维做事的精神促成了这一系列成就。
  • 不断寻求更好的答案仍然是 Google 所做的一切的核心。今天,Google 在全球 50 个不同国家 / 地区拥有 60,000 多名员工,其数百种产品已被全球数十亿人使用,从 YouTube 和 Android 到 Smartbox,当然还有 Google 搜索。

官方博客

透过 官方博客,你可以了解到 Google 员工对自身产品,技术和 Google 文化的见解。

搜索文化

作为用户最直观的感受一定是来自于 Google doodles 🖌 我挑选了几个很好玩儿的 doodles,在此让各位感受或重温一下 Google 的标识涂鸦文化。

主题时间特色
纪念花园精灵2018 年 6 月 10 日交互式游戏,音乐欢快
魔方2014 年 5 月 19 日交互式游戏,流畅炫酷
吃豆人诞生 30 周年2010 年 5 月 21 日交互式游戏,怀旧(比赛

512 汶川地震映象:Google logo 全球首次改至黑白色。以此表达对这一悲恸时刻的共同悼念。

身体力行

  • 各位可能都晓得,虫部落快搜学术搜索,甚至 电子书搜索 的默认排序第一屏展示的都是 Google 相关搜索产品,并且调用的是 Google 官方的搜索接口,而非镜像。
  • 所以,在没有开启代理的情况下,你当然不能直接使用。所以,偶尔就有人回来问我,它又不能用,你放那干嘛?
  • 今天我在这里解释下:首先,不是不能用,只是需要额外的网络环境支持。我也不可能冒着被请喝茶的风险去提供可直接访问的镜像服务,这是求生欲,更是想虫部落在「让搜索更简单」的使命督促下更长久地为大家服务的信念;然后,再说为什么放在第一位。因为这表征着在搜索领域 Google 无可争议的最强地位。你可以因为麻烦退而求其次地用百度、必应甚至搜狗和 360,但我更希望你以 Google 为主力搜索,你在代理上花费的那一小撮费用,远不及它为你的学习和工作节省的时间以及创造的价值
  • 至于被询问很多的关于「你用的什么梯子」的问题,在此不便讨论。我能给的建议就是:找一个付费且靠谱的,在你经济能力的范围内,秉承「贵即是好」的原则去筛选

Google 搜索

20 件事

自 1998 年以来,Google 搜索一直在帮助人们解决各种问题,时至今日已过去 20 年了,Google 搜索已经建立了许多其他有用的功能和工具来帮助我们更好地搜索问题。尽管由于众所周知的原因让这其中的一些功能显得「然并卵」,但我相信各位的未来空间一定不止局限于 960 万平方公里的土地 ✈ 所以… 让我们来完整了解下这 20 个技巧。

日常助手

在附近的活动中填写你的日程安排

使用手机,只需搜索 我附近的活动 或 美食节 等特定活动类型,就会看到来自网络的本地活动列表。

电影放映时间和门票

当您想要看电影时,搜索会将放映时间,剧院位置和评级集中在一起。它可以很容易地决定哪个电影和位置最适合你。

食谱搜索

如果你正在急于寻找一种食谱,只需在手机上搜索你想要的东西(比如 鸡巴马干酪),你就会看到食谱建议的旋转木马。

实时体育比分

无论你是狂热的体育爱好者还是球星粉丝,搜索都可以让你轻松掌握最新的分数。输入您最喜欢的球队或联赛的名称(如 英超 皇家马德里),并获得最近比赛的实时得分和回顾。

Google 图片的样式和购物帮助

当您正在探索样式创意或使用 图像搜索浏览下次购买时,可以购买的产品图片在 Google 应用和移动网络中标有 “产品” 徽章。标有 “产品” 的图片包括价格,评论和可用性,使研究和购物更容易,更快捷。

协助决策

找到您的下一份工作

现在,Google 在全球 90 多个国家 / 地区为用户提供工作,你可以直接在 Google 上搜索工作。尝试搜索 我附近的工作 零售工作 以浏览网络上的工作。您还可以保存作业设置警报,映射潜在的通勤并单击以应用。

找到合适的大学

在搜索上,你可以找到 有关四年制美国大学的 更多 信息,包括有关入学,费用和学生生活的信息。您可以在注册后 10 年内围绕毕业率和典型年收入挖掘数据。

帮助解决健康问题

寻找常见的健康问题,如 流感健康问题脚踝扭伤,你会在知识小组中找到相关的医学事实。我们将向您展示典型的症状,治疗方法和其他细节 - 例如病情的常见程度,是否具有关键性或传染性,受影响的人群年龄以及更多 - 来自可靠来源 和医生审查。如果您在移动设备上搜索 临床抑郁症,我们还可以轻松访问 临床验证的私人筛查测试,其结果可以帮助您与您自己的护理提供者进行对话。

省时工具

费用计算

当你在餐馆时,你可以使用 Google 来计算你的小费。只需搜索 tip calculator (小费计算器),输入你的用餐费用以及你想要小费的百分比。

现金兑换

如果你正在外出旅行,这里有一个赚大钱的工具:你可以直接在 Google 上获得实时货币转换。搜索 $500 in euros ,你将获得一个包含当前汇率和交互式图表的框。

跟踪包裹

您可以直接在 Google 搜索栏中输入任何 UPS,USPS 或 Fedex 跟踪号码,它会显示有关您的包裹的跟踪信息。

快速访问会议、航班等

如果您不想切换选项卡,搜索可以帮助您查找有关即将到来的计划的信息。如果您已登录自己的 Google 帐户,则搜索 “我的旅行” 或 “我的约会” 会向您(仅限您!)显示有关即将开始的航班,酒店预订以及您在 Gmail 和 Google 日历中的日程安排的相关结果。

营养参数

你可以搜索营养信息并找出你日常食物中的卡路里数量。例如,你可以问 “巧克力蛋糕中有多少脂肪?” 或 “番茄酱中有多少糖?” 谷歌将为你打破营养状况。

定义和同义词

您可以将 Google 用作词典和词库。尝试搜索 [loquacious mean 是什么意思],你可能会发现自己不停地谈论这个功能。

精准搜索

提出复杂的多部分问题

您可以向 Google 提出 “组合查询”,要求我们在解决第二部分之前解决问题的第一部分。例如,如果你搜索 [NSYNC 成员何时出生],你会(感觉老了)看到 Justin,JC,Chris,Lance 和 Joey 的出生日期。

使用图像搜索

在计算机上,将您自己的照片上传到 Google 图片,以在网络上查找相同或类似的照片。点击 Google 图片中的相机图标,Google 也会告诉您相片的来源和其他详细信息。现在你可以知道模因真正来自哪里了。

检查如何正确地说出大量数字

输入任意长号并在搜索结尾添加 “= english”,您将找到拼写单词中数字的正确方法。尝试 6006131520(提示:它不是 “谷歌是 20”)。

在一段时间内搜索

您可以将搜索范围缩小到特定日期范围,并仅查看在此期间发布的内容。如果您正在寻找有关如何在某个时间点覆盖新闻主题或者为历史文章寻找资源的洞察力,这可能很有用。

在网站内搜索

如果您正在寻找特定发布商的文章或页面,搜索将让您将结果集中在该网站上。只需在网址之前添加 site: 即可将结果限制为该发布商,然后您可以按新近度排序或添加其他关键字以缩小搜索范围。

高级搜索

如果所有这些技巧仍然无法满足您的需求,您可以使用高级搜索来应用多个过滤器,例如指定要排除的术语或仅查找某些语言,区域的页面,网站或文件格式。

设置偏好
项目操作
搜索设置更加全面地使用 Google 搜索的最好方式是点击「高级搜索」中查找选项。
手气不错点击”I’m Feeling Lucky” (手气不错)可以直接访问关键词搜索第一个结果的网页。
安全搜索Google 的安全搜索可以保护你免受成人内容的侵犯,你可以在搜索设置中开启这个功能。
取消区域限制访问 https://www.google.com/ncr 可以取消区域限制,防止跳转到 google.com.hk 去。
习惯偏好www.google.com/account 上注册一个帐号便可以保存你的 Google 使用习惯偏好。
广告设置Ads Preferences 中可以设置不显示谷歌广告。
搜索历史Google History 可以查看搜索历史并提供下载。
Google 帐户安全Permissions 可查看帐户授权情况,Activity 可查看登录情况,Dashboard 可查看活动情况。
下载 Google 数据Google Takeout 中可以下载你的所有谷歌数据。
Google 帐户删除Google Downgrade 中可以删除你的谷歌帐户。
搜索彩蛋
使用 Google 图片 搜索 “atari breakout”,界面会从正常的搜索结果转换成类似于雅达利的电子游戏打砖块,且可以在屏幕上玩游戏。当游戏胜利后,搜索结果会随机改变,并可再次开始游戏。
搜索 “do a barrel roll”(来翻转一下)或 “Z or R twice” 将会 360° 旋转搜索结果。
搜索 “askew”(需使用支持 CSS3 的浏览器),将会使页面稍向右偏转。搜索其他内容则将使其恢复。
2011 年 12 月至 2012 年 1 月之间,搜索 “let it snow”(使其下雪),将在搜索结果模拟降雪和霜冻。一段时间后,搜索结果屏幕起雾,只有蓝色的搜索按钮除去了霜。用户可以点击页面除霜,并可以像在窗户上一样用鼠标拖动写字(此时的链接并不起作用,即使整个画面手动解冻)。直到按下除霜按钮,搜索屏幕将停止起雾。
2011 年 12 月至 2012 年 1 月期间,搜索 “xmas”(圣诞)或 “christmas”(圣诞节)或任何含有以上二者的短语,搜索栏下会显示七彩的灯串。
搜索 “festivus”,将会在结果侧边显示朴实的铝杆,以承认世俗节日 Festivus 的存在。同时,在搜索结果数量前,将显示 “一个 Festivus 奇迹!”(A festivus miracle!)。该彩蛋 2012 年 12 月 10 日推出。
搜索 “zerg rush” 返回的页面将会带有不停移动的字母 “O”,“O” 将蚕食页面上的所有内容。用户可点击三次 “O” 以清除。此彩蛋参考自早期暴雪娱乐的游戏星际争霸,其包含角色 “虫族 rush”。不可避免地,“O” 会破坏所有内容,并分别由黄色和红色的 “O” 组合成两个 “G”,参考自在线对战的礼貌性结束用语 “GG”,指 “good game”。
搜索 “Conway’s Game of Life” 返回的搜索结果页的右上角将播放康威生命游戏以及一组控制钮(播放、暂停、最大化 / 还原、下一步)。若有足够的时间,则会在右侧形成 “Google” 这个词。
搜索 “恐怖” 或 “万圣节” 只要将鼠标光标悬停在页面,返回结果随着三只停在右上角蝙蝠飞走。此彩蛋于 2012 年 10 月 31 日推出。
搜索 “yes yes” 播放流行的米姆剪辑。
搜索 “how much wood could a woodchuck chuck if a woodchuck could chuck wood”(如果土拨鼠能夹木头,那么一只土拨鼠能夹多少木头)( **请注意:**仅可通过语音搜索)将带来标准结果,但 Google 的语音会说:(英语:a woodchuck would chuck as much wood as a woodchuck would chuck if a woodchuck could chuck wood.)
搜索 “epic sax guy” 播放 2010 年欧洲歌曲节的由欧洲流行三人组合乐队 SunStroke Project 的歌曲。
搜索 “dreidel”搜索 “menorah” 会在搜索结果页面左上角显示一个光明节陀螺,右上角显示一个犹太教灯台。
搜索 “marquee html” 会使搜索结果页面的 “找到约 x 条结果 (用时 y 秒)” 水平循环滚动,就像使用了 marquee HTML 元素一般。
生命、宇宙以及任何事情的终极答案,the answer to the ultimate question of life, the universe, and everything = 42
搜索字母 e 可以调出计算器
https://www.google.com/humans.txt 显示了一个纯文字文件,内容旨在于提醒用户 Google 不仅创建于技术基础上,且由许多人共同创建。它也欢迎有兴趣的用户访问他们的职业页面。
好玩项目
快速解答
在 Google 搜索框中输入数学公式,进行单位转换和颜色拾取时,如何快速获得答案。
天气:搜索天气可查看您所在地点的天气信息,如果在 “天气” 后加上城市名(例如天气北京),则可查看相应城市的天气信息。
字典:在任意字词前加上定义即可查询其定义。
计算:输入数学公式(例如 3*9123)或求解复杂的图形公式。

在 Google 搜索框中输入计算式

搜索:计算器Calculator

单位换算:输入任何换算内容,例如 3 美元兑换欧元

在 Google 搜索框中输入转换式

搜索: Unit converter

体育:搜索球队的名称,即可查看相关赛程和比赛得分等信息。
基本信息:搜索名人、地点、电影或歌曲的名称即可看到相关信息。
颜色选择器

在 Google 搜索框中输入颜色代码

搜索:颜色选择器Color Picker

网页快照
缓存链接显示的是 Google 最后一次访问某个网页时该网页显示的内容。为防止当前网页出现无法显示的情况,Google 会为每个网页拍摄快照作为备份。这些网页随即会被纳入 Google 的缓存。如果您点击显示 “网页快照” 的链接,就会看到 Google 先前存储的网站版本。
如果您要访问的网站加载速度很慢或没有反应,则可改为访问相应的缓存链接。教程后面也会讲到如何从 Google 搜索结果中移除缓存版页面(隐私保护方面的需求)。
知识图谱
简述

知识图谱(Knowledge Graph)使用语义检索从多种来源收集信息,以提高 Google 搜索的质量。它于 2012 年 5 月 16 日正式发布,知识图谱除了显示其他网站的链接列表,还提供结构化及详细的关于主题的信息。其目标是让用户使用此功能提供的信息来解决他们查询的问题,而不必导航到其他网站并自己汇总信息。

知识图谱一般呈现在搜索结果页面的右侧单元。

用途

可能很多人在平时的搜索中基本都没怎么正眼瞧过右侧的知识图谱,我想通过全面了解它的特色后,可能会对其价值有重新的认知,从而更好地为你所用。

获取最佳摘要

通过知识图谱,Google 可以更好地理解用户 Query,可以总结围绕该主题的相关内容,包括用户可能需要的特定事项的关键事实。例如,搜索 居里夫人,你会看到她出生和死亡的时间,包括死因,还会得到她的教育和科学发现的详细信息

找到你想要的

如果关键词有歧义或者模糊不清,比如搜索 列侬?是歌手?还是专辑?在 Google 了解其中的差异,并且可以将搜索结果缩小到你想要的范围 —— 只需点击其中一个链接即可查看特定的结果片段:

发现更深度的信息

所有知识图谱中最有趣的部分可以帮助我们做出一些意想不到的发现。可能会看到一个新事实或新项目,按照提示进入查看详细的内容。 比如搜索巴塞罗那,「制定行程计划」中的内容就很棒!

实用回复
简述

Google 创始人拉里・佩奇 (Larry Page) 曾这样描述理想的搜索引擎:能够准确理解你的意图,并返回你所需的确切信息。因为所有用户都希望获得针对其查询的快速解答

Google 每年对搜索做出的改进高达上千项,我们无法一一悉知这些具体的改进,所以我们有必要在平时的搜索中留意 —— 针对哪些特征的搜索,Google 会提供一目了然的实用回复,而无需我们再点击进入某个结果页面。这对提升我们的搜索体验和效率都是有帮助的。

搜索指令 search

id: 62ff2caf-ac46-4309-b394-5ea2c60d7937

官方常用搜索技巧
搜索指令功能示例
@搜索社交媒体@twitter
$搜索特定价格camera $400
#搜索 # 标签throwbackthursday
-从搜索结果中排除特定字词马云语录 - 女人
""搜索完全匹配的结果”tallest building”
..在某个数字范围内执行搜索camera 100
OR(大写)组合搜索marathon OR race
site:搜索特定网站site:chongbuluo.com
related:搜索相关网站related:time.com
info:获取网站详情info:giffox.com
cache:查看网站的 Google 缓存版本cache:google.com
补充

以下补充搜索技巧非出自官方的简明文档,但仍旧为官方承认且截止目前实测仍旧有效,故作补充。

搜索指令功能示例
\效用等同于 ORapple\google, apple OR google
*泛搜索,表征未知部分,只适用于英文* is the mother of success
《》只查询图书、影视作品,只适用于中文《钢铁是怎样炼成的》
def:查询关键词的定义def:diversity / google def:
inurl查找在 URL 地址里有搜索关键词的页面inurl:download
intitle查找在网页标题里有搜索关键词的页面intitle:
filetype查找特定文件格式的结果机器学习 filetype:csv
link:查看网站的反向链接link:chongbuluo.com
AROUND搜索包含给点单词之间最大分隔数的网页华为 AROUND (5) 必然
Other via: ((62ff3356-2417-4426-9107-f722bdb25763))

案例:索引搜索

当然!虫部落・快搜 - 索引搜索 即是利用了更为复杂的搜索指令,它由 Google 搜索驱动。以下是借助搜索指令的代码片段:

function search() {
let type = button.innerText;
let query = searchBox.value;
let commonToAll = `
-inurl:(jsp|pl|php|html|aspx|htm|cf|shtml)
-inurl:(index_of|listen77|mp3raid|mp3toss|mp3drug|index_of|wallywashis)
intitle:\"index.of./\"
`;
- const extensions = {
'视频': '(avi|mkv|mov|mp4|mpg|wmv)',
'音频': '(ac3|flac|m4a|mp3|ogg|wav|wma)',
'电子书': '(CBZ|CBR|CHM|DOC|DOCX|EPUB|MOBI|ODT|PDF|RTF|txt)',
'图片': '(bmp|gif|jpg|png|psd|tif|tiff)',
'软件/游戏': '(apk|exe|iso|rar|tar|zip)',
'压缩包': '(apk|exe|iso|rar|tar|zip|7z)'
}

search 代码大全

  • 而搜索:世界名著 的完整 Query 为:intext:"世界名著" (CBZ|CBR|CHM|DOC|DOCX|EPUB|MOBI|ODT|PDF|RTF|txt) -inurl:(jsp|pl|php|html|aspx|htm|cf|shtml) -inurl:(index_of|listen77|mp3raid|mp3toss|mp3drug|index_of|wallywashis) intitle:"index.of./"。这里面即用到了 intext: ; - ; inurl: ; | ; intitle: ; "" 等八种搜索指令。
  • intext:"代码大全" (CBZ|CBR|CHM|DOC|DOCX|EPUB|MOBI|ODT|PDF|RTF|txt) -inurl:(jsp|pl|php|html|aspx|htm|cf|shtml) -inurl:(index_of|listen77|mp3raid|mp3toss|mp3drug|index_of|wallywashis) intitle:"index.of./"
  • 杂到无力手动输入,所以借助 虫部落・快搜 - 索引搜索 的傻瓜式输入关键词查询为我们搜索到网络深层的资源提供了更多可能,同时扩展了各位的搜索技能。
  • 各位还可以尝试更多的关键词,比如 权利的游戏,以及其英文名 Game of Thrones 等关键词,结合左侧下拉菜单中的六种选项进行搜索尝试和练习。

Google 高级搜索

简述
  • Google 高级搜索提供了可视化的输入界面,并且有诸多高级搜索指令没有涉及的功能。借助高级搜索页面,各位可以缩小复杂搜索查询的搜索结果范围。例如,你可以查找过去 24 小时内更新的网站或浏览黑白图片
分类
高级搜索过滤项
  • 网页
    • 语言
    • 区域
    • 最后更新时间
    • 网站或域
    • 搜索字词出现在网页上的位置
    • 安全搜索
    • 阅读水平
    • 文件类型
    • 使用权限(查找您有权限使用的页面)
  • 图片
    • 尺寸
    • 宽高比
    • 颜色
    • 类型(脸部特写、动画等)
    • 网站或域名
    • 文件类型
    • 安全搜索
    • 使用权限(查找您有权使用的图片)

Google 地图搜索

Google 图片搜索

Google 图片搜索是在 2001 年 7 月 12 日推出的,2011 年 6 月,它增加了反向图像搜索功能。

美国唱片艺术家和女演员 Jennifer Lopez 在 2000 年 2 月 23 日举行的第 42 届格莱美奖颁奖典礼上穿着异域绿色 Versace 真丝雪纺连衣裙。纯粹的面料印有热带叶子和竹子图案,剪裁的领口非常低远远超过洛佩兹的肚脐,而礼服的腰部则镶嵌着黄水仙。

这件服装立即获得了全球媒体的广泛报道,并且与 Elizabeth Hurley 的黑色 Versace 连衣裙一起被引用作为最受瞩目的连衣裙之一,这使得设计师 Versace(范思哲)成为家喻户晓的名字。

而这件衣服的大量居然成为了创建 Google 图片搜索的动力!因为在 2000 年,Google 搜索结果仅限于带有链接的简单文本页面,但开发人员正在努力进一步开发,实现了图像搜索需要回答他们迄今为止看到的最流行的搜索查询:Jennifer Lopez’s green dress。因此,Google 图像搜索诞生了。

Google 反向图像搜索
  • 通过提交图像作为查询进行搜索。结果可能包括类似的图像,网页结果,带有图像的页面,以及图像的不同分辨率。
算法执行
  • 分析图像:分析提交的图像以查找颜色,点,线和纹理等标识符。
  • 生成查询:图像的这些不同特征用于生成搜索查询。
  • 匹配图片:查询与 Google 后端的图片进行匹配。
  • 返回结果:Google 的搜索和匹配算法会将匹配和视觉上相似的图像作为结果返回给用户。

Google 学术搜索

Google 图书搜索

Google 专利搜索

案例: Google 界面专利

Google 数据集搜索

利用 Google 数据集搜索 工具,你可以通过简单的关键字搜索来查找整个网络中存储的数据集。该工具可搜索有关整个网络上数以千计的存储区中托管的数据集的信息,从而让这些数据集可供大众使用,让人人受益。

开发团队相信,这个项目还能够带来下列好处:a) 形成数据共享生态系统,鼓励数据发布者依照最佳做法来存储和发布数据;b) 为科学家提供相应平台,方便大众引用他们创建的数据集,展现他们的研究成果所带来的影响力。

随着越来越多的数据集存储区使用 schema.org 及类似标准 来描述数据集,用户能在数据集搜索工具中查找的数据集的种类和覆盖率也将持续增加。

关键词示意
关键词描述
weather site:noaa.govNOAA 站内气候相关数据集
boston education data波士顿教育数据集
population of chengdu in China成都人口数据集
中国旅游中文搜索结果相对较少
重庆气温中文搜索结果相对较少
machine learning寻找机器学习中模型训练所需数据集
应用

例如,如果您想分析每日天气记录,可以在数据集搜索中尝试此查询:

你将看到来自 NASA 和 NOAA 的数据,以及来自哈佛大学的 Dataverse 和大学间政治与社会研究联盟(ICPSR)等学术资料库的数据。

Talk to Books

Google 发布了运用「词向量」人工智能技术的搜索引擎 Talk to Books。词向量是一种自然语言处理形式,两个词向量的差值对应词的关系,词向量的距离则对应词的相关或相似性。对于选定的一组词,将其向量投影到空间中,词义相近的词向量在向量空间中表现出聚类现象。陈述一件事或提出一个问题,Talk to Books 就会在书中找出能回答你的句子,这种方法不依赖关键词匹配

通过 Talk to Books,Google 提供了一种全新的图书搜索方式。用户陈述一件事或提出一个问题,它就会在书中找出能与之形成对话的句子,这种方法不依赖关键词匹配,可以帮助你找到关键词搜索未必找得到的有趣书籍,但是仍有改进空间。

尽管目前的 Talk to Books 可能对于各位来说并没有多大用处,但作为一门力图系统化的教程,我想有必要和各位一起了解和鉴证 AI 技术之于搜索的改变,对世界永远保持一颗好奇心。

Samples

Talk to Books 可以按照艺术、小说、科学、历史和宗教等十个门类对搜索的图书进行过滤,点击 Go! 左边的菜单按钮即可。对了!Talk to Books 目前仅支持英文。下面来看几个样例:

📚 Why did World War I happen?(截图展示的是 Google 翻译后的页面)

📚 What causes cancer?

Google 趋势

Google 趋势(英语:Google Trends)是监控人们关注点变化的一种方式。它可以让你探索人们在查询中使用的关键词,以及人们搜索特定关键词的次数、地点和时间。Google 趋势为我们提供了一种深入了解人们想法的极好方式。

用途
  • 借助 Google 趋势,你可以:
    • 查看人们何时提交了很多关于某个主题的查询;
    • 发现人们随着时间的推移,提问方式的变化;
    • 比较一个主题的两种不同类型的 Query,看看哪一个更常见。
  • 你可以比较:
    • 使用不同的关键字;
    • 查询来自世界各地的主题;
    • 随着时间的推移,观察搜索主题的变化。
  • 这样做可以让你了解人们如何思考某个主题以及你可能选择搜索某个主题的方式。如果你有关键词 A 和关键词 B,并且你发现 A 比 B 的搜索量多十倍,那么你可能就不想使用后者了。
年度热搜榜
案例:Hip hop 和 Rap

通过 Google Trends 比较两种不同的音乐,hiphop (嘻哈) 和 rap (说唱)。看看它们的搜索趋势如何。

1.6 关键的关键词

1.7 图片搜索

1.8 桌面搜索

1.9 细分领域・再版计划

1.10 搜索的万花筒

1.11 搜索的奇技淫巧

1.12 搜索的魅力谈资

1.13 疏通搜索的路径

1.14 信息的真实性

Tips

  • 能用 Google 就不用百度,从源头远离李鬼
  • 对于不熟悉的领域,利用 官网 等关键词组合查询
  • 找对了权威平台,接下来还要结合自己的需求注意信息的时效性

卡夫卡的名言

  • 首先要遵守一个基本点:先问是不是,再问为什么

百度信息「掉真」·比较严重

1.15 信息的时效性

1.16 信息的权威性

1.17 综合能力习题

1.18 虫部落社区内容精选

索求助版块

精准搜索版块