搜索引擎市场饱和了吗?并没有 。因为新的技术还在不断的更迭换代 。最近,Peak Labs发布了一款新的搜索引擎,名字叫做Magi,用户在界面键入关键词,即可获取Magi从互联网文本中自主学习到的结构化知识和网页搜索结果,每个结构化结果后面都会附上来源链接和其可信度评分 。

文章插图
其实Magi很早以前就已经做出来了,并且一直在修改 。Peak Labs能够 exhaustively 提取重叠交错的知识,且不利用 HTML 特征;不预设 predicate / verb,实现真正意义上的 “Open” Information Extraction;配合自家 web 搜索引擎以评估来源质量,信息源和领域不设白名单;大幅提升实时性,热点新闻发布后几分钟内,就可以搜到结构化知识了;没有前置 NER 和 dependency parsing 等环节,减少母文本信息的损失;技术栈完全 language-independent,可以实现低资源和跨语言 transfer 。
具体来说,Magi 不再依赖于预设的规则和领域,不带着问题地去学习和理解互联网上的文本信息,同时尽可能找出全部信息而非挑选唯一最佳 。Magi通过终身学习持续聚合和纠错,为人类用户和其他人工智能提供可解析、可检索、可溯源的知识体系 。

文章插图
【magi搜索引擎好用吗 magi搜索引擎怎么样】普通用户可以随时体验公众版的 magi.com,以文本的形式检索和查看知识,而程序则可以选择通过 DSL 或向量化的形式访问 Magi 更为广阔的结构化网络 。
Peak Labs还做到了不再使用 HTML 标签特征,直接处理纯文本 。众所周知,HTML 的标签信息能提供额外的语义信号,让信息提取变得清晰 。Crestan et al的调查显示大约 75% 的页面带有 table,排除用于导航和排版的,仍有 12% 的 table 是有语义价值的,可见仅通过 HTML Table Mining 就能获得很多有意义的数据 。
此外还能配合自家 web 搜索引擎以评估来源质量,信息源和领域不设白名单,并且大幅提升实时性,热点新闻发布后几分钟内,就可以搜到结构化知识了 。

文章插图
通用性是提取模型和算法层面的属性,而若要真正提供有价值的服务,还需要数据方面的支持 。公众版的 magi.com 致力于从互联网信息中寻找有价值的数据,让原本被埋没于字里行间的知识有机会走入到各种知识图谱中,同时作为背景知识来迁移学习增强垂直领域的定制化服务 。
然而,互联网语料质量参差不齐,抄袭拼接、自动生成、恶意篡改等行为会造成大量事实性错误,甚至可能让模型在持续的学习调整过程中越来越差 。对于这些问题,Peak Labs都进行了优化处理 。
推荐阅读
- 婴儿背巾好不好用
- 求介绍好用的拼车APP
- 苹果自带的地图好用吗
- 电话自动外呼系统哪里有 网络电话呼叫软件哪个好用
- 最好用什么汤底配云吞面
- 哪一种浏览器最好用
- 安卓浏览器哪个好用又简单 安卓浏览器哪个好用又简单点
- NARS高光蜜粉饼好用吗
- 水尚的化妆品好用吗
- HAKU啫喱美白化妆水好用吗