magi搜索引擎好用吗 magi搜索引擎怎么样 _搜索引擎

搜索引擎市场饱和了吗？并没有。因为新的技术还在不断的更迭换代。最近，Peak Labs发布了一款新的搜索引擎，名字叫做Magi，用户在界面键入关键词，即可获取Magi从互联网文本中自主学习到的结构化知识和网页搜索结果，每个结构化结果后面都会附上来源链接和其可信度评分。

文章插图
其实Magi很早以前就已经做出来了，并且一直在修改。Peak Labs能够 exhaustively 提取重叠交错的知识，且不利用 HTML 特征；不预设 predicate / verb，实现真正意义上的 “Open” Information Extraction；配合自家 web 搜索引擎以评估来源质量，信息源和领域不设白名单；大幅提升实时性，热点新闻发布后几分钟内，就可以搜到结构化知识了；没有前置 NER 和 dependency parsing 等环节，减少母文本信息的损失；技术栈完全 language-independent，可以实现低资源和跨语言 transfer 。
具体来说，Magi 不再依赖于预设的规则和领域，不带着问题地去学习和理解互联网上的文本信息，同时尽可能找出全部信息而非挑选唯一最佳。Magi通过终身学习持续聚合和纠错，为人类用户和其他人工智能提供可解析、可检索、可溯源的知识体系。

文章插图
【magi搜索引擎好用吗 magi搜索引擎怎么样】普通用户可以随时体验公众版的 magi.com，以文本的形式检索和查看知识，而程序则可以选择通过 DSL 或向量化的形式访问 Magi 更为广阔的结构化网络。
Peak Labs还做到了不再使用 HTML 标签特征，直接处理纯文本。众所周知，HTML 的标签信息能提供额外的语义信号，让信息提取变得清晰。Crestan et al的调查显示大约 75% 的页面带有 table，排除用于导航和排版的，仍有 12% 的 table 是有语义价值的，可见仅通过 HTML Table Mining 就能获得很多有意义的数据。
此外还能配合自家 web 搜索引擎以评估来源质量，信息源和领域不设白名单，并且大幅提升实时性，热点新闻发布后几分钟内，就可以搜到结构化知识了。

文章插图
通用性是提取模型和算法层面的属性，而若要真正提供有价值的服务，还需要数据方面的支持。公众版的 magi.com 致力于从互联网信息中寻找有价值的数据，让原本被埋没于字里行间的知识有机会走入到各种知识图谱中，同时作为背景知识来迁移学习增强垂直领域的定制化服务。
然而，互联网语料质量参差不齐，抄袭拼接、自动生成、恶意篡改等行为会造成大量事实性错误，甚至可能让模型在持续的学习调整过程中越来越差。对于这些问题，Peak Labs都进行了优化处理。