java可以爬取运行软件的数据，十亿行挑战显示 Java 可以在两秒钟内处理十亿行的文件

专业互联网培训机构——完成蜕变以后轻松拿高薪

电话+V： 152079-09430 ，欢迎咨询java可以爬取运行软件的数据，[python实用课程]，[C++单片机原理]，[C#、PHP网站搭建]，[Nodejs小程序开发]，[ios游戏开发]，[安卓游戏开发]，[教会用大脑用想法赚钱实现阶层跨越]

java可以爬取运行软件的数据

一、准备工作

在进行数据爬取之前，我们需要先做一些准备工作。首先，我们需要安装Java开发环境，如JDK（JavaDevelopmentKit）。其次，我们需要选择一个合适的爬虫工具或框架，如Jsoup、HttpClient等。这些工具和框架可以帮助我们更方便地发送HTTP请求、解析HTML文档以及处理数据。

二、编写爬虫程序

1.发起HTTP请求

我们需要使用Java编写一个爬虫程序，用于发起HTTP请求并获取目标软件的数据。我们可以使用Java内置的HttpURLConnection类或者第三方库如HttpClient来实现这一功能。在发起请求时，我们需要设置请求头信息，如User-Agent、Accept等，以便模拟浏览器行为并提高爬虫的成功率。

2.解析HTML文档

当我们成功获取到目标软件的数据后，接下来需要对其进行解析，提取出我们感兴趣的信息。我们可以使用Jsoup等解析库来解析HTML文档，通过CSS选择器或XPath表达式来定位并提取数据。在这个过程中，我们需要仔细分析目标软件的页面结构，找到数据所在的标签和属性，以便准确地提取信息。

3.数据处理与存储

在提取到数据之后，我们需要对其进行处理，如去重、格式化等，以满足我们的需求。此外，我们还需要将数据存储起来，以便于后续分析和使用。我们可以将数据保存为CSV、JSON等格式的文件，或者直接将其插入到数据库中。

三、生成HTML格式

在完成数据爬取和处理后，我们可以将结果生成HTML格式的文件，以便于查看和分享。我们可以使用Java内置的FileWriter类或者第三方库如ApacheVelocity来生成HTML文件。在生成HTML文件时，我们需要设计合适的页面结构和样式，使得结果易于阅读和理解。同时，我们还可以添加一些交互功能，如分页、搜索等，以提高用户体验。

十亿行挑战显示Java可以在两秒钟内处理十亿行的文件

InfoQ

2024-02-0812:00发布于北京InfoQ官方账号

+关注

作者|OlimpiuPop\t\t\t译者|平川\t\t\t策划|Tina\t2024年的第一天，Decodable高级软件工程师GunnarMorling向Java社区发起了十亿行挑战（1BRC）。这项挑战将持续到1月底，目标是找到在最快时间内处理10亿行的Java代码。到目前为止，最快的算法可以在2.5秒内完成处理。

挑战的规则很简单：只能使用SDK特性，可以是任何Java发行版。因此，解决方案中不能借助外部库或数据存储。为了更好地了解这一挑战，InfoQ联系了Morling、GoTo首席软件工程师EliotBarlas、OpenValueRotterdam总监RoyvanRijn以及Oracle软件开发副总裁兼GraalVM创始人ThomasWuerthinger。

\t\tInfoQ：这是一项令人兴奋的挑战。您能描述一下吗？其背后的动机是什么？\tMorling：1BRC是一项编码挑战，它的任务看似简单：解析文本文件中的温度测量值，并确定每个气象站的最小、最大和平均温度。需要注意的是：该文件有10亿个条目！

我想创造一个机会来探索高性能编程技术、新引入的API（比如VectorAPI——它利用了CPUSIMD指令）、不同Java发行版的特性，以及任何能证明Java已经变得非常快的东西。

\t\tInfoQ：如何参与这项挑战？\tMorling：可以先看下README文件，并克隆存储库。尝试实现自己的解决方案，并看看其他人做了什么尝试——归根结底是为了学习。

\t\tInfoQ：您在解决方案中有看到什么出人意料的东西吗？\tMorling：有人采用了黑客的做法：许多解决方案针对特定的键集合（即天气预报站名称）做了优化。这对于这个特定的数据集是有效的。在社区的帮助下，我们澄清了挑战的目的。

有许多解决方案很有趣：使用SIMD和新特性Java原生内存API（这是我希望看到的），以及高度优化的解析函数，包括SWAR（寄存器内SIMD），这是我没有预料到的。到目前为止，致力于实现最快算法的人们已经深入到原生优化领域，计算CPU指令，评估分支预测错误等。

\t\tInfoQ：请描述下您的解决方案。有什么技术是您想要尝试的吗？\tEliotBarlas：我的解决方案是按照可用处理器的数量拆分文件。对于每一个部分，都有一个任务在单独的线程上计算每个气象站的统计信息。当这些任务完成后，最终结果将汇总到最终的统计数据表中。

对每一部分中的数据做内存映射，并通过可以覆盖整个分区字节范围的MappedByteBuffer进行访问。任务会使用ByteBuffer遍历分区中的数据，每次一个byte或int。我还使用sun.misc.Unsafe将气象站名称提取并存储为整数序列。

RoyvanRijn：我的解决方案是一种渐进式的解决方案。一开始，它使用SDK提供的普通数据结构和API（如BufferedInputStream或HashMap）。逐步地，它演变成使用Unsafe来直接访问内存。并行性、无分支代码和实现SWAR（SIMD作为寄存器）使我的解决方案成为迄今为止最主要的竞争者之一。对于存储，我自己实现了一个“非常简单”的hashmap，其底层是基于线性探查概念的数组。

ThomasWuerthinger：该解决方案的第一部分将工作负载按照目标处理器的可用核数进行划分，以便可以并行处理。它使用Java的特性对输入文件做内存映射，从而实现最有效的直接内存访问。解析数据的最内层循环所采用的技术设法避免了分支代码，代之以一些复杂的算术和位操作。对于这个特定的问题，由于输入的随机性，处理器经常会做出错误的分支预测，因此避免分支是最大化性能的关键。

\t\tInfoQ：您的解决方案还有可能进一步改进吗？\tBarlas：我一直在关注Panama项目，但1BRC提供了一个以应用方式探索外部内存能力的机会。[…]我还未能成功地利用Panama项目的VectorAPI实现加速。例如，开始时，我尝试使用ByteVectorAPI来快速比较气象站名称。我想使用其他类型的向量或结合MemorySegment接口重新实现这个过程。

Wuerthinger：现在可能的改进在很大程度上取决于目标硬件。具体来说，可以在内存带宽、计算带宽和分支预测依赖方面进行权衡。

RoyvanRijn：从大的方面来讲，方法是类似的。我目前正在尝试探索的概念是“机械同情（mechanicalsympathy）”，我希望改进需要执行的指令，让它们以一种最适合测试机器的方式执行。

\t\tInfoQ：您怎么看新年伊始的这项有趣的挑战？\tMorling：可以肯定的是，Java及其生态系统和社区比以往任何时候都更加繁荣！看到这么多人参加挑战，包括一些非常知名的开发者，真是令人鼓舞。每个人都在学习：要么通过编码，要么通过阅读代码。能有这么多人参加这项挑战，实在是离不开社区的帮助。

这一挑战受到了程序员社区的热烈欢迎，Morling说，“这一切都远远超出了我的预期。”尽管领跑者似乎是在GraalVM上运行的解决方案，但也有提交使用了OpenJDK构建、AmazonCorretto或EclipseTemurin。Morling进一步评论说：“Graal非常适合眼下这项任务，可以额外提供几个百分点的性能提升。”

这个挑战已经不限于Java生态系统，已经有使用Rust、Go、C++甚至SQL和Shell编写的解决方案。

Morling感谢了社区和Decodable——他们提供了评估用的机器。

https://www.infoq.com/news/2024/01/1brc-fast-java-processing/

声明：本文为InfoQ翻译，未经许可禁止转载。

【FUTURE PROGRAMMING COURSE】尊享对接老板

电话+V： 152079-09430

机构由一批拥有10年以上开发管理经验，且来自互联网或研究机构的IT精英组成，负责研究、开发教学模式和课程内容。公司具有完善的课程研发体系，一直走在整个行业发展的前端，在行业内竖立起了良好的品质口碑。