Fix MLTransform vocab CI dependency and formatting issues

aIbrahiim · aIbrahiim · commit 021405e10d0c · 2026-04-30T21:28:37.000+03:00
diff --git a/sdks/python/apache_beam/examples/ml_transform/mltransform_generate_vocab.py b/sdks/python/apache_beam/examples/ml_transform/mltransform_generate_vocab.py
@@ -258,13 +258,13 @@ def run(argv=None, test_pipeline=None):
   _ = (
       token_lists
       | 'MLTransformInput' >> beam.Map(lambda tokens: {'tokens': tokens})
-      | 'ApplyMLTransform' >> MLTransform(
-          write_artifact_location=artifact_location).with_transform(
-              ComputeAndApplyVocabulary(
-                  columns=['tokens'],
-                  top_k=known_args.vocab_size,
-                  frequency_threshold=known_args.min_frequency,
-                  vocab_filename='vocab'))
+      | 'ApplyMLTransform' >>
+      MLTransform(write_artifact_location=artifact_location).with_transform(
+          ComputeAndApplyVocabulary(
+              columns=['tokens'],
+              top_k=known_args.vocab_size,
+              frequency_threshold=known_args.min_frequency,
+              vocab_filename='vocab'))
       | 'ExtractTransformedTokens' >> beam.Map(lambda row: row.tokens)
       | 'FlattenTokens' >> beam.FlatMap(list)
       | 'DropEmptyTokens' >> beam.Filter(bool))
@@ -278,8 +278,8 @@ def run(argv=None, test_pipeline=None):
           vocab_filename='vocab',
           column_name='tokens'))
   output_tokens = [known_args.oov_token]
-  output_tokens.extend(token for token in vocab_tokens
-                       if token != known_args.oov_token)
+  output_tokens.extend(
+      token for token in vocab_tokens if token != known_args.oov_token)
   if len(output_tokens) == 1:
     logging.warning(
         'No tokens remained after filtering; writing only reserved token %r.',
diff --git a/sdks/python/apache_beam/examples/ml_transform/mltransform_generate_vocab_test.py b/sdks/python/apache_beam/examples/ml_transform/mltransform_generate_vocab_test.py
@@ -20,7 +20,10 @@
 import tempfile
 import unittest
 
-from apache_beam.examples.ml_transform import mltransform_generate_vocab
+try:
+  from apache_beam.examples.ml_transform import mltransform_generate_vocab
+except ImportError:  # pylint: disable=bare-except
+  raise unittest.SkipTest('tensorflow_transform is not installed.')
 
 
 class MLTransformGenerateVocabUnitTest(unittest.TestCase):